Hadoop2.X—讓你的MapReduce跑起來

MapReduce Hadoop HDFS Vi 卡弗卡大數據 2017-05-04

期望你的閱覽是有價值的，因為我們堅守每一篇的質量
期望你的關注是持續的，因為我們堅守知識的連續與完整

是時候來跑一個MapReduce程序了。但前提是你得把環境整好。基於前兩篇的文章，先把HDFS環境部署好，讓數據穩穩的存儲下來。

卡弗卡大數據告訴你如何在YARN上面並行跑我們的MapReduce程序！

第一步：配置YARN

配置/opt/modules/hadoop-2.5.0/etc/hadoop/yarn-site.xml文件，在文件中添加如下的內容：

配置告訴YARN運行的是MapReduce

<property>

<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>

配置ResourceManager的服務節點是哪個機器

<property>
<name>yarn.resourcemanager.hostname</name>
<value>bigdata-senior01.kfk.com</value>
</property>

保存文件。

第二步：啟動HDFS服務NameNode和DataNode

$ sbin/hadoop-daemon.sh
$ sbin/hadoop-daemon.sh

第三步：啟動YARN的ResourceManager

$ sbin/yarn-daemon.sh start resourcemanager

第四步：啟動YARN的NodeManager

$ sbin/yarn-daemon.sh start nodemanager

第五步：Web頁面訪問YARN

通過頁面訪問yarn WEB服務，默認端口號是8088
http://bigdata-senior01.kfk.com:8088

Hadoop2.X—讓你的MapReduce跑起來

第六步：配置MapReduce程序

MapReduce程序的運行模式有兩種：一種是運行在本地，一種是運行在YARN上面。

我們首先配置一下MapReduce運行在YARN上面的配置文件mapred-site.xml文件。

具體配置內容如下：在mapred-site.xml文件加入如下的內容：

<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>

保存文件。

其中mapreduce.framework.name默認的屬性值為local。我們現在把它配置在YARN上面運行，所有屬性值為yarn。

第七步：創建數據文件

$ touch wc.input
$ vi wc.input

編輯如下的內容，我們來對一下內容做一個詞頻統計：

kfk kafuka
kafuka henry
henry kfk
lele henry
kafka henry
kfk kafuka

保存。

第八步：在HDFS上創建目錄

$ bin/hdfs dfs -mkdir -p /user/kfk/wordcount/input

第九步：上傳數據文件

$ bin/hdfs dfs -put /opt/datas/wc.input /user/kfk/wordcount/input

Hadoop2.X—讓你的MapReduce跑起來

第十步：運行mapreduce程序

$ bin/yarn jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.5.0.jar wordcount /user/kfk/wordcount/input/wc.input /user/kfk/wordcount/output/

我們運行的是hadoop自帶的MapReduce程序。

注意：mapreduce的輸出目錄是不能被指定，也不能是重複的。

數據源： /user/kfk/wordcount/input/wc.input

輸出源：/user/kfk/wordcount/output/

第十一步：查看結果

運行完成之後，我們去/user/caojinbo/wordcount/output/這個目錄查看wordcount的運行結果。

$ bin/hdfs dfs -cat /user/kfk/wordcount/output/part-*

文件的結果如下：

kfk 3
henry 4
kafka 1
kafuka 3
lele 1

從結果中我們可以看出MapReduce不僅做了單詞的統計，而且還做了排序。

通過text讀取HDFS文件。text的優點是將所有的文件轉換成text文本文件。而cat只能讀取文本文件。

至此基於YARN的MapReduce是如何運行的，我們就講完了！

相關推薦

'挑一挑哪款數據庫是你的菜？'

"數據庫分類概述據《福布斯》報道，世界上百分之九十的數據是在過去的兩年裡產生的。如果說數據是數字經濟的燃料，那麼數據庫就是引擎的關鍵部分。自20世紀70年代（關係數據庫誕生）以來，眾多數據庫供應商在大約300億美元ODBMS市場上利用新技術進行了顛覆式創新。近些年，顛覆式...

數據庫 NoSQL 數據結構 SQL Microsoft SQL Server 雲計算 IBM MySQL PostgreSQL Azure MongoDB Hadoop Neo4J Hortonworks SAP公司亞馬遜公司 ElasticSearch 微軟開源軟件 Redis Cloudera 技術 Aurora 電子商務 Google 2019-09-18

'國產品牌小型SUV 6萬左右遠景X3 OR 寶駿510 誰是你的菜？'

"遠景X3 官方指導價1.5升 109馬力2019款升級版 1.5L 手動進取型前置前驅5擋手動 5.29萬2019款升級版 1.5L 手動精英型前置前驅5擋手動 5.59萬2019款升級版 1.5L 手動尊貴型前置前驅5擋手動 5.99萬2019款升級版 1...

寶駿汽車運動型多用途車寶駿510 多功能休旅車設計 Vi 吉利汽車五菱宏光 2019-09-14

'阿里巴巴程序員推出了的一份Linux 學習清單，這一定是你最需要的'

"第一階段Linux+搜索+hadoop體系Linux基礎→shell編程→高併發架構→lucene,solr搜索→hadoop體系→HDFS→mapreduce→hbase→zookeeper→hive→flume→sqoop→項目實戰第二階段機器學習R語言→mahout...

Linux Spark 程序員 HDFS MapReduce Hadoop 大數據 HBase Storm 阿里巴巴集團 Java 工程師機器學習算法雲計算 Lucene Python Docker Hive 好好學習網絡硬盤 Solr 數據庫 R語言數據挖掘 2019-09-09

'為什麼有些餐飲能做成品牌，有些卻不行？看完你就懂了'

"品牌化是做餐飲不可缺少的一個環節，隨著消費升級的到來，以及越來越多的餐廳出現，建立一個深入人心的品牌就顯的至關重要了。現實也是如此，即便是街邊小店，或者一些小吃品類也都開始了自己的品牌化之路。餐飲品牌到底是什麼？餐飲發展的過程就是品牌塑造的過程。在現在來講，每一個餐飲投...

海底撈麥當勞最in買手君全聚德歷史文化狗不理包子萬物嚐鮮節 Vi 跳槽那些事兒 2019-09-08

'全新馬自達頂配細節實拍，帥不能當飯吃，賣現款價格你買單麼？'

"外觀：毋庸置疑，更帥了基本照搬了海外版馬自達6的設計，其中銀色網狀格柵替代了舊款的橫幅式進氣格柵，展現出來的氣勢感更強。內飾：更簡潔了，質感好很多保持舊款車型的設計風格前提下，其內部線條設計得更加簡潔以及整體化，符合當今車壇內飾的設計走向，同時加強了內飾用料質感。座椅：頂...

馬自達馬自達6 設計 Vi 2019-09-08

'全球最厲害的 14 位程序員，你認識幾位？'

"排名不分先後。01Jon Skeet個人名望：程序技術問答網站 Stack Overflow 總排名第一的大神，每月的問答量保持在 425 個左右。個人簡介/主要榮譽：谷歌軟件工程師，代表作有《深入理解C#(C# In Depth)》。網絡上對Jon Skeet的評價：“...

程序員 Linux Google 算法林納斯·託瓦茲 Emacs 毀滅戰士文本編輯器 BigTable GCC Facebook 編譯器 LISP MapReduce Spanner 黑客射擊遊戲理查德·斯托曼程序設計電腦 Infosys 軟件 Id Software 0verflow 設計人生第一份工作 GNU Git Stack Overflow 操作系統技術雷神之錘 FPS遊戲工程師設計師分佈式計算 Doom 2019-09-05

'30萬落地！30歲成功人的座駕，你能開上一輛都算“人生贏家”'

"成功的標準千百萬種，成功沒有唯一的標準。但是人生混得好不好，就有客觀評判標準了。講真一句，30歲之前，能開得上這幾款車中的任意一款，都算人生贏家了。30萬落地，你能開得起哪一款？奧迪A4L 2019款 40 TFSI 進取型國VI指導價：30.08萬元奧迪轎車當年在國內...

轎車奔馳捷豹奧迪雷克薩斯汽車奔馳C級奧迪A4L 雷克薩斯ES BMW 3系設計 Vi 2019-08-30

'兄弟，用大白話告訴你小白都能看懂的Hadoop架構原理'

"專注於Java領域優質技術，歡迎關注來自：石杉的架構筆記（id：shishan10）目錄一、前奏二、HDFS的NameNode架構原理一、前奏Hadoop是目前大數據領域最主流的一套技術體系，包含了多種技術。包括HDFS（分佈式文件系統），YARN（分佈式資源調度系統），...

Hadoop HDFS MySQL 技術 SQL 大數據 Spark 數據庫分佈式計算 Hive Java MapReduce 設計電子商務 2019-08-28

'你還不知道嗎？靠轉型大數據漲薪的日子已經一去不復返了'

"前言前兩天我和朋友突然聊起這個話題，經過一番討論還是想寫下自己的觀點，其實我個人認為大數據還是值得轉型的，但是想著只靠一個技能翻身的機會沒了在 2013 年，大數據剛剛嶄露頭角，有一大批程序員，在那個時間點，踏上了靠轉型大數據升職加薪的日子。在那個時候，只要稍微懂一點點 ...

大數據工程師 Scala 算法技術 Hadoop 數據挖掘機器學習跳槽那些事兒 Python Java Linux Hive 可視化技術 SQL 人生第一份工作 OpenCV 腳本語言程序員 MySQL Storm HBase Java虛擬機 Spark 深度學習 MapReduce 2019-08-25

'沒有編程基礎，看到這篇文章你就能學Python啦'

"在人工智能日趨成熟的時代裡，有大量的數據需要被處理。同時，在 AI、VR 以及無人汽車、無人機和智能家居的數據處理中我們都能看到 Python 的身影，這就促使企業未來對 Python 的需求將會不斷提升。至於 Python 火爆的原因，在我看來，無非就是以下兩點：1. ...

Python 人工智能編程語言 Scrapy 文章數據庫 Linux Redis 網絡爬蟲 NoSQL SQL CSS 設計 Google MongoDB HTML HDFS 泛函編程 Flask 程序設計搜索引擎設計模式電腦 Mac電腦人生第一份工作 jQuery 智能家居 MySQL Nginx HTML5 2019-08-25

'分佈式系統你會設計了嗎？不會阿里架構師來教你設計'

"1. 分佈式系統相關概念1.1 模型1.1.1 節點節點是一個可以獨立按照分佈式協議完成一組邏輯的程序個體，工程中往往指進程。1.1.2 通信節點之間完全獨立互相隔離，通信唯一方式是通過不可靠的網絡。1.1.3 存儲節點可以通過將數據寫入與節點在同一臺機器的本地存儲設備保...

設計 Java 技術 MapReduce 可視化技術 GFS 通信鼠標 2019-08-23

'推薦！12本看完讓你大呼過癮的大數據入門必讀經典'

"本書單是鑑於本人多年浸淫大數據領域的經驗，按照學習大數據的階段和技術所列的書單，適合剛剛接觸大數據領域的新人。話不多說，直接上書單！第一階段：大數據基礎語言的學習Java語言基礎：Java開發介紹、熟悉Eclipse開發工具、Java語言基礎、Java流程控制、Java字...

大數據數據庫 Java Hadoop 推薦技術算法 Spark Hive 人工智能 Storm 技術 R語言 Python JavaScript Linux 編程語言分佈式計算程序員 Eclipse WebApp HTML Scala 跳槽那些事兒 CSS SQL Redis Apache jQuery HTML5 HBase 需求分析 2019-08-22

'連你也能看懂的大數據之Hadoop——Hbase，得之幸之'

"通過之前的介紹，我們瞭解了Hadoop框架下兩個核心技術，我們發現這兩個核心技術有一個共同的不足：操作數據延時性較高，不適合實時操作的場景。那麼今天我們來看看Hadoop框架下可以實現實時讀寫訪問的組件——Hbase。工程師什麼是Hbase?曉智Hbase全稱為Hadoo...

HBase Hadoop 大數據數據庫 HDFS 技術設計數據結構物理 MapReduce 分佈式計算通信 SQL 穿越火線工程師 2019-08-20

'朗逸，讓我愛你，價格，讓我恨你。落地價格真實抖摟啦'

"之前發表一篇大眾新款朗逸的配置，各種配置豐富，很惹人喜歡，但是價格呢，本文負責把網上大眾化的價格給抖出來。熱門車型官方指導價如下：2019款 1.5L 自動舒適版國VI手自一體13.99萬2019款 1.5L 自動風尚版國VI手自一體12.49萬2018款 280T...

上海大眾朗逸江蘇 Vi 大眾汽車文章廣西 2019-08-19

'想要讀懂大數據，你不得不先掌握這些核心技術'

"說起大數據，很多人都能聊上一會，但要是問大數據核心技術有哪些，估計很多人就說不上一二來了。從機器學習到數據可視化，大數據發展至今已經擁有了一套相當成熟的技術樹，不同的技術層面有著不同的技術架構，而且每年還會湧現出新的技術名詞。面對如此龐雜的技術架構，很多第一次接觸大數據的...

大數據技術數據庫數據挖掘 Hadoop 算法可視化技術分佈式計算設計 NoSQL 操作系統機器學習網絡爬蟲 MySQL 軟件 HDFS HBase 硬件 2019-08-19

'我為什麼推薦你買這四款低配車？除了便宜，還有這些理由'

"不少消費者在購車時都會糾結選低配還是高配，要是買低配的話，恐怕很多車型的配置都不夠滿足用戶的使用需求。若是選購高配車型的話，用戶體驗固然更好，但多出來的高級配置就意味著得花費更高的購車預算。所以，今天就給大家找到了幾款即使入手低配也能享受高配待遇的車型，一口氣滿足大夥對高...

別克君威設計凱迪拉克雷克薩斯ES 東風本田汽車本田技研工業轎車原汁原味的德系SUV 體育雷克薩斯汽車 BMW X1 別克汽車雷達豐田汽車 Vi 本田雅閣 BMW 汽車展覽思鉑睿 2019-08-17

'英雄聯盟有這麼多隱藏彩蛋你知道嗎？'

"1..妹控蓋倫對拉克絲使用大招時，會削弱30傷害。因為拉克絲是蓋倫的妹妹。2.亞索的恩怨當銳雯進行3連斬時，亞索會說：輕盈的3連斬——其實亞索是在懷疑，因為他知道殺死自己師傅的人用的是御風劍術，而銳雯用的就是這套劍術。另外還有：我們都要面對自己的舊賬，銳雯。3.金克絲、艾...

英雄聯盟皮卡丘蓋倫暴走蘿莉斯卡口袋妖怪提莫亞洲黑熊皮卡車 Vi 2019-08-17

'小空間承載大夢想代步首選東風悅達起亞奕跑'

"小型SUV逐漸成為了年輕人的首選代步工具，即使是在空間上相比常規SUV稍打折扣，但其小巧伶俐的車身尺寸卻是穿梭於都市中的絕佳通勤工具。最重要的是，東風悅達起亞奕跑新車不到10萬的售價，說它是最便宜的合資SUV，一點也不為過。車身外觀方面，奕跑沿用了海外版起亞Stonic大...

起亞汽車運動型多用途車設計東風悅達起亞汽車 Vi 2019-08-16

推薦中...