MapReduce這樣的工作機制，你也可以Get到

MapReduce 程序員文章 Java 技術妞妞 2017-06-14

上一篇文章的結尾留下了一個疑問，Map-Reduce是如何解決數據負載和數據均衡問題的？今天的這篇文章將給出答案。MapReduce是一種移動計算但不移動數據的計算框架，所謂的移動計算其實還拷貝程序而不拷貝數據，在整個集群中，文件已經以數據塊的大小存儲在集群中的節點上，MapReduce操作的則是這些具備高可用，高容錯性的數據塊。

我們對應下圖來大體的說明一下MapReduce的工作機制，數據塊存儲在HDFS的DataNode上，MapReduce其實就可以理解為兩個java程序，它們接收到一個數據塊，首先劃分為split，也就是分片處理，一個map進程處理一個split，這裡無論是map程序還是reduce程序必須保證兩個函數都是以鍵值對作為輸入和輸出，程序員需要自行編寫map和reduce兩個函數。

然後對map函數處理過的結果中的Key值按照字典進行排序，在sort這一部分還包括了分區、溢寫以及Combiner操作，從下圖中可以詳細看到MapReduce的內部數據處理、整合以及傳遞的過程。下圖是單獨拿出一個map進程和reduce進程的圖示，經過map處理得到的結果在map的緩衝區中，計算結果進行分區，這裡的分區可以用函數來定義怎麼分區，當map緩衝區放不下map的計算結果時，就會溢寫到磁盤中，並且同時進行Combiner操作，這裡的Combiner是把map輸出結果中key相同整合成一個大的存儲空間，為了減少向Reduce進程進行數據傳輸的消耗，從圖中可以看出map task 和reduce task的fetch過程。

MapReduce這樣的工作機制，你也可以Get到

這裡可以利用MapReduce的經典例子來解釋Map task都完成了哪些操作，下圖是一個統計文件中單詞個數的操作，輸入的上文件其中一個數據塊，劃分成了3個Split,Mapping 計算統計處了自己所處理的split的單詞個數，在Shuffling中就會進行分區、排序、溢寫以及Combiner的操作，比如在Mapping下第二個Mapping的處理結果Car 1 Car 1 River 1 就可以做Combiner操作，具備相同key的記錄整合成一個，變成Car 2再溢寫到磁盤上。

MapReduce這樣的工作機制，你也可以Get到

回到我們在開篇提到的那個問題，對於MapReduce能解決數據傾斜的問題，首先明確數據傾斜是怎樣發生的，數據傾斜的發生指的是在集群中有的節點需要處理大量的數據，而有的結果則只會處理很少的數據，這樣就發生了數據傾斜。而其實上解決數據傾斜最關鍵的一步則是Partition分區過程，下面我們通過了解Partition過程來了解分區是如何解決數據傾斜問題的。

MapReduce這樣的工作機制，你也可以Get到

Partition過程是可以由程序員編寫代碼來控制的，也就是說我們的代碼採用的分區策略會影響解決數據傾斜問題的效果。舉個栗子，假設我們利用%2來分區，那麼只會有0或者1兩種結果，這兩種結果就會對應兩個分區，所有的map 處理後的結果都採用相同的分區策略，也就是說不同的map輸出的結果經過分區、排序、Combiner等操作後可能傳遞到同一個reduce進程上來處理，這是因為分區0對應著處理分區0的reduce進程，分區1對應著處理分區1的reduce進程。而reduce的個數則有用戶需求來決定，需要多個輸出結果則設置多個reduce task,數據少則設置比較少的reduce task。最終輸出的Reduce則整合結果，最終輸出。

看完這篇文章你基本瞭解MapReduce的工作機制了麼？歡迎扔鞋底~

相關推薦

'為什麼勸你要認真對待工作，對副業要慎重，原來商家是這樣套路你'

"近兩年大家都在討論一件事情，那就是很多人現在非常想存錢，但是會發現存錢好像越來越難了。工資雖然每年都有所提高，但是好像就是存不下錢來。這其中固然有我們自身購買慾望越來越高的原因存在，但是同樣也跟商家的精心設計脫不了干係。案例1你在逛商場的時候,一位和藹可親的導購小姐拉住你...

人生第一份工作自媒體鞋市場營銷文章心理學化妝品化妝面膜攝影設計 2019-09-18

'履行“街長制”職責李國民副區長到阜民路開展巡查工作'

"為認真貫徹全面實施“街長制”推動城市精細化管理，進一步落實“四城聯創”工作，努力打造“安全、整治、有序、文明”的城區交通環境。9月12日上午，萬秀區副區長、公安分局局長李國民到阜民路檢查創城工作，城南街道辦事處、公安交警萬秀大隊、萬秀公安綜合警務大隊、萬秀執法大隊萬秀區環...

交通廣西梧州跳槽那些事兒法律文章 2019-09-18

'寶寶的“升級之路”！從出生到1週歲全過程，你家寶寶也是這樣嗎'

"文|小暖媽媽說（文章原創，版權歸本作者所有）每個寶寶都是父母的掌中寶、心頭肉，從出生開始，家長們都竭盡所能的將最好的送給寶寶，可隨著時間的流逝，寶寶的一舉一動都有些模糊，今天，我們就一起回顧和了解一下，寶寶從出生到1週歲的成長之路！▼▼▼第一個月：寶寶剛出生不久，體內的精...

不完美媽媽文章 2019-09-15

'營養飲食｜“飲食控糖”寶典，你也可以試試哦'

"《中國居民膳食指南（2016）》中建議，平均每天至少攝入12種食物，每週至少25種。對於成人來說沒有任何一種食物能夠滿足全部營養素需求，每一種食物都有它的營養優勢。所以建議糖友能夠均衡的攝入各類食物，食物的種類越廣泛越好。對於糖尿病患者更應該避免挑食、偏食等習慣。根據年齡...

蔬菜紅薯水果茄子洋蔥燕麥糖尿病紫甘藍捲心菜酸奶麵條便祕薏米跳槽那些事兒黃瓜低血糖文章玉米 2019-09-14

'苦瓜你吃對了嗎，這樣吃可以保留食材有效營養成分，可不能吃錯了'

"如果您喜歡我的美食文章，請點擊上面“關注”，會有更精彩的美食文章奉獻給您！在所有的味道里面，“苦”是一種最不受歡迎的味道。但是，往往越是苦味的東西，對人體越有意想不到的好處。今天，我要發表的“味”道，恰巧就是“苦”味。一提起苦瓜，人們的第一印象就是味道苦苦的、外表很醜的一...

苦瓜文章味精蔬菜關愛吃貨成長協會糖尿病香油調味品高血壓雞精 2019-09-13

'魯迅懟人合集的名言，你也可以來試試看'

"懟那個時代居多。“一見短袖子，立刻就想到白臂膊，立刻就想到全裸體，立刻想到生殖器，立刻想到性交，立刻想到雜交，立刻想到私生子。中國人的想象唯在這一層能夠如此躍進."周先生也曾說過別的更有意思的話，“浪費別人的時間等於謀財害命。”到了現在，甚至以後這句話都不會被遺棄，當然我...

魯迅雞湯小說技術不完美媽媽語文文章 2019-09-13

'程序員面試瞭解到工作要求：是你找兒子還是我找爹？Bug都不讓有'

"一位程序員分享出了他與HR的交流截圖公司招聘員工要求肯定是多的，這個可以理解。但是，有的要求奇葩到你根本沒法理解。俗話說代碼5分鐘，bug兩小時。敲代碼出現bug實在是再平常不過的事情了，而且bug這個東西就算是技術大拿也同樣沒有辦法避免。而且這個東西很多時候也與技術無關...

程序員人生第一份工作跳槽那些事兒 Google Python 技術 2019-09-12

'江湖俗稱小人蔘，學會了我這幾點，你也可以種出營養豐富的胡蘿蔔'

"胡蘿蔔，被稱為小人蔘，特別的營養，很多人都特別的喜歡吃，既可以做熟食用，也可以生吃，可做成多種美味的菜餚，所以在餐桌是經常可以看到他的身影。胡蘿蔔首先講一下它的營養價值：1、益肝明目：胡蘿蔔含有大量胡蘿蔔素，有補肝明目的作用，對夜盲症有一定的改善作用胡蘿蔔2、增強免疫功能...

胡蘿蔔讀書蚜蟲象鼻蟲農藥文章 2019-09-12

'巧用毛線，你也可以做手工達人'

" 毛線可以做什麼樣的手工?除了織毛衣外，毛線還能做出不樣的創意手工，沒想到小小的毛線還有這樣的功能，做成裝飾畫、掛飾、編繩等，感覺毛線像萬能的手工材料一樣。現在我們一起來看看如何使用毛線做一些簡單的小手工吧。毛線掛飾你需要準備的材料和工具：木棍，毛線，剪刀製作步驟如下...

文章 2019-09-09

'怎麼可以讓孩子變得開心呢？你get到了嗎'

"Hello大家好，歡迎關注笑看世界育兒說，我們專注兒童心理與營養健康領域。如果你在育兒的過程中有疑問的話，可以隨時來探討。我會每天分享身邊的一些育兒知識，給寶媽一些幫助，如果你認為我的文章對你有幫助的話，可以轉發加關注。希望經過我們的努力，能夠讓寶寶們健康快樂的成長！孩子...

不完美媽媽文章 2019-09-09

'用20%精力搞定80%常規任務，用了這個工具你也可以'

"你在工作中有沒有過類似的經歷？預定好會議室開會，卻忘了提前準備鑰匙和拷貝PPT；和別人約好了見面，因突發事件太多，把人家晒在一邊；自己有事要請假，結果忘了提前交接，耽誤了進度，得罪了客戶；…工作中總有那麼多意外，打得我們措手不及。明明認為自己提前安排好了，最後卻總要出差錯...

人生第一份工作市場營銷 PowerPoint 良心國貨大賞大象程序員電腦 2019-09-08

'服裝生意好的門道簡單到也就是這樣'

"最繁忙的這個月，服裝廠都在加班生產，不為別的，不都是為了賺錢呀。包括你看廠裡的員工，也都沒有任何怨言，一個月拿上一萬多，就是你不讓員工幹，去休息一下，員工也不願意。這種情況會一直持續到9月底，十一國慶節前後，到了那時，想在加班，可能就沒現在這麼多貨，基本上那時也就有個小淡...

服裝跳槽那些事兒最in買手君文章 2019-09-05

'馬伊琍離婚後依然活得優雅從容，做到這幾點，你也可以'

" 馬伊琍在發現丈夫出軌後選擇了原諒，表明態度“戀愛雖易，婚姻不易，且行且珍惜”。她一方面希望文章能夠珍惜婚姻，另一方面對自己今後的生活也做出規劃，不再把婚姻當成生活的全部，開始重視自己的事業，她憑藉《我的前半生》成為白玉蘭“視後”，並憑藉電影《找到你》口碑炸裂，迎來了新的...

馬伊琍文章不完美媽媽戀愛高峰經濟科技向善萬家團圓人生第一份工作 2019-09-04

'富裕限制想象，為了300元全勤獎，什麼支持著你生病了也要去上班'

"富裕限制想象，為了300元全勤獎，什麼支持著你生病了也要去上班(當您打開這篇文章時，感恩在我心。在浩瀚的網絡裡，姚志芸堅持正能量的導向，或許微不足道，但您的關注和留言支持就是小編的全部動力。)文/姚志芸富裕限制了你的想象，女子為了300元的全勤獎，生病了仍跌跌撞撞坐公交車...

不完美媽媽人生第一份工作摩托車農村睡眠大學文章發現佩奇春節守護值班 2019-08-31

'粥鋪的雜糧粥為啥這麼香滑，原來祕訣在這裡，學會了你也可以開店'

"秋天天氣轉涼，是進補的最佳時節，今天我要給大家分享一款最近常喝的養生雜糧粥，它是我家愛喝的早餐粥之一。這款粥裡放了黑米、黑豆、紅豆、紅棗、花生等食材，女生每天喝1碗，臉蛋白裡透紅，連敷面膜的錢都省了。煮這樣一大鍋粥成本才幾塊錢，老人小孩都愛喝，媽媽們可以多給家人做。這段時...

冰糖花生黑豆棗子紅豆紅糖文章養生小米粥臘八粥皮蛋瘦肉粥花捲 2019-08-30

'別人的呂布刀刀見血，你卻不能，看了這篇文章，你也可以的'

"大家好，我是王者榮耀營地助手，今天給大家帶來呂布的玩法，別人的呂布那麼厲害，為什麼你就不行了，還不是因為你的玩法有誤，那究竟要怎麼玩呢，我們來看一看技能解析被動：方天畫戟附魔狀態下，所有攻擊會變成真傷，並且會回覆血量，如果一技能放空，就會失去附魔效果。被動的存在，讓呂布面...

呂布文章武器坦克 2019-08-30

'教你最簡單的火鍋吃法，10分鐘就能搞定，學會了你也可以開火鍋店'

"秋風起，又到了吃火鍋的季節，本地的火鍋店生意又開始跑火起來，每次想和先生去吃火鍋，都因為要排長隊只好放棄。像海底撈這樣的名店沒有排上兩三個小時是吃不到火鍋的，我印象最深的一件事就是海底撈剛開張的那幾天，我和先生大概10點鐘趕到那裡，本以為去得比較早，結果號碼已經排到了45...

火鍋西紅柿金針菇冬瓜娃娃菜玉米枸杞文章油潑辣子小米辣番茄醬生抽生薑香菇豆皮芫荽棗子調味品溫暖冬至麥冬蠔油海底撈 2019-08-29

'其實，你不知道的是：你也可以有“開了掛的人生”'

"認識一個學姐。985本科，top3碩士，寫得一手好文章，年收入100萬+，目前正準備寫她的第三本書。這句話，每個字都閃耀著開掛光芒。很多人只想要來一句，哇哦，她簡直就是開掛的人生典範。同樣，對於學姐我也是相當羨慕的。有時候，我經常在想，為什麼她這麼強，擁有這麼多，這些東西...

文章 2019-08-29

'馬伊琍文章結束11年婚姻：我可以放過你，也可以放棄你'

"我可以放過你，也可以放開你。該來的，終歸會來。好一個“一別兩寬”、“各自歡喜”，看起來還很順口，也很像兩個人合計好的一樣。乍一看還以為互相表白，認真一看，原來這是我見過最文藝的分手宣言。還記得5年前，文章出軌，馬伊琍留下的那句曠世名言，至今還言猶在耳，她也一直沒有刪掉：很...

馬伊琍文章不完美媽媽黃金上海 2019-08-27

'帶你瞭解無人機，從控制器到全球定位'

"無人機在航空攝影中的應用在過去的數年內迅速增長，如今市面上已經充滿了各種無人機產品，從小型的消費級機型到複雜的商業應用飛機。無論你是隻想玩玩的初學者，還是想嘗試商業航拍的從業者，對於你們來說，現在都是最好的時代。如果你是一位之前未飛過無人機的小白，無人機飛行可能看起來有點...

無人機 GPS 大疆創新科技有限公司航拍技術照相機智能手機蘋果公司設計文章 2019-08-26

推薦中...