尚學堂Java學習筆記：MapReduce 工作原理

編程語言 MapReduce Java HDFS 北京尚學堂Java學院北京尚學堂Java學院 2017-08-27

我們通過 Client、JobTrask 和 TaskTracker 的角度來分析 MapReduce 的工作原理：

首先在客戶端（Client）啟動一個作業（Job），向 JobTracker 請求一個 Job ID。將運行作業所需要的資源文件複製到 HDFS 上，包括 MapReduce 程序打包的 JAR 文件、配置文件和客戶端計算所得的輸入劃分信息。這些文件都存放在 JobTracker 專門為該作業創建的文件夾中，文件夾名為該作業的Job ID 。JAR文件默認會有10個副本（mapred.submit.replication 屬性控制）；輸入劃分信息告訴了 JobTracker應該為這個作業啟動多少個 map 任務等信息。

JobTracker 接收到作業後，將其放在一個作業隊列裡，等待作業調度器對其進行調度當作業調度器根據自己的調度算法調度到該作業時，會根據輸入劃分信息為每個劃分創建一個 map 任務，並將 map 任務分配給TaskTracker 執行。對於 map 和 reduce 任務，TaskTracker 根據主機核的數量和內存的大小有固定數量的 map 槽和reduce槽。這裡需要強調的是：map任務不是隨隨便便地分配給某個TaskTracker的，這裡就涉及到上面提到的數據本地化（Data-Local）。

TaskTracker 每隔一段時間會給JobTracker 發送一個心跳，告訴 JobTracker 它依然在運行，同時心跳中還攜帶著很多的信息，比如當前map任務完成的進度等信息。當JobTracker 收到作業的最後一個任務完成信息時，便把該作業設置成“成功”。當JobClient 查詢狀態時，它將得知任務已完成，便顯示一條消息給用戶。

Map 端流程：

1)每個輸入分片會讓一個map任務來處理，map 輸出的結果會暫且放在一個環形內存緩衝區中（該緩衝區的大小默認為100M，由io.sort.mb 屬性控制），當該緩衝區快要溢出時（默認為緩衝區大小的 80%，由io.sort.spill.percent 屬性控制），會在本地文件系統中創建一個溢出文件，將該緩衝區中的數據寫入這個文件。

2)在寫入磁盤之前，線程首先根據reduce 任務的數目將數據劃分為相同數目的分區，也就是一個 reduce 任務對應一個分區的數據。這樣做是為了避免有些 reduce 任務分配到大量數據，而有些 reduce任務卻分到很少數據，甚至沒有分到數據的尷尬局面。其實分區就是對數據進行 hash 的過程。然後對每個分區中的數據進行排序，如果此時設置了 Combiner，將排序後的結果進行 Combine 操作，這樣做的目的是讓儘可能少的數據寫入到磁盤。

3) 當 map 任務輸出最後一個記錄時，可能會有很多的溢出文件，這時需要將這些文件合併。合併的過程中會不斷地進行排序和 Combine 操作，目的有兩個：

儘量減少每次寫入磁盤的數據量；

儘量減少下一複製階段網絡傳輸的數據量。最後合併成了一個已分區且已排序的文件。為了減少網絡傳輸的數據量，這裡可以將數據壓縮，只要將 mapred.compress.map.out 設置為true 就可以了。

4) 將分區中的數據拷貝給相對應的 reduce 任務。分區中的數據怎麼知道它對應的 reduce 是哪個呢？其實 map 任務一直和其父 TaskTracker 保持聯繫，而 TaskTracker 又一直和JobTracker 保持心跳。所以 JobTracker 中保存了整個集群中的宏觀信息。只要 reduce 任務向JobTracker 獲取對應的map 輸出位置就可以了。

尚學堂Java學習筆記：MapReduce 工作原理

Reduce 端流程：

1) Reduce 會接收到不同map任務傳來的數據，並且每個map傳來的數據都是有序的。如果 reduce 端接受的數據量相當小，則直接存儲在內存中（緩衝區大小由 mapred.job.shuffle.input.buffer.percent 屬性控制，表示用作此用途的堆空間的百分比），如果數據量超過了該緩衝區大小的一定比例（由mapred.job.shuffle.merge.percent決定），則對數據合併後溢寫到磁盤中。

2) 隨著溢寫文件的增多，後臺線程會將它們合併成一個更大的有序的文件，這樣做是為了給後面的合併節省時間。其實不管在 map 端還是 reduce 端，MapReduce 都是反覆地執行排序，合併操作，所以排序是 hadoop 的靈魂。

3)合併的過程中會產生許多的中間文件（寫入磁盤了），但MapReduce會讓寫入磁盤的數據儘可能地少，並且最後一次合併的結果並沒有寫入磁盤，而是直接輸入到reduce 函數。

在Map處理數據後，到 Reduce得到數據之前，這個流程在 MapReduce中可以看做是一個 Shuffle 的過程。

在經過 mapper 的運行後，我們得知mapper的輸出是這樣一個 key/value 對。到底當前的 key 應該交由哪個 reduce 去做呢，是需要現在決定的。MapReduce 提供 Partitioner 接口，它的作用就是根據 key 或 value 及 reduce 的數量來決定當前的這對輸出數據最終應該交由哪個 reduce task 處理。默認對 key做hash後再以 reduce task 數量取模。默認的取模方式只是為了平均 reduce 的處理能力，如果用戶自己對 Partitioner 有需求，可以訂製並設置到 job 上。

相關推薦

'Java是什麼？為什麼要學習Java?Java有哪些特點？'

"在正式開始Java學習之前，先來了解幾個關鍵性問題。那就是什麼是Java，為什麼要學習Java，Java 有哪些特點，Java 有哪些機制，如何來學習 Java 等幾個問題。通過這幾個問題讓大家瞭解 Java 的一些內容，從而展開 Java 的學習。1、java是什麼？J...

Java Java虛擬機軟件程序員虛擬機操作系統編程語言網頁遊戲 NetBeans 集成開發環境 Eclipse 設計硬件瀏覽器 UNIX Android 工商銀行文本編輯器 Mac電腦技術中國建設銀行人生第一份工作銀行 2019-09-19

'30周Java學習計劃清單，分享神級教程帶你飛！確定不整一波？'

"我一直相信：一切不能實實在在幫助到大家的資料，都是耍流氓我的目標是：做一次又一次真正有價值、愉悅感十足的分享Java+大數據+互聯網架構，不斷深入前沿領域學習Java，首先要學JavaSE，這是毋庸置疑的。與此同時，和JavaSE的學習同步，建議大家研究一下數據結構與算...

Java 算法數據結構程序員 Eclipse 人生第一份工作設計編程語言技術設計模式 Apache 讀書大數據小遊戲集成開發環境 2019-09-18

'進軍IT界初學Java制定的學習任務清單，這可能是你當前最需'

"IT行業飛速發展，除了水漲船高的薪資水平，還有不斷推陳出新的編程技術。不同的技術，應用在不同的領域。但對於小白來說，想要投身這個行業，我該從何學起？那些應用領域是未來的大趨勢？而我未來的學習方向又有哪些呢？學編程，用Java確實是一個相當不錯的選擇。不過，面對Java網上...

Java 技術設計設計模式數據庫 JSP 程序員數據結構虛擬機 Nginx 算法面向對象程序編程人生第一份工作程序設計 SQL 俄羅斯方塊 XML Tomcat 2019-09-13

'Java架構師筆記丨用了10多年的 Tomcat 居然有bug，這能忍？'

"為了解決分佈式鏈路追蹤的問題，我們引入了實現OpenTracing的Jaeger來實現。然後我們為SpringBoot框架寫了一個starter以讓用戶實現近零改造接入全鏈路。由於公司有一個封裝了SpringBoot的內部框架，然後我們的starter就以最新框架所使用的...

Tomcat Java Nginx 2019-09-13

'面試必備：Java 原子操作的實現原理「精品長文」'

"本文整理自《Java併發編程的藝術》第二章作者：方騰飛魏鵬程曉明原子（atomic）本意是“不能被進一步分割的最小粒子”，而原子操作（atomic operation）意為“不可被中斷的一個或一系列操作”。在多處理器上實現原子操作就變得有點複雜。讓我們一起來聊一聊在...

Java 英特爾人生第一份工作中央處理器 X86 鎖舞 Line 2019-09-08

'表演式加班：白天花時間學習，晚上再發力工作'

"現在996盛行，相信很多人都有加班的經歷吧。搞互聯網的，在現在這種環境下相信絕大部分每天都在加班吧。但是，真的每天都有這麼多忙不完的工作嗎？筆者表示是不相信的。相信更多時候，都是看著周圍的人不下班，然後自己也不敢先走吧。今日，在某職業論壇看到一位阿里程序員吐槽：身邊一群奮...

跳槽那些事兒 MySQL 程序員 Java 工程師 2019-09-07

'一個 Python 程序員的自述：我其實一直在用Java工作！文末附乾貨'

"每當我告訴別人，大家的反應都是：“為啥是Java？”說實話，本人剛開始的時候也是同樣的反應。但是由於Java的類型安全，執行性能和堅如磐石的工具，我漸漸地開始欣賞Java。同時我注意到，現在的Java已今非昔比 —— 它在過去的10年間穩健地改善著。為何是Java？假設每...

Java Java虛擬機 Python 程序員 Go語言泛函編程編譯器 Clojure Scala Twitter 虛擬機編程語言 Ruby Erlang 算法 Google Linkedin 亞馬遜公司 2019-09-05

'編程語言學習之——Java'

"Java是一門面向對象編程語言，不僅吸收了C++語言的各種優點，還摒棄了C++裡難以理解的多繼承、指針等概念，因此Java語言具有功能強大和簡單易用兩個特徵。Java語言作為靜態面向對象編程語言的代表，極好地實現了面向對象理論，允許程序員以優雅的思維方式進行復雜的編程。J...

Java Java虛擬機編程語言程序員 NetBeans 集成開發環境 EditPlus IBM 設計 IntelliJ IDEA 軟件虛擬機人生第一份工作 Eclipse Sun公司 2019-09-05

'阿里架構師深度解析java技術原理，小白如何學習java到架構師'

"一、Java 運行原理1、高級語言運行過程在程序真正運行在CPU上之前，必須要讓OS的kernel理解我們在編輯器或者IDE里根據每種語言的語法規則敲入的源代碼，kernel才能做出相關的調度，所以需要先將源代碼轉化成可執行的二進制文件，這個過程通常由編譯器完成。有些編譯...

Java Java虛擬機技術中央處理器電腦編譯器程序員 ARM 虛擬機集成開發環境操作系統英特爾硬件人生第一份工作 2019-09-04

'零基礎進軍Java必備！java基礎學習—網絡編程總結'

"一、網絡基礎概念首先理清一個概念：網絡編程！= 網站編程，網絡編程現在一般稱為TCP/IP編程。二、網絡通信協議及接口三、通信協議分層思想四、參考模型五、IP協議每個人的電腦都有一個獨一無二的IP地址，這樣互相通信時就不會傳錯信息了。IP地址是用一個點來分成四段的，在計...

Java 電腦通信技術 2019-09-03

'關於併發框架 Java原生線程池原理及Guava與之的補充'

"使用Java中成型的框架來幫助我們開發併發應用即可以節省構建項目的時間，也可以提高應用的性能。 Java對象實例的鎖一共有四種狀態：無鎖，偏向鎖，輕量鎖和重量鎖。原始脫離框架的併發應用大部分都需要手動完成加鎖釋放，最直接的就是使用synchronized和volatile...

Java 中央處理器算法操作系統 Linux 硬件 MapReduce Java虛擬機 2019-09-03

'鴻卓課工場—應該學習更多的Java編程技術還是大數據和雲計算技術'

"首先，學習更多的編程技術與學習大數據和雲計算並不衝突，Java語言也是大數據和雲計算領域比較常見的開發工具，所以完全可以同步進行。隨著大數據、雲計算和人工智能相關技術的發展，目前從事技術開發的程序員崗位也出現了一些比較顯著的變化，從技術崗位上來看，有兩個崗位的人才需求數量...

Java 大數據技術雲計算程序員跳槽那些事兒電腦 2019-09-03

'有一部分程序員還不知道Java 中的註解到底是如何工作的？'

" 自Java5.0版本引入註解之後，它就成為了Java平臺中非常重要的一部分。開發過程中，我們也時常在應用代碼中會看到諸如@Override，@Deprecated這樣的註解。這篇文章中，我將向大家講述到底什麼是註解，為什麼要引入註解，註解是如何工作的，如何編寫自定義的...

Java 程序員 XML 編譯器集成開發環境技術人生第一份工作讀書 Java虛擬機 2019-09-02

'清華學霸總結26周Java學習計劃，免費神級教程帶你飛'

"我一直相信：一切不能實實在在幫助到大家的資料，都是耍流氓我的目標是：做一次又一次真正有價值、愉悅感十足的分享Java+大數據+互聯網架構，不斷深入前沿領域需要本文資料可以關注、私信小編“資料”獲取！！！學習Java，首先要學JavaSE，這是毋庸置疑的。與此同時，和Ja...

Java Eclipse 算法數據結構程序員清華大學人生第一份工作設計編程語言技術 Apache 設計模式讀書集成開發環境小遊戲大數據 2019-08-30

'「基於Docker編排MySql集群瘋狂實戰」視頻學習筆記'

"概要：1. Docker compose 概念與基本命令2. MySql主從架構原理3. Docker 一鍵編排MySql集群實戰講師介紹：花名：魯班曾就職於萬達、雲猴Java高級架構師、近十年開發管理經驗，擅長互聯網項目實戰。負責整體架構、會員體系建設、大促技術保障。...

Docker MySQL SQL Nginx 數據庫 Java Links Redis 技術設計 2019-08-28

'怎麼還在糾結學Java還是python，未來大數據才是王道，附學習教程'

"如今的大數據不再是一個流行術語，在大數據行業火熱的發展下，大數據幾乎涉及到所有行業的發展。國家相繼出臺的一系列政策更是加快了大數據產業的落地，預計未來幾年大數據產業將會蓬勃發展。未來大數據產業發展的趨勢之一：與雲計算、人工智能等前沿創新技術深度融合。大數據、雲計算、人工智...

大數據 Java 技術數據庫 Storm Python 工程師 Hadoop Spark 人生第一份工作電腦算法 HBase 雲計算 HDFS 人工智能 Hive Scala 設計王道 SQL MapReduce 2019-08-27

'這可能是19年最新Java學習路線最完整，最詳細的版本了，沒有之一'

"文章有點長，請大家耐心看完，話不多說直接上乾貨！一門永不過時的編程語言——Java 編程開發。Java編程語言佔比：據官方數據統計，在全球編程語言工程師的數量上，Java編程語言以900萬的程序員數量位居首位。而且很多軟件的開發都離不開Java編程，因此其程序員的數量最...

Java 工程師人生第一份工作程序員編程語言軟件設計設計模式 2019-08-25

'go 學習筆記之詳細說一說封裝是怎麼回事'

"關注公眾號[雪之夢技術驛站]查看上篇文章 go 學習筆記之go是不是面嚮對象語言是否支持面對對象編程？雖然在上篇文章中,我們通過嘗試性學習探索了 Go 語言中關於面向對象的相關概念,更確切的說是關於封裝的基本概念以及相關實現.但那還遠遠不夠,不能滿足於一條路,而是應該儘可...

Go語言算法設計編譯器文章集成開發環境技術編程語言 2019-08-25

'學習Java必知必會的34個核心知識點，你掌握了嗎？'

"1. 面向對象和麵向過程的區別面向過程優點：性能比面向對象高。因為類調用時需要實例化，開銷比較大，比較消耗資源，所以當性能是最重要的考量因素的時候，比如單片機、嵌入式開發、Linux/Unix等一般採用面向過程開發缺點：沒有面向對象易維護、易複用、易擴展面向對象優點：...

Java Java虛擬機虛擬機 Linux 編譯器 JSP 電腦 Windows 操作系統設計程序設計人生第一份工作 UNIX 2019-08-24

'你真的知道註冊中心原理嗎？不妨先來學習一下 ZooKeeper'

"原文： http://www.justdojava.com/2019/08/10/zk-baisic-knowledge/主題：ZooKeeperDubbo 通過註冊中心在分佈式環境中實現服務的註冊與發現，而註冊中心通常採用 ZooKeeper，研究註冊中心相關源碼繞不...

Java 數據結構 2019-08-23

推薦中...