聊Spark與MapReduce做DataMining的差異

NoSQL Spark MapReduce 大數據天善智能 2017-05-16

關注天善智能，走好數據之路↑↑↑

歡迎關注天善智能hellobi.com，我們是專注於商業智能BI，大數據，數據分析領域的垂直社區，學習、問答、求職一站式搞定！

前言：對於一些朋友而言，做技術（包括大數據挖掘、深度學習），優先選擇最潮流的技術，跟上開源社區的節奏，這樣才能讓自己不被這個大數據時代所淘汰，談薪資也才有底氣。出發點也沒錯，可是在我看來，我們對待每一次技術的選型，還應該客觀去結合數據業務的適用場景，也應該認真去做一定的調研分析，知其然，知其所以然。

說明：此文在3月初首發於 大數據挖掘雜談 小密圈。在 影響力與知識傳播 和付費之間，我選擇前者

一、初識Hadoop生態系統

從古到今，數據一直存在著，而所謂的大數據也並不是起源於Hadoop，更不會受限於Hadoop的發展，它會伴隨著宇宙源遠流長著。

但是，大數據這個概念的逐漸爆發得源於2014年左右的Hadoop被推廣使用，這是無可非議的。

整個互聯網每天都會產生巨大的數據量，從G級、到TB、乃至PB和EB級別，這些大數據包括很多方面：生活、網絡、通信、出行和飲食等等，而且越來越多公司開始重視起積累數據了。

1 EB = 1024 PB = 1024 * 1024 TB = 1024 * 1024 * 1024 GB

從2014年~2016年底，在我看來，整個大數據領域做對了兩件事：數據積累和大數據平臺的基礎性建設。

我經常和團隊的開發成員說這樣一句話："當下大數據價值還沒真正挖掘出來，這不是代表我們做的數據產品不夠好，而是整個大環境本身就是這樣。經過這麼多年的努力，可以說整個大數據環境的準備工作已經做完了，接下來的時間就能真正去花心思去彰顯大數據的價值。而且這個時間，我認為不會等太長。"

所以，在這個前期，我們還需要去了解整個Hadoop生態系統所涉及的技術面，這才是以後真正做好大數據挖掘的前提，而不僅僅只考慮到算法和模型這個層次面的技術，知道它的來龍去脈。

Hadoop生態系統

上面這樣的圖，大家都會看到很多類似的，但是真正去了解和使用的朋友不會太多

有時候可以戲稱Hadoop生態圈是一個軟件庫框架，包含了很多重要的組建。但因為有著嚴格的選擇標準，Apache下的項目並不會顯得擁擠和重複，反而各有其職，分別提供特定的服務。

Apache Hive：數據倉庫基礎設施，提供數據彙總和特定查詢。它是最常用的大數據ETL工具，底層的計算引擎支持MR和Spark等。

Apache Spark：Apache Spark是提供大數據集上快速進行數據分析的計算引擎。它建立在HDFS之上，卻繞過了MapReduce使用自己的數據處理框架。適用於實時查詢、流處理、迭代算法、複雜操作運算和機器學習。

Apache Ambari：Ambari用來協助管理Hadoop。它提供對Hadoop生態系統中許多工具的支持，包括Hive、HBase、Pig、 Spooq和ZooKeeper。這個工具提供集群管理儀表盤，可以跟蹤集群運行狀態，幫助診斷性能問題。

Apache Pig：Pig是一個集成高級查詢語言的平臺，可以用來處理大數據集，現在相對而言使用很少了。

Apache HBase：HBase是一個非關係型數據庫管理系統，運行在HDFS之上。它用來處理大數據工程中稀疏數據集，做業務場景建模中使用很多。

其他常見的Hadoop項目還包括Avro、Cassandra、Chukwa, Sqoop和ZooKeeper等等。

我在兩年前針對性創建了一個關於Sqoop1\2的QQ群，感興趣可以去搜，裡面的交流氛圍一直很好

對於一個優秀的大數據挖掘工程師，在整個業務場景建模的過程中，經常會使用到的主要有Hive（用來做數據清洗）、HDFS（存儲模型數據的文件系統）、MapReduce（寫模型需要的分佈式計算框架）、Spark（寫模型需要的迭代式計算框架）和HBase（特殊模型數據存儲）。

後期有文章會單獨介紹如何通過Spark和Hadoop來程序查詢HBase數據和存儲數據

同樣，作為一個優秀的大數據挖掘工程師，更要時刻清楚自己工作在整個大數據生態系統所扮演的角色，以及所處於的位置，至關重要。

聊Spark與MapReduce做DataMining的差異

大數據挖掘所扮演的角色性

短短的這些內容，很難讓你徹底掌握大數據生態圈的很多技術，沒有一個真實的大數據平臺和環境去大量實踐操作，感悟沒這麼深。

但是參與任何分享和學習書本知識，首先就應該抱著一個正確的態度：有了這個印象，線下的時候我需要實操，杜絕看了即忘。

二、知曉Spark的背景與特點

談起Spark，很多人對它特別著迷，甚至一些初學者完全拋棄Hadoop，直接去接觸它，得它得offer。

聊Spark與MapReduce做DataMining的差異

我覺得這樣很不好，任何事，都需要去真正瞭解它的背景，知道它的發展是如何變遷的，你才會使用得更好。

MapReduce的不足

我以往的文章中簡單提到過下面這個概念，在Spark誕生前，MapReduce的使用存在很多侷限性。

第1點：這套分佈式計算框架支持的操作很有限，僅僅有Map和Reduce兩種。

第2點：處理效率很低，中間結果的不斷寫磁盤操作，以及每一次任務的初始化啟動時間、還有強制性的數據排序以及內存的利用率低。

第3點：開發週期長，重複代碼量很多，不簡潔，也不高效。

第4點：實時性不夠高，也不適合進行迭代式計算，使用場景很單一，只針對離線。

所以，由於這些種種因素，迫使得人們渴望一種更全能的計算框架去滿足更多的業務場景需求。

有需求才會有方向，這是最直接的生產力

來自Spark的誕生

Hadoop生態圈的開源社區探索者們就開始思考這個問題："能否有一種靈活的框架，可以包括批處理、流式計算，以及是交互式計算呢？。"

最終召喚神龍，集三者為一體，終究發佈了Spark這樣的迭代式計算框架。

聊Spark與MapReduce做DataMining的差異

集3張卡片召喚神龍

相比MapReduce而言，它有很多自身的優勢，如果簡單粗暴去說，就這三點：高效、易用和集成性高。

而且目前它支持四種語言，Scala、Java、Python和R。

推薦它原生的底層語言，Scala來進行編程，你會有不一樣的收穫

它們執行過程的區別

如果是細問MapReduce和Spark的任務執行過程有什麼區別，我們這裡可以看看它們分別對於執行任務的定義就可以看得出來。

在一些人看來，它們都是向集群提交任務，執行過程不就都一樣？

在我前幾期圈子內的文章裡，我給大家分享了關於MapReduce的編程，裡面詳細去說明了整個MR的執行過程包括Map階段和Reduce階段。

簡單來說，一個MR過程就是一次作業（稱為Task，包含Map和Reduce階段），而一個完整的MR工程可能會包含多次執行作業（稱為Job），有多個執行階段，重複的初始化啟動過程。

而在Spark中，涉及到的概念會更多，而且有差異性。

new SparkContext(new SparkConf().setAppName())

上面的一個SparkContext對應一個Application，而每個Application可能會有一個或多個Job來進行執行。

對於具體的Job，可能會因為數據的因素存在多個Stage來進行處理，最終每個Stage可以包含多個Task去執行。

聊Spark與MapReduce做DataMining的差異

一張圖看懂包含關係

而整個任務進程的生命週期可以通過下面命令來進行查看：

yarn application -list

以上就是關於使用Spark前期，需要去了解的背景知識和它與MapReduce的差異性和自身特點。

下篇涉及內容：

三、Spark和MapReduce編程的差異

四、對於一個算法模型，如何靈活在MapReduce和Spark兩則之間進行轉換

五、面對一個實際的業務場景，怎麼去選擇更合適的實現工具去構建業務場景模型

本文作者：樂平汪二

天善社區博客地址：https://ask.hellobi.com/blog/wanger0728

相關推薦

'做虛假訴訟監督，檢察院裡這個部門超硬核dei！'

"Dei，新檢君好久沒更新Dei，年底KPI即將不達標新檢君就是要整理好素材，等著推這個很剛的部門，第五檢察部民事檢察組！1什麼是民事檢察職能？第五檢察部民事檢察組負責人樑秋芬“可能大家對我們民事檢察的職能還比較陌生，我們民事檢察主要是依法對法院的民事訴訟活動進行法律監督，...

法律銀行民法史可大數據 2019-09-18

'關注 | 2019世界計算機大會，看看大咖們都在聊什麼？'

"“計算萬物湘約未來”9月10日2019世界計算機大會在長沙梅溪湖國際文化藝術中心隆重開幕在開幕式與主論壇上，中國科學院院士、中國人民解放軍軍事科學院院長楊學軍，諾貝爾經濟學獎獲得者芬恩·基德蘭德等17位來自計算、網絡技術等相關領域的著名專家、學者作主題演講。共同探討計算...

電腦技術網絡安全機器人操作系統芬恩·基德蘭德黑客人工智能軟件智能手機楊學軍大數據設計經濟湖南跳槽那些事兒中國電子科技集團物聯網人生第一份工作諾貝爾獎諾貝爾經濟學獎大學長沙國防科學技術大學金融文化習近平藝術 2019-09-18

'曾經數學只考10分的碼農，為什麼離職做了這款產品'

" 科技有溫度。文 | 張超你知道哪個省份的人最注重個人隱私嗎？你知道目前日常法律諮詢中，什麼類型的諮詢佔比最多嗎？AI法律產品“包小黑”最近發佈了大數據統計，通過對幾十萬諮詢用戶的統計，發現目前安徽省的用戶最注重個人隱私，每萬人的涉隱私糾紛數是1.10件，在所有省份中排...

數學程序員人工智能技術法律算法機器人大數據大學人生第一份工作杭州淘寶網阿里巴巴集團工程師萬物嚐鮮節農村摩托羅拉創業支付寶法制大連理工大學 2019-09-17

'分佈式機器學習之——Spark MLlib並行訓練原理'

"這裡是王喆的機器學習筆記的第二十五篇文章。接下來的幾篇文章希望與大家一同討論一下機器學習模型的分佈式訓練的問題。這個問題在推薦、廣告、搜索領域尤為突出，因為在互聯網場景下，動輒TB甚至PB級的數據量，幾乎不可能利用單點完成機器學習模型的訓練，分佈式機器學習訓練成為唯一...

Spark 機器學習分佈式計算並行計算大數據 GPU 算法 Docker 中央處理器工程師文章物理 2019-09-16

'Hadoop、Storm、Samza、Spark和Flink大數據框架分析'

"大數據是收集、整理、處理大容量數據集，並從中獲得見解所需的非傳統戰略和技術的總稱。雖然處理數據所需的計算能力或存儲容量早已超過一臺計算機的上限，但這種計算類型的普遍性、規模，以及價值在最近幾年才經歷了大規模擴展。本文將介紹大數據系統一個最基本的組件：處理框架。處理框架負責...

Hadoop 大數據 Storm Spark HDFS Apache MapReduce 技術設計電腦歷史 2019-09-14

'雲途騰—認真做安全可控國產雲'

"　　在中美貿易戰摩擦不斷升級的背景下，“核高基”產業國產安全可控已刻不容緩。19年6月，為打破寡頭壟斷華為發佈其首款人工智能芯片;19年8月，為佈局國產化產業上下游，中國長城已正式發佈公告併購飛騰;截至目前，國內眾多大、中、小型企業也相繼完成國產兼容認證。國產安全可控早已...

NoSQL 操作系統技術數據庫人工智能軟件雲計算機器人大數據硬件 DevOps 中標麒麟華為公司龍芯英特爾知識產權中央處理器三星集團物理臺灣積體電路製造公司 2019-09-14

'搭檔王一博出演《有翡》，趙麗穎其實做了一個明智的選擇'

"9月11日10點整，電視劇《有翡》正式官宣男女主：趙麗穎和王一博。在官宣的那一刻，粉絲們帶著各種複雜的情緒轉發宣傳，從最初的意難平到慢慢變為接受，內心的不忿也是自我消化，在各種討論中，這部劇倒是未播先火，輿論造勢上就已經佔盡了優勢。然而越是火爆官微的做法越讓人看不懂，宣佈...

頭條女神電視劇後宮甄嬛傳不完美媽媽馮紹峰陳凱歌最美的她花千骨原汁原味的德系SUV 陳建斌電視劇陳情令科幻小說大數據 2019-09-13

'沒錢做研究怎麼辦？賣車！這屆年輕AI人太有“AI”了'

"時下最潮的是做什麼？當然是做AI！想做AI，算力不夠怎麼辦？澳大利亞國立大學薛澂的辦法是——賣車換錢買服務器！9月11日，第五屆百度&西安交大大數據競賽暨IKCEST首屆“一帶一路”國際大數據競賽（以下簡稱競賽）頒獎現場，獲得一等獎的薛澂分享了自己在競賽中遇到的難...

人工智能大數據百度大學澳大利亞國立大學技術西安交通大學潘雲鶴澳大利亞遙感江蘇大學深度學習復旦大學華東師範大學 2019-09-13

'你還在守著塘口做無用功嗎？漁業新時代即將到來，解放雙手的同時，還能實現精準養殖'

"印象中不止一次聽聞，有些養殖戶因為晚上小飲一杯，而放鬆了對塘口的觀察，導致一覺起來看到翻塘的“壯烈”景象，心痛不已；又或者，憑藉所謂的經驗增氧投料，到收穫的時候未獲得想要的產量，卻始終想不清問題出現在哪裡……看多了成功的案例，殊不知這種失敗的例子在我們身邊也比比皆是。隨著...

畜牧業漁業黃顙魚水產養殖技術飼料 4月吃什麼大數據人生第一份工作荊州硬件 2019-09-12

'學做一名成功的Python全棧開發工程師，附教程'

"一、瞭解Python----流行編程語言全球前四大流行語言之一根據TIOBE最新排名，Python已超越C#，與Java,C,C++一起成為全球前4大最流行語言應用幾乎無限制Python被廣泛應用於後端開發、遊戲開發、網站開發、科學運算、大數據分析、雲計算，圖形開發等領...

Python 工程師技術大數據 Java 編程語言人生第一份工作 Linux 網絡爬蟲程序員雲計算數據庫 Facebook C語言人工智能 SQL 創業 2019-09-09

'重新定義對於小店的好品、好價、好服務，讓小店沒有難做的生意'

"作為行業第一快消B2B平臺零售通的掌門人，林小海如何看待行業的發展？發展三年後，零售通給行業交出了一份怎樣的答卷？零售通又如何處理與品牌商、經銷商和友商的關係？8月28日，阿里巴巴零售通“兼木成林容川入海 ”發佈會在杭州雲棲小鎮國際會議中心盛大召開。會議開始前，阿里巴巴...

萬物嚐鮮節市場營銷阿里巴巴集團 B2B 螞蟻金服大數據支付寶 2019-09-08

'為什麼現在適合做股權投資？經濟調整期往往是最好的機會窗口'

"近幾年，金融業與實體經濟的關係越來越緊密。“十九大”報告中就提出，中國最大的一個變化就是社會的主要矛盾發生了根本性的轉變，國家的經濟發展階段已經從高速增長進入到了高質量發展階段。這種轉變帶來了兩個細分的變化：一個是增長模式從傳統的需求拉動轉向了新時代的供需並重；另一個是增...

經濟投資金融銀行技術大數據首次公開募股 2019-09-07

'中介是按什麼順序給你做貸款的'

"今天在這裡給大家簡單介紹下申請網絡小貸的順序，這個是每個中介都必須要走的路，不管你是牛X中介還是網貸大帝，是高手還是小白，都必須要掌握操作網貸的順序，達到最少的時間擼最多的錢，又不傷徵信的目標。有不足的地方，希望大家多包涵。信用貸一箇中介，在剛開始操作客戶貸款的時候，如果...

頭號大贏家| 理財大賽第二季銀行信用記錄關愛日信用卡金融中信銀行上海浦東發展銀行平安保險工商銀行拍拍貸中國農業銀行不完美媽媽中國建設銀行創業騰訊招商銀行拉卡拉京東商城大數據 2019-09-07

'科技巨頭身份獲國家認證平安到底做了什麼'

"文|李意安人工智能作為基礎力量在各大行業發揮著不可預測的動能轉化潛力。其中運用最早的，也最值得被期待的是有結構化數據、有流程化運作、有從勞動密集型向技術密集型轉變動力的金融行業。日前，代表全球最高水準的世界人工智能大會在申城落下帷幕。中國平安作為從傳統金融航母轉型至科技鉅...

技術平安保險金融人工智能大數據銀行 2019世界人工智能大會頭號大贏家| 理財大賽第二季普惠公司市場營銷科大訊飛華為公司機器人京東商城騰訊百度創業陸金所 2019-09-06

'營收翻倍增長，這家公司如何幫國網等大企業做數據治理？'

"專注數據治理，為傳統行業數據中臺落地提供專業方案調研 | 李喆撰寫 | 施堯最近一年，阿里的“中臺”成為大數據行業最為火熱的名詞，不僅僅是大型互聯網公司紛紛效仿，就連傳統企業也都是實行“中臺”戰略，數據中臺建設是其中最重要的一環。伴隨著數據中臺的興起，數據資產化、數據治...

人生第一份工作大數據技術國家電網銀行市場營銷中國移動 SAP公司設計中國建設銀行中國電信深度學習人工智能中國南方電網 2019-09-06

'公立醫院薪酬如何改？管理怎麼做？改革下一步如何走？這場高峰會議給出了權威答案'

"新中國成立70週年，衛生健康事業成就輝煌。進入新時代，健康中國建設進入了全面實施階段，公立醫院發展迎來新的關鍵時刻，機遇和挑戰該如何應對？8月31日，第六屆大型公立醫院發展高峰會議在吉林省長春市舉行。本屆會議由健康報社主辦、吉林大學第一醫院承辦，主題為“行動起來健康中國...

技術跳槽那些事兒高峰醫療保險醫療改革設計文化藥品大數據吉林福建 2019-09-05

'繼續做多，紅九月開啟，關注主線科技股，軟件+軍工+新能源汽車'

"市場喜迎紅9月，今天三大指數紛紛上漲，其中還是以創業板漲幅最大，同花順漲停，諸多創50成分股表現優秀。今天題材主要還是集中在軍工、軟件、半導體芯片這些自主可控的板塊上，兩市漲停80餘隻。只不過連板數量明天沒有前期多，而主要漲幅也是集中在成分股，深圳前期的幾個大龍頭還在繼續...

同花順新能源新能源汽車軟件滬指能源滬電股份深圳大數據康強電子我的第一部5G手機期指風險投資華為公司 2019-09-05

'谷歌研發出新技術，對醫學研究做出巨大貢獻'

"谷歌作為科技界的“大佬”，早在多年前就進入了AI醫療領域，這對大家來說也不是什麼稀奇的事。並且這些年的研發成果也不少，在學術上經常能看到谷歌。在近期，谷歌又曝出一項新技術。由谷歌設計研發的增強現實顯微鏡系統，在國際頂級醫學期刊Nature Medicine上發佈。該系統是...

Google 技術人工智能電腦增強現實流行性感冒癌症硬件算法大數據心臟病圖像處理音樂 2019-09-01

'想用數據思維做設計？諾基亞說：大數據是個騙局'

"幾年前，Wordpress 有一個安全漏洞，官方為了修復這個問題，希望他們的用戶儘量更新到新的版本。不幸的是，很多用戶出於慣性，並不想更新。Wordpress 團隊太瞭解這一點了，所以想到了一個不同尋常的解決方案。他們在給用戶發送的通知更新郵件當中，強調最新的一次更新當中...

諾基亞大數據智能手機設計高能小子終極裝備設計師 WordPress 技術 TED演講市場營銷時尚哲學 Android iPhone 三星集團 MBA 2019-09-01

推薦中...