為什麼說，MapReduce，顛覆了互聯網分層架構的本質？

MapReduce 瀏覽器中央處理器 HTML Google 數據庫 JSON 互聯網技能圖譜 2019-06-04

本文轉載自58沈劍的公眾號

為什麼說，MapReduce系統架構，顛覆了互聯網分層架構的本質？

下圖是一個典型的，互聯網分層架構：

客戶端層：典型調用方是瀏覽器browser或者手機APP
站點應用層：實現核心業務邏輯，從下游獲取數據，對上游返回html或者json
服務層：業務服務，數據服務，基礎服務，對上游提供友好的RPC接口
數據緩存層：緩存加速訪問存儲
數據固化層：數據庫固化數據存儲

同一個層次的內部，例如端上的APP，以及web-server，也都會進行MVC分層：

view層：展現
control層：邏輯
model層：數據

工程師骨子裡，都潛移默化的實施著分層架構設計。

互聯網分層架構的本質究竟是什麼呢？

如果我們仔細思考會發現，不管是跨進程的分層架構，還是進程內的MVC分層，都是一個“數據移動”，然後“被處理”和“被呈現”的過程。

如上圖所示：

數據處理和呈現，需要CPU計算，而CPU是固定不動的：

db/service/web-server都部署在固定的集群上
端上，不管是browser還是APP，也有固定的CPU處理

而數據是移動的：

跨進程的：數據從數據庫和緩存裡，轉移到service層，到web-server層，到client層
同進程的：數據從model層，轉移到control層，轉移到view層

歸根結底一句話：互聯網分層架構，是一個CPU固定，數據移動的架構。

畫外音：更詳細的分析，詳見《互聯網分層架構的本質》。

MapReduce的架構，是不是也遵循這個架構特點呢？

假如MapReduce也使用類似的的分層架構模式：

提前部署服務：

map服務層：接收輸入數據，產出“分”的數據，集群部署M=1W個實例
reduce服務層：接受“合”的數據，產出最終數據，集群部署R=1W個實例

當用戶提交作業時：

(1) 把數據數據傳輸給map服務集群；

(2) map服務集群產出結果後，把數據傳輸給reduce服務集群；

(3) reduce服務集群把結果傳輸給用戶；

存在什麼問題？

將有大量的時間浪費在大量數據的網絡傳輸上。

畫外音：輸入給map，map給reduce，reduce給用戶。

會發現，“固定CPU，移動數據”的架構並不適合。

Google MapReduce工程架構是如何思考這一個問題的呢？

問了減少數據量的傳輸：

(1) 輸入數據，被分割為M塊後，master會盡量將執行map函數的worker實例，啟動在輸入數據所在的服務器上；

畫外音：不需要網絡傳輸了。

(2) map函數的worker實例輸出的的結果，會被分區函數劃分成R塊，寫到worker實例所在的本地磁盤；

畫外音：不需要網絡傳輸了。

(3) reduce函數，由於有M個輸入數據源（M個map的輸出都有一部分數據可能對應到一個reduce的輸入數據），所以，master會盡量將執行reduce函數的worker實例，啟動在離這些輸入數據源儘可能“近”的服務器上；

畫外音：目的也是最小化網絡傳輸；

服務器之間的“近”，可以用內網IP地址的相似度衡量。

所以，對於MapReduce系統架構，“固定數據，移動CPU”更為合理。

這是為什麼呢？

互聯網在線業務的特點是：

總數據量大
吞吐量比較大，同時發起的請求多
每個請求，處理的數據相對比較小
用戶對處理時延比較敏感

這類業務，使用“固定CPU，移動數據”的分層架構是合理的。

MapReduce離線業務的特點是：

吞吐量比較小，同時發起的任務比較少
每個任務，處理的數據量非常大
用戶對處理時延容忍性大

這類業務，使用“固定數據，移動CPU”的分層架構是合理的。

任何脫離業務的架構設計，都是耍流氓。

思考問題的本質，希望大家有收穫。

相關推薦

'新疆，為什麼造了這麼多鐵路？地球知識局'

"(⊙_⊙) 每天一篇全球人文與地理地球知識局——新疆鐵路NO.1172-新疆鐵路作者：杔格製圖：孫綠 / 校稿：貓斯圖 / 編輯：生菜新疆作為我國陸地面積最大的省級行政單位，地廣人稀，擁有十分複雜惡劣的地質、地形、地貌以及氣候條件環境。客觀因素限制下，鐵路建設在這裡始終...

新疆天山吐魯番庫爾勒蘭州地球甘肅烏魯木齊黃河火焰山天祝張掖西藏上海交通孫中山 Google地圖 Google 讓夢發生 2019-09-18

'為什麼說造電動汽車的特斯拉是一家數據公司'

"來源：汽車之心作者：葉方提到特斯拉，大家總會不自覺站成兩個陣營：一方將這家電動車公司捧上天；另一方則唱衰，認為它最終會被對手們幹掉。換句話說，特斯拉要麼一勞永逸改變汽車行業，要麼就會在不久的將來關張。不過，如果我們放下財務、競爭和Elon Musk這個神奇的存在，從理性...

特斯拉汽車電動汽車人工智能伊隆·馬斯克技術無人駕駛大數據算法電腦軟件數據庫機器學習人機交互硬件眾包石油雷達 2019-09-18

'幾張圖看懂手機芯片，聯發科有苦說不出，華為和英特爾亮了'

"“芯片”就像是智能手機的發動機，它是手機智能手機流暢運行的基本保障。一款手機的性能強不強，最主要的還是看它的發動機動力好不好。市面上比較熱門的移動端芯片有“高通、蘋果A系列、聯發科、華為海思、三星 Exynos獵戶座”，有些消費者或許不太懂，但看完這些之後，相信你也會有所...

英特爾華為公司華為海思聯發科技智能手機高通 iPhone 我的第一部5G手機 X86 Android GPU 三星集團中央處理器魅族科技聯想集團電信 ARM 2019-09-18

'為什麼電腦用十年以上還能用，而手機用了四五年就要換？'

"我曾經翻出2臺08年左右買的手機，照樣能用天語，今天的小學生們怕是沒聽說過但是算算我的電腦，好像沒那麼幸運最早的電腦，我爹玩了兩年RA1，結果RA2裝上一出空指部馬上死機（電腦是RA2出了以後買的）問題是內存不夠，所以加了一條，這個姑且算改進，畢竟沒壞東西光驅第一個退役，...

電腦筆記本電腦中央處理器發現佩奇臺式電腦 2019-09-17

'工業互聯網時代，我們為什麼需要時序數據庫(2)'

"作為資深“槓精”，當然需要先知道要“槓”的到底是什麼？就時序數據庫而言，就是要“槓”兩個東西：1、“槓”數據；2、“槓”數據庫。先從數據“槓”起，數據可是一個高深莫測的東西。想當年圖靈用他深邃的眼睛，看穿了世間萬物的計算本質：凡是可以計算的，通過迭代，最終都可以表示為0、...

數據庫數據結構 HBase 技術 MySQL NoSQL Cassandra 阿蘭·圖靈 2019-09-15

'為什麼有人說 Python 的多線程是雞肋？不是真正意義上的多線程？'

"歡迎各位小哥哥小姐姐閱讀本<小生>的文章,對大家學習有幫助,請點贊加關注哦!!!!!!!!!!您的點贊和關注將是我持續更新的動力呢.^v^有不懂的問題可以私聊我哦!問題：1、Python 多線程為什麼耗時更長？2、為什麼在 Python 裡面推薦使用多進程而不...

Python 機器學習中央處理器腳本語言網絡爬蟲 2019-09-15

'查漏補缺，Redis為什麼會這麼快，看完這七點你就知道了'

" 本文內容思維導圖如下：一、簡介和應用Redis是一個由ANSI C語言編寫，性能優秀、支持網絡、可持久化的K-K內存數據庫，並提供多種語言的API。它常用的類型主要是 String、List、Hash、Set、ZSet 這5種Redis在互聯網公司一般有以下應用:Str...

Redis 數據結構鏡音雙子 Java 設計數據庫 C語言 2019-09-13

'百度為何市值下跌？互聯網這些年經歷了什麼'

"近十年互聯網公司格局變化10年前當大學生談到畢業後想去的公司時，被提起的往往是中國移動、寶潔、KPMG這些大國企或者大外企，當時還沒有微信，騰訊在手機端的影響力遠遠沒有中國移動大，市值也不高，還稱不上巨頭。5年前，BAT衝到了風口浪尖，美國上市的阿里成為中國體量最大的互聯...

百度移動互聯網騰訊人生第一份工作京東商城阿里巴巴集團中國移動美團網搜狐新浪李彥宏 Google 寶潔公司新聞高峰紅杉資本創業 2019-09-12

'沒有A76架構，麒麟990依舊領先，為了業內第一狂砸2億流片費'

"昨天的麒麟990發佈之後，也是成為大家關注的焦點。除了再次拿下業界六個第一外，麒麟990沒有采用最新的A77架構也是讓人有點意外。從華為的迴應來看，是因為優化時間不夠，所以才繼續打磨A76。但實際原因是因為，華為要在5G的佈局上搶先友商，所以才這麼急著推出基於A76架構的...

我的第一部5G手機華為公司技術 GPU 高通三星集團中央處理器 2019-09-11

'為什麼說科技巨頭未來的競爭對手是媒體機構？'

"來源：OneZero作者：Mike Rabb原文鏈接：https://onezero.medium.com/the-next-re-bundling-will-be-multi-media-video-music-games-news-72ee10309310儘管消費者們...

蘋果公司 Netflix Apple TV Apple Music 亞馬遜公司華爾街日報音樂 Hulu Google Mike 奧普拉·溫弗裡阿諾德·巴克斯 iTunes 斯蒂芬·斯皮爾伯格 Facebook 人生第一份工作播客網景 J·J·艾布拉姆斯新聞電視劇創作者來直播迪士尼 Spotify 2019-09-10

'都30多歲了，你為什麼依然忘不了魔獸？'

"提起遊戲，大多數人會把它看成一種娛樂方式，無論是《王者榮耀》還是《刺激戰場》，都是打發時間的一種，和刷劇、刷抖音等等無本質區別。而在14多年前，一款叫《魔獸世界》的遊戲承載了很多年輕人的期許，它在那代人身上留下的記憶，至今也不被忘懷。隨著懷舊服務器《魔獸世界：經典版》的開...

魔獸世界魔獸爭霸網絡遊戲王者聯盟暗黑破壞神電子競技星際爭霸 Dota 2 Dota 仙劍奇俠傳模擬人生合金彈頭刺激戰場電腦 Google 電子遊戲口袋妖怪 2019-09-09

'2019 年了，為什麼我還在用 jQuery？'

"許多人都在提倡: “直接用原生的 JavaScript 就好了，不需要 jQuery 了”。You might not need jQuery嘗試告訴我們，擺脫 jQuery 是一件很容易的事情。但是，它的第一個例子恰恰告訴我們用 jQuery 其實也不錯，因為我們寫了 ...

jQuery JavaScript CSS 瀏覽器 Stack Overflow 讀書 2019-09-08

'揭祕：為什麼你的電腦越用越卡？本質問題是什麼？'

"令人心煩的電腦故障就是電腦運行正常可是使用卻不正常，電腦在使用中要不就是一直卡、要不就是一頓一頓的卡，有時還卡一會不動就死機了，死機後也只能通過強制重啟電腦解決為什麼電腦越來越卡，明明電腦剛買的時候像火箭，現在怎麼就飛不起來了呢，是老了麼？電腦總是重裝系統並非長久之計，電...

電腦軟件中央處理器操作系統技術固態硬盤 Excel 2019-09-07

'小程序為什麼目前取代不了App，本質差異在哪兒？'

"雖然現在手機內存越做越大，但問問君身邊的朋友都抱怨說內存不夠，很多App都裝不了。其實，問問君手機的內存也不大，但是基本上大家手機有的功能我也都有。這是為什麼呢？主要在於問問君將一些不必要的App用小程序直接代替了，省下了不少空間。問問君查了一下，發現大家對小程序和App...

軟件操作系統瀏覽器百度滴滴打車 HTML 交互設計今日頭條 2019-09-06

'為什麼現在安卓手機配置都這麼高了！還有人覺得安卓手機卡？'

" 文丨科技小物1.潛意識問題這一批用戶往往是蘋果的死忠粉，他們對安卓手機的認識還停留在安卓4.0時代，當年安卓手機還是運存1G內存4G的時代，殊不知現在已經是運存8G內存256 G的時代，安卓系統也來到了9.0.況且在CPU方面驍龍855也比肩了A12.但是他們還是沒有拋...

Android iPhone 軟件諾基亞騰訊應用寶騰訊QQ 中央處理器 2019-09-03

'為什麼說光貓的wifi比無線路由器更好用呢？'

"我在文章中介紹過，運營商定製光貓自帶的WiFi體驗不佳。我的建議是關閉光貓自帶的WiFi，在光貓後面再接一個無線路由器，用無線路由器的WiFi上網。文章得到網友的熱捧，但也有部分網友給出相反的結論。其實之所以有網友得到這樣的結論，原因是他們的光貓是工作在路由模式下。路由模...

Wi-Fi 路由器電腦運營商瀏覽器騰訊QQ 文章 2019-09-02

'既然大家說裝了win10，就不用魯大師監測顯卡溫度，為什麼呢'

"提到魯大師軟件，相信大家多多少少都有聽過和用過，尤其是在需要檢測硬件溫度，維持電腦運行穩定的時候。電腦需要運行較為大型的軟件或者遊戲的時候，比如使用CAD、絕地等等，往往需要進行大量的運算，如果電腦運算負荷過重，電腦就會......卡住或者直接崩潰，不管是工作內容還是遊戲...

魯大師 Windows 10 軟件電腦英偉達中央處理器硬件 Windows 2019-09-02

'《賽博朋克2077》開發者解釋了為什麼沒有性別選項'

"《賽博朋克2077》開發者解釋了為什麼沒有性別選項CDPR取消了賽博朋克2077中傳統角色的性別選擇，以保持賽博朋克的“開放”風格。開發商在一次新的採訪中證實了這一最新進展。Metro採訪了CDPR高級概念藝術家Marthe Jonkers，讓他更多地談談賽博朋克2077...

賽博朋克2077 Google IGN 美髮紋身 2019-09-01

'為什麼iQOO Pro 5G版是最超值的5G手機？除了價格還首發雙Wi-Fi'

"對於iQOO Pro 5G版，或許很多人都已經有所瞭解，它以3798元起的價格成為了目前全球價格最低的5G手機。通過權威科技媒體對這款5G手機的評價，它不僅價格實惠，而且無論是性能還是基於5G網絡帶來的體驗，都是非常出色的。重要的是，還有很多全球領先的新技術加持，讓這款5...

我的第一部5G手機 iQOO618強悍單品推薦 Wi-Fi 技術華為Mate 中央處理器 GPU Hifi 高通華為公司 2019-09-01

'為什麼物聯網選擇了雲計算？'

"物聯網是在互聯網的發展中衍生出的網絡概念，隨著物聯網技術的不斷變革，使得其產生了海量數據信息，且需要較大規模的數據處理能力和存儲能力。雲計算技術的大規模數據處理能力在物聯網發展中起到的作用也因此越來越大。1．雲計算技術的優點1）信息存儲安全可靠雲計算通過使用分佈式的方式...

物聯網雲計算技術信息安全大數據人工智能數據庫固態硬盤 2019-09-01

推薦中...