"

作者:王知無

歡迎掃碼關注我的VX公眾號,回覆【JAVAPDF】可以獲得一份200頁秋招面試題~

大數據技術與架構

點擊右側關注,大數據開發領域最強公眾號!

"

作者:王知無

歡迎掃碼關注我的VX公眾號,回覆【JAVAPDF】可以獲得一份200頁秋招面試題~

大數據技術與架構

點擊右側關注,大數據開發領域最強公眾號!

大數據平臺演進之路 | 淘寶 & 滴滴 & 美團

"

作者:王知無

歡迎掃碼關注我的VX公眾號,回覆【JAVAPDF】可以獲得一份200頁秋招面試題~

大數據技術與架構

點擊右側關注,大數據開發領域最強公眾號!

大數據平臺演進之路 | 淘寶 & 滴滴 & 美團

大數據平臺演進之路 | 淘寶 & 滴滴 & 美團

暴走大數據

點擊右側關注,暴走大數據!

"

作者:王知無

歡迎掃碼關注我的VX公眾號,回覆【JAVAPDF】可以獲得一份200頁秋招面試題~

大數據技術與架構

點擊右側關注,大數據開發領域最強公眾號!

大數據平臺演進之路 | 淘寶 & 滴滴 & 美團

大數據平臺演進之路 | 淘寶 & 滴滴 & 美團

暴走大數據

點擊右側關注,暴走大數據!

大數據平臺演進之路 | 淘寶 & 滴滴 & 美團

聲明:本文參考了淘寶/滴滴/美團發表的關於大數據平臺建設的文章基礎上予以整理。參考鏈接和作者在文末給出。在此對三家公司的技術人員無私奉獻精神表示感謝,如果文章造成了侵權行為,請聯繫本人刪除。本人在尊重事實的基礎上重新組織了語言和內容,旨在給讀者揭開一個完善的大數據平臺的組成和發展過程。本文在未經本人允許情況下不得轉載,否則追究版權責任。

By 大數據技術與架構場景描述:希望本文對那些正在建設大數據平臺的同學們有所啟發。

關鍵詞:大數據平臺

大數據平臺是為了計算,現今社會所產生的越來越大的數據量,以存儲、運算、展現作為目的的平臺。大數據技術是指從各種各樣類型的數據中,快速獲得有價值信息的能力。適用於大數據的技術,包括大規模並行處理(MPP)數據庫,數據挖掘電網,分佈式文件系統,分佈式數據庫,雲計算平臺,互聯網,和可擴展的存儲系統。總結,大數據平臺的出現伴隨著業務的不斷髮展,數據的不斷增長,數據需求的不斷增加,數據分析及挖掘的場景而逐步形成。本文講述淘寶、滴滴和美團三家互聯網公司的大數據平臺的發展歷程,為大家提供建設大數據平臺的基本思路。 淘寶

淘寶可能是中國互聯網業界較早搭建了自己大數據平臺的公司,下圖是淘寶早期的Hadoop大數據平臺,比較典型。

"

作者:王知無

歡迎掃碼關注我的VX公眾號,回覆【JAVAPDF】可以獲得一份200頁秋招面試題~

大數據技術與架構

點擊右側關注,大數據開發領域最強公眾號!

大數據平臺演進之路 | 淘寶 & 滴滴 & 美團

大數據平臺演進之路 | 淘寶 & 滴滴 & 美團

暴走大數據

點擊右側關注,暴走大數據!

大數據平臺演進之路 | 淘寶 & 滴滴 & 美團

聲明:本文參考了淘寶/滴滴/美團發表的關於大數據平臺建設的文章基礎上予以整理。參考鏈接和作者在文末給出。在此對三家公司的技術人員無私奉獻精神表示感謝,如果文章造成了侵權行為,請聯繫本人刪除。本人在尊重事實的基礎上重新組織了語言和內容,旨在給讀者揭開一個完善的大數據平臺的組成和發展過程。本文在未經本人允許情況下不得轉載,否則追究版權責任。

By 大數據技術與架構場景描述:希望本文對那些正在建設大數據平臺的同學們有所啟發。

關鍵詞:大數據平臺

大數據平臺是為了計算,現今社會所產生的越來越大的數據量,以存儲、運算、展現作為目的的平臺。大數據技術是指從各種各樣類型的數據中,快速獲得有價值信息的能力。適用於大數據的技術,包括大規模並行處理(MPP)數據庫,數據挖掘電網,分佈式文件系統,分佈式數據庫,雲計算平臺,互聯網,和可擴展的存儲系統。總結,大數據平臺的出現伴隨著業務的不斷髮展,數據的不斷增長,數據需求的不斷增加,數據分析及挖掘的場景而逐步形成。本文講述淘寶、滴滴和美團三家互聯網公司的大數據平臺的發展歷程,為大家提供建設大數據平臺的基本思路。 淘寶

淘寶可能是中國互聯網業界較早搭建了自己大數據平臺的公司,下圖是淘寶早期的Hadoop大數據平臺,比較典型。

大數據平臺演進之路 | 淘寶 & 滴滴 & 美團

雲梯數據倉庫架構-圖來源於《淘寶大數據平臺之路》

淘寶的大數據平臺基本也是分成三個部分,上面是數據源與數據同步;中間是雲梯1,也就是淘寶的Hadoop大數據集群;下面是大數據的應用,使用大數據集群的計算結果。

數據源主要來自Oracle和MySQL的備庫,以及日誌系統和爬蟲系統,這些數據通過數據同步網關服務器導入到Hadoop集群中。其中DataExchange非實時全量同步數據庫數據,DBSync實時同步數據庫增量數據,TimeTunnel實時同步日誌和爬蟲數據。數據全部寫入到HDFS中。

"

作者:王知無

歡迎掃碼關注我的VX公眾號,回覆【JAVAPDF】可以獲得一份200頁秋招面試題~

大數據技術與架構

點擊右側關注,大數據開發領域最強公眾號!

大數據平臺演進之路 | 淘寶 & 滴滴 & 美團

大數據平臺演進之路 | 淘寶 & 滴滴 & 美團

暴走大數據

點擊右側關注,暴走大數據!

大數據平臺演進之路 | 淘寶 & 滴滴 & 美團

聲明:本文參考了淘寶/滴滴/美團發表的關於大數據平臺建設的文章基礎上予以整理。參考鏈接和作者在文末給出。在此對三家公司的技術人員無私奉獻精神表示感謝,如果文章造成了侵權行為,請聯繫本人刪除。本人在尊重事實的基礎上重新組織了語言和內容,旨在給讀者揭開一個完善的大數據平臺的組成和發展過程。本文在未經本人允許情況下不得轉載,否則追究版權責任。

By 大數據技術與架構場景描述:希望本文對那些正在建設大數據平臺的同學們有所啟發。

關鍵詞:大數據平臺

大數據平臺是為了計算,現今社會所產生的越來越大的數據量,以存儲、運算、展現作為目的的平臺。大數據技術是指從各種各樣類型的數據中,快速獲得有價值信息的能力。適用於大數據的技術,包括大規模並行處理(MPP)數據庫,數據挖掘電網,分佈式文件系統,分佈式數據庫,雲計算平臺,互聯網,和可擴展的存儲系統。總結,大數據平臺的出現伴隨著業務的不斷髮展,數據的不斷增長,數據需求的不斷增加,數據分析及挖掘的場景而逐步形成。本文講述淘寶、滴滴和美團三家互聯網公司的大數據平臺的發展歷程,為大家提供建設大數據平臺的基本思路。 淘寶

淘寶可能是中國互聯網業界較早搭建了自己大數據平臺的公司,下圖是淘寶早期的Hadoop大數據平臺,比較典型。

大數據平臺演進之路 | 淘寶 & 滴滴 & 美團

雲梯數據倉庫架構-圖來源於《淘寶大數據平臺之路》

淘寶的大數據平臺基本也是分成三個部分,上面是數據源與數據同步;中間是雲梯1,也就是淘寶的Hadoop大數據集群;下面是大數據的應用,使用大數據集群的計算結果。

數據源主要來自Oracle和MySQL的備庫,以及日誌系統和爬蟲系統,這些數據通過數據同步網關服務器導入到Hadoop集群中。其中DataExchange非實時全量同步數據庫數據,DBSync實時同步數據庫增量數據,TimeTunnel實時同步日誌和爬蟲數據。數據全部寫入到HDFS中。

大數據平臺演進之路 | 淘寶 & 滴滴 & 美團

數據同步工具-圖來源於《淘寶大數據平臺之路》

在Hadoop中的計算任務會通過天網調度系統,根據集群資源和作業優先級,調度作業的提交和執行。計算結果寫入到HDFS,再經過DataExchange同步到MySQL和Oracle數據庫。處於平臺下方的數據魔方、推薦系統等從數據庫中讀取數據,就可以實時響應用戶的操作請求。

淘寶大數據平臺的核心是位於架構圖左側的天網調度系統,提交到Hadoop集群上的任務需要按序按優先級調度執行,Hadoop集群上已經定義好的任務也需要調度執行,何時從數據庫、日誌、爬蟲系統導入數據也需要調度執行,何時將Hadoop執行結果導出到應用系統的數據庫,也需要調度執行。可以說,整個大數據平臺都是在天網調度系統的統一規劃和安排下進行運作的。

DBSync、TimeTunnel、DataExchange這些數據同步組件也是淘寶內部開發的,可以針對不同的數據源和同步需求進行數據導入導出。這些組件淘寶大都已經開源,我們可以參考使用。

滴滴

到目前為止大概經歷了三個階段,第一階段是業務方自建小集群;第二階段是集中式大集群、平臺化;第三階段是 SQL 化。

"

作者:王知無

歡迎掃碼關注我的VX公眾號,回覆【JAVAPDF】可以獲得一份200頁秋招面試題~

大數據技術與架構

點擊右側關注,大數據開發領域最強公眾號!

大數據平臺演進之路 | 淘寶 & 滴滴 & 美團

大數據平臺演進之路 | 淘寶 & 滴滴 & 美團

暴走大數據

點擊右側關注,暴走大數據!

大數據平臺演進之路 | 淘寶 & 滴滴 & 美團

聲明:本文參考了淘寶/滴滴/美團發表的關於大數據平臺建設的文章基礎上予以整理。參考鏈接和作者在文末給出。在此對三家公司的技術人員無私奉獻精神表示感謝,如果文章造成了侵權行為,請聯繫本人刪除。本人在尊重事實的基礎上重新組織了語言和內容,旨在給讀者揭開一個完善的大數據平臺的組成和發展過程。本文在未經本人允許情況下不得轉載,否則追究版權責任。

By 大數據技術與架構場景描述:希望本文對那些正在建設大數據平臺的同學們有所啟發。

關鍵詞:大數據平臺

大數據平臺是為了計算,現今社會所產生的越來越大的數據量,以存儲、運算、展現作為目的的平臺。大數據技術是指從各種各樣類型的數據中,快速獲得有價值信息的能力。適用於大數據的技術,包括大規模並行處理(MPP)數據庫,數據挖掘電網,分佈式文件系統,分佈式數據庫,雲計算平臺,互聯網,和可擴展的存儲系統。總結,大數據平臺的出現伴隨著業務的不斷髮展,數據的不斷增長,數據需求的不斷增加,數據分析及挖掘的場景而逐步形成。本文講述淘寶、滴滴和美團三家互聯網公司的大數據平臺的發展歷程,為大家提供建設大數據平臺的基本思路。 淘寶

淘寶可能是中國互聯網業界較早搭建了自己大數據平臺的公司,下圖是淘寶早期的Hadoop大數據平臺,比較典型。

大數據平臺演進之路 | 淘寶 & 滴滴 & 美團

雲梯數據倉庫架構-圖來源於《淘寶大數據平臺之路》

淘寶的大數據平臺基本也是分成三個部分,上面是數據源與數據同步;中間是雲梯1,也就是淘寶的Hadoop大數據集群;下面是大數據的應用,使用大數據集群的計算結果。

數據源主要來自Oracle和MySQL的備庫,以及日誌系統和爬蟲系統,這些數據通過數據同步網關服務器導入到Hadoop集群中。其中DataExchange非實時全量同步數據庫數據,DBSync實時同步數據庫增量數據,TimeTunnel實時同步日誌和爬蟲數據。數據全部寫入到HDFS中。

大數據平臺演進之路 | 淘寶 & 滴滴 & 美團

數據同步工具-圖來源於《淘寶大數據平臺之路》

在Hadoop中的計算任務會通過天網調度系統,根據集群資源和作業優先級,調度作業的提交和執行。計算結果寫入到HDFS,再經過DataExchange同步到MySQL和Oracle數據庫。處於平臺下方的數據魔方、推薦系統等從數據庫中讀取數據,就可以實時響應用戶的操作請求。

淘寶大數據平臺的核心是位於架構圖左側的天網調度系統,提交到Hadoop集群上的任務需要按序按優先級調度執行,Hadoop集群上已經定義好的任務也需要調度執行,何時從數據庫、日誌、爬蟲系統導入數據也需要調度執行,何時將Hadoop執行結果導出到應用系統的數據庫,也需要調度執行。可以說,整個大數據平臺都是在天網調度系統的統一規劃和安排下進行運作的。

DBSync、TimeTunnel、DataExchange這些數據同步組件也是淘寶內部開發的,可以針對不同的數據源和同步需求進行數據導入導出。這些組件淘寶大都已經開源,我們可以參考使用。

滴滴

到目前為止大概經歷了三個階段,第一階段是業務方自建小集群;第二階段是集中式大集群、平臺化;第三階段是 SQL 化。

大數據平臺演進之路 | 淘寶 & 滴滴 & 美團

圖來源於《滴滴大數據平臺演進之路》

離線計算平臺架構如下。滴滴的離線大數據平臺是基於Hadoo 2(HDFS、Yarn、MapReduce)和Spark以及Hive構建,在此基礎上開發了自己的調度系統和開發系統。調度系統和前面其他系統一樣,調度大數據作業的優先級和執行順序。開發平臺是一個可視化的SQL編輯器,可以方便地查詢表結構、開發SQL,併發布到大數據集群上。

"

作者:王知無

歡迎掃碼關注我的VX公眾號,回覆【JAVAPDF】可以獲得一份200頁秋招面試題~

大數據技術與架構

點擊右側關注,大數據開發領域最強公眾號!

大數據平臺演進之路 | 淘寶 & 滴滴 & 美團

大數據平臺演進之路 | 淘寶 & 滴滴 & 美團

暴走大數據

點擊右側關注,暴走大數據!

大數據平臺演進之路 | 淘寶 & 滴滴 & 美團

聲明:本文參考了淘寶/滴滴/美團發表的關於大數據平臺建設的文章基礎上予以整理。參考鏈接和作者在文末給出。在此對三家公司的技術人員無私奉獻精神表示感謝,如果文章造成了侵權行為,請聯繫本人刪除。本人在尊重事實的基礎上重新組織了語言和內容,旨在給讀者揭開一個完善的大數據平臺的組成和發展過程。本文在未經本人允許情況下不得轉載,否則追究版權責任。

By 大數據技術與架構場景描述:希望本文對那些正在建設大數據平臺的同學們有所啟發。

關鍵詞:大數據平臺

大數據平臺是為了計算,現今社會所產生的越來越大的數據量,以存儲、運算、展現作為目的的平臺。大數據技術是指從各種各樣類型的數據中,快速獲得有價值信息的能力。適用於大數據的技術,包括大規模並行處理(MPP)數據庫,數據挖掘電網,分佈式文件系統,分佈式數據庫,雲計算平臺,互聯網,和可擴展的存儲系統。總結,大數據平臺的出現伴隨著業務的不斷髮展,數據的不斷增長,數據需求的不斷增加,數據分析及挖掘的場景而逐步形成。本文講述淘寶、滴滴和美團三家互聯網公司的大數據平臺的發展歷程,為大家提供建設大數據平臺的基本思路。 淘寶

淘寶可能是中國互聯網業界較早搭建了自己大數據平臺的公司,下圖是淘寶早期的Hadoop大數據平臺,比較典型。

大數據平臺演進之路 | 淘寶 & 滴滴 & 美團

雲梯數據倉庫架構-圖來源於《淘寶大數據平臺之路》

淘寶的大數據平臺基本也是分成三個部分,上面是數據源與數據同步;中間是雲梯1,也就是淘寶的Hadoop大數據集群;下面是大數據的應用,使用大數據集群的計算結果。

數據源主要來自Oracle和MySQL的備庫,以及日誌系統和爬蟲系統,這些數據通過數據同步網關服務器導入到Hadoop集群中。其中DataExchange非實時全量同步數據庫數據,DBSync實時同步數據庫增量數據,TimeTunnel實時同步日誌和爬蟲數據。數據全部寫入到HDFS中。

大數據平臺演進之路 | 淘寶 & 滴滴 & 美團

數據同步工具-圖來源於《淘寶大數據平臺之路》

在Hadoop中的計算任務會通過天網調度系統,根據集群資源和作業優先級,調度作業的提交和執行。計算結果寫入到HDFS,再經過DataExchange同步到MySQL和Oracle數據庫。處於平臺下方的數據魔方、推薦系統等從數據庫中讀取數據,就可以實時響應用戶的操作請求。

淘寶大數據平臺的核心是位於架構圖左側的天網調度系統,提交到Hadoop集群上的任務需要按序按優先級調度執行,Hadoop集群上已經定義好的任務也需要調度執行,何時從數據庫、日誌、爬蟲系統導入數據也需要調度執行,何時將Hadoop執行結果導出到應用系統的數據庫,也需要調度執行。可以說,整個大數據平臺都是在天網調度系統的統一規劃和安排下進行運作的。

DBSync、TimeTunnel、DataExchange這些數據同步組件也是淘寶內部開發的,可以針對不同的數據源和同步需求進行數據導入導出。這些組件淘寶大都已經開源,我們可以參考使用。

滴滴

到目前為止大概經歷了三個階段,第一階段是業務方自建小集群;第二階段是集中式大集群、平臺化;第三階段是 SQL 化。

大數據平臺演進之路 | 淘寶 & 滴滴 & 美團

圖來源於《滴滴大數據平臺演進之路》

離線計算平臺架構如下。滴滴的離線大數據平臺是基於Hadoo 2(HDFS、Yarn、MapReduce)和Spark以及Hive構建,在此基礎上開發了自己的調度系統和開發系統。調度系統和前面其他系統一樣,調度大數據作業的優先級和執行順序。開發平臺是一個可視化的SQL編輯器,可以方便地查詢表結構、開發SQL,併發布到大數據集群上。

大數據平臺演進之路 | 淘寶 & 滴滴 & 美團

圖來源於《滴滴大數據平臺演進之路》

此外,滴滴還對HBase重度使用,並對相關產品(HBase、Phoenix)做了一些自定義的開發,維護著一個和實時、離線兩個大數據平臺同級別的HBase平臺,它的架構圖如下。

"

作者:王知無

歡迎掃碼關注我的VX公眾號,回覆【JAVAPDF】可以獲得一份200頁秋招面試題~

大數據技術與架構

點擊右側關注,大數據開發領域最強公眾號!

大數據平臺演進之路 | 淘寶 & 滴滴 & 美團

大數據平臺演進之路 | 淘寶 & 滴滴 & 美團

暴走大數據

點擊右側關注,暴走大數據!

大數據平臺演進之路 | 淘寶 & 滴滴 & 美團

聲明:本文參考了淘寶/滴滴/美團發表的關於大數據平臺建設的文章基礎上予以整理。參考鏈接和作者在文末給出。在此對三家公司的技術人員無私奉獻精神表示感謝,如果文章造成了侵權行為,請聯繫本人刪除。本人在尊重事實的基礎上重新組織了語言和內容,旨在給讀者揭開一個完善的大數據平臺的組成和發展過程。本文在未經本人允許情況下不得轉載,否則追究版權責任。

By 大數據技術與架構場景描述:希望本文對那些正在建設大數據平臺的同學們有所啟發。

關鍵詞:大數據平臺

大數據平臺是為了計算,現今社會所產生的越來越大的數據量,以存儲、運算、展現作為目的的平臺。大數據技術是指從各種各樣類型的數據中,快速獲得有價值信息的能力。適用於大數據的技術,包括大規模並行處理(MPP)數據庫,數據挖掘電網,分佈式文件系統,分佈式數據庫,雲計算平臺,互聯網,和可擴展的存儲系統。總結,大數據平臺的出現伴隨著業務的不斷髮展,數據的不斷增長,數據需求的不斷增加,數據分析及挖掘的場景而逐步形成。本文講述淘寶、滴滴和美團三家互聯網公司的大數據平臺的發展歷程,為大家提供建設大數據平臺的基本思路。 淘寶

淘寶可能是中國互聯網業界較早搭建了自己大數據平臺的公司,下圖是淘寶早期的Hadoop大數據平臺,比較典型。

大數據平臺演進之路 | 淘寶 & 滴滴 & 美團

雲梯數據倉庫架構-圖來源於《淘寶大數據平臺之路》

淘寶的大數據平臺基本也是分成三個部分,上面是數據源與數據同步;中間是雲梯1,也就是淘寶的Hadoop大數據集群;下面是大數據的應用,使用大數據集群的計算結果。

數據源主要來自Oracle和MySQL的備庫,以及日誌系統和爬蟲系統,這些數據通過數據同步網關服務器導入到Hadoop集群中。其中DataExchange非實時全量同步數據庫數據,DBSync實時同步數據庫增量數據,TimeTunnel實時同步日誌和爬蟲數據。數據全部寫入到HDFS中。

大數據平臺演進之路 | 淘寶 & 滴滴 & 美團

數據同步工具-圖來源於《淘寶大數據平臺之路》

在Hadoop中的計算任務會通過天網調度系統,根據集群資源和作業優先級,調度作業的提交和執行。計算結果寫入到HDFS,再經過DataExchange同步到MySQL和Oracle數據庫。處於平臺下方的數據魔方、推薦系統等從數據庫中讀取數據,就可以實時響應用戶的操作請求。

淘寶大數據平臺的核心是位於架構圖左側的天網調度系統,提交到Hadoop集群上的任務需要按序按優先級調度執行,Hadoop集群上已經定義好的任務也需要調度執行,何時從數據庫、日誌、爬蟲系統導入數據也需要調度執行,何時將Hadoop執行結果導出到應用系統的數據庫,也需要調度執行。可以說,整個大數據平臺都是在天網調度系統的統一規劃和安排下進行運作的。

DBSync、TimeTunnel、DataExchange這些數據同步組件也是淘寶內部開發的,可以針對不同的數據源和同步需求進行數據導入導出。這些組件淘寶大都已經開源,我們可以參考使用。

滴滴

到目前為止大概經歷了三個階段,第一階段是業務方自建小集群;第二階段是集中式大集群、平臺化;第三階段是 SQL 化。

大數據平臺演進之路 | 淘寶 & 滴滴 & 美團

圖來源於《滴滴大數據平臺演進之路》

離線計算平臺架構如下。滴滴的離線大數據平臺是基於Hadoo 2(HDFS、Yarn、MapReduce)和Spark以及Hive構建,在此基礎上開發了自己的調度系統和開發系統。調度系統和前面其他系統一樣,調度大數據作業的優先級和執行順序。開發平臺是一個可視化的SQL編輯器,可以方便地查詢表結構、開發SQL,併發布到大數據集群上。

大數據平臺演進之路 | 淘寶 & 滴滴 & 美團

圖來源於《滴滴大數據平臺演進之路》

此外,滴滴還對HBase重度使用,並對相關產品(HBase、Phoenix)做了一些自定義的開發,維護著一個和實時、離線兩個大數據平臺同級別的HBase平臺,它的架構圖如下。

大數據平臺演進之路 | 淘寶 & 滴滴 & 美團

圖來源於《滴滴大數據平臺演進之路》

來自於實時計算平臺和離線計算平臺的計算結果被保存到HBase中,然後應用程序通過Phoenix訪問HBase。而Phoenix是一個構建在HBase上的SQL引擎,可以通過SQL方式訪問HBase上的數據。

為了最大程度方便業務方開發和管理流計算任務,滴滴構建瞭如下圖所示的實時計算平臺。在流計算引擎基礎上提供了 StreamSQL IDE、監控報警、診斷體系、血緣關係、任務管控等能力。

"

作者:王知無

歡迎掃碼關注我的VX公眾號,回覆【JAVAPDF】可以獲得一份200頁秋招面試題~

大數據技術與架構

點擊右側關注,大數據開發領域最強公眾號!

大數據平臺演進之路 | 淘寶 & 滴滴 & 美團

大數據平臺演進之路 | 淘寶 & 滴滴 & 美團

暴走大數據

點擊右側關注,暴走大數據!

大數據平臺演進之路 | 淘寶 & 滴滴 & 美團

聲明:本文參考了淘寶/滴滴/美團發表的關於大數據平臺建設的文章基礎上予以整理。參考鏈接和作者在文末給出。在此對三家公司的技術人員無私奉獻精神表示感謝,如果文章造成了侵權行為,請聯繫本人刪除。本人在尊重事實的基礎上重新組織了語言和內容,旨在給讀者揭開一個完善的大數據平臺的組成和發展過程。本文在未經本人允許情況下不得轉載,否則追究版權責任。

By 大數據技術與架構場景描述:希望本文對那些正在建設大數據平臺的同學們有所啟發。

關鍵詞:大數據平臺

大數據平臺是為了計算,現今社會所產生的越來越大的數據量,以存儲、運算、展現作為目的的平臺。大數據技術是指從各種各樣類型的數據中,快速獲得有價值信息的能力。適用於大數據的技術,包括大規模並行處理(MPP)數據庫,數據挖掘電網,分佈式文件系統,分佈式數據庫,雲計算平臺,互聯網,和可擴展的存儲系統。總結,大數據平臺的出現伴隨著業務的不斷髮展,數據的不斷增長,數據需求的不斷增加,數據分析及挖掘的場景而逐步形成。本文講述淘寶、滴滴和美團三家互聯網公司的大數據平臺的發展歷程,為大家提供建設大數據平臺的基本思路。 淘寶

淘寶可能是中國互聯網業界較早搭建了自己大數據平臺的公司,下圖是淘寶早期的Hadoop大數據平臺,比較典型。

大數據平臺演進之路 | 淘寶 & 滴滴 & 美團

雲梯數據倉庫架構-圖來源於《淘寶大數據平臺之路》

淘寶的大數據平臺基本也是分成三個部分,上面是數據源與數據同步;中間是雲梯1,也就是淘寶的Hadoop大數據集群;下面是大數據的應用,使用大數據集群的計算結果。

數據源主要來自Oracle和MySQL的備庫,以及日誌系統和爬蟲系統,這些數據通過數據同步網關服務器導入到Hadoop集群中。其中DataExchange非實時全量同步數據庫數據,DBSync實時同步數據庫增量數據,TimeTunnel實時同步日誌和爬蟲數據。數據全部寫入到HDFS中。

大數據平臺演進之路 | 淘寶 & 滴滴 & 美團

數據同步工具-圖來源於《淘寶大數據平臺之路》

在Hadoop中的計算任務會通過天網調度系統,根據集群資源和作業優先級,調度作業的提交和執行。計算結果寫入到HDFS,再經過DataExchange同步到MySQL和Oracle數據庫。處於平臺下方的數據魔方、推薦系統等從數據庫中讀取數據,就可以實時響應用戶的操作請求。

淘寶大數據平臺的核心是位於架構圖左側的天網調度系統,提交到Hadoop集群上的任務需要按序按優先級調度執行,Hadoop集群上已經定義好的任務也需要調度執行,何時從數據庫、日誌、爬蟲系統導入數據也需要調度執行,何時將Hadoop執行結果導出到應用系統的數據庫,也需要調度執行。可以說,整個大數據平臺都是在天網調度系統的統一規劃和安排下進行運作的。

DBSync、TimeTunnel、DataExchange這些數據同步組件也是淘寶內部開發的,可以針對不同的數據源和同步需求進行數據導入導出。這些組件淘寶大都已經開源,我們可以參考使用。

滴滴

到目前為止大概經歷了三個階段,第一階段是業務方自建小集群;第二階段是集中式大集群、平臺化;第三階段是 SQL 化。

大數據平臺演進之路 | 淘寶 & 滴滴 & 美團

圖來源於《滴滴大數據平臺演進之路》

離線計算平臺架構如下。滴滴的離線大數據平臺是基於Hadoo 2(HDFS、Yarn、MapReduce)和Spark以及Hive構建,在此基礎上開發了自己的調度系統和開發系統。調度系統和前面其他系統一樣,調度大數據作業的優先級和執行順序。開發平臺是一個可視化的SQL編輯器,可以方便地查詢表結構、開發SQL,併發布到大數據集群上。

大數據平臺演進之路 | 淘寶 & 滴滴 & 美團

圖來源於《滴滴大數據平臺演進之路》

此外,滴滴還對HBase重度使用,並對相關產品(HBase、Phoenix)做了一些自定義的開發,維護著一個和實時、離線兩個大數據平臺同級別的HBase平臺,它的架構圖如下。

大數據平臺演進之路 | 淘寶 & 滴滴 & 美團

圖來源於《滴滴大數據平臺演進之路》

來自於實時計算平臺和離線計算平臺的計算結果被保存到HBase中,然後應用程序通過Phoenix訪問HBase。而Phoenix是一個構建在HBase上的SQL引擎,可以通過SQL方式訪問HBase上的數據。

為了最大程度方便業務方開發和管理流計算任務,滴滴構建瞭如下圖所示的實時計算平臺。在流計算引擎基礎上提供了 StreamSQL IDE、監控報警、診斷體系、血緣關係、任務管控等能力。

大數據平臺演進之路 | 淘寶 & 滴滴 & 美團

圖來源於《滴滴大數據平臺演進之路》

美團

我們以數據流的架構角度介紹一下整個美團數據平臺的架構,大數據平臺的數據源來自MySQL數據庫和日誌,數據庫通過Canal獲得MySQL的binlog,輸出給消息隊列Kafka,日誌通過Flume也輸出到Kafka,同時也會迴流到ODPS。

"

作者:王知無

歡迎掃碼關注我的VX公眾號,回覆【JAVAPDF】可以獲得一份200頁秋招面試題~

大數據技術與架構

點擊右側關注,大數據開發領域最強公眾號!

大數據平臺演進之路 | 淘寶 & 滴滴 & 美團

大數據平臺演進之路 | 淘寶 & 滴滴 & 美團

暴走大數據

點擊右側關注,暴走大數據!

大數據平臺演進之路 | 淘寶 & 滴滴 & 美團

聲明:本文參考了淘寶/滴滴/美團發表的關於大數據平臺建設的文章基礎上予以整理。參考鏈接和作者在文末給出。在此對三家公司的技術人員無私奉獻精神表示感謝,如果文章造成了侵權行為,請聯繫本人刪除。本人在尊重事實的基礎上重新組織了語言和內容,旨在給讀者揭開一個完善的大數據平臺的組成和發展過程。本文在未經本人允許情況下不得轉載,否則追究版權責任。

By 大數據技術與架構場景描述:希望本文對那些正在建設大數據平臺的同學們有所啟發。

關鍵詞:大數據平臺

大數據平臺是為了計算,現今社會所產生的越來越大的數據量,以存儲、運算、展現作為目的的平臺。大數據技術是指從各種各樣類型的數據中,快速獲得有價值信息的能力。適用於大數據的技術,包括大規模並行處理(MPP)數據庫,數據挖掘電網,分佈式文件系統,分佈式數據庫,雲計算平臺,互聯網,和可擴展的存儲系統。總結,大數據平臺的出現伴隨著業務的不斷髮展,數據的不斷增長,數據需求的不斷增加,數據分析及挖掘的場景而逐步形成。本文講述淘寶、滴滴和美團三家互聯網公司的大數據平臺的發展歷程,為大家提供建設大數據平臺的基本思路。 淘寶

淘寶可能是中國互聯網業界較早搭建了自己大數據平臺的公司,下圖是淘寶早期的Hadoop大數據平臺,比較典型。

大數據平臺演進之路 | 淘寶 & 滴滴 & 美團

雲梯數據倉庫架構-圖來源於《淘寶大數據平臺之路》

淘寶的大數據平臺基本也是分成三個部分,上面是數據源與數據同步;中間是雲梯1,也就是淘寶的Hadoop大數據集群;下面是大數據的應用,使用大數據集群的計算結果。

數據源主要來自Oracle和MySQL的備庫,以及日誌系統和爬蟲系統,這些數據通過數據同步網關服務器導入到Hadoop集群中。其中DataExchange非實時全量同步數據庫數據,DBSync實時同步數據庫增量數據,TimeTunnel實時同步日誌和爬蟲數據。數據全部寫入到HDFS中。

大數據平臺演進之路 | 淘寶 & 滴滴 & 美團

數據同步工具-圖來源於《淘寶大數據平臺之路》

在Hadoop中的計算任務會通過天網調度系統,根據集群資源和作業優先級,調度作業的提交和執行。計算結果寫入到HDFS,再經過DataExchange同步到MySQL和Oracle數據庫。處於平臺下方的數據魔方、推薦系統等從數據庫中讀取數據,就可以實時響應用戶的操作請求。

淘寶大數據平臺的核心是位於架構圖左側的天網調度系統,提交到Hadoop集群上的任務需要按序按優先級調度執行,Hadoop集群上已經定義好的任務也需要調度執行,何時從數據庫、日誌、爬蟲系統導入數據也需要調度執行,何時將Hadoop執行結果導出到應用系統的數據庫,也需要調度執行。可以說,整個大數據平臺都是在天網調度系統的統一規劃和安排下進行運作的。

DBSync、TimeTunnel、DataExchange這些數據同步組件也是淘寶內部開發的,可以針對不同的數據源和同步需求進行數據導入導出。這些組件淘寶大都已經開源,我們可以參考使用。

滴滴

到目前為止大概經歷了三個階段,第一階段是業務方自建小集群;第二階段是集中式大集群、平臺化;第三階段是 SQL 化。

大數據平臺演進之路 | 淘寶 & 滴滴 & 美團

圖來源於《滴滴大數據平臺演進之路》

離線計算平臺架構如下。滴滴的離線大數據平臺是基於Hadoo 2(HDFS、Yarn、MapReduce)和Spark以及Hive構建,在此基礎上開發了自己的調度系統和開發系統。調度系統和前面其他系統一樣,調度大數據作業的優先級和執行順序。開發平臺是一個可視化的SQL編輯器,可以方便地查詢表結構、開發SQL,併發布到大數據集群上。

大數據平臺演進之路 | 淘寶 & 滴滴 & 美團

圖來源於《滴滴大數據平臺演進之路》

此外,滴滴還對HBase重度使用,並對相關產品(HBase、Phoenix)做了一些自定義的開發,維護著一個和實時、離線兩個大數據平臺同級別的HBase平臺,它的架構圖如下。

大數據平臺演進之路 | 淘寶 & 滴滴 & 美團

圖來源於《滴滴大數據平臺演進之路》

來自於實時計算平臺和離線計算平臺的計算結果被保存到HBase中,然後應用程序通過Phoenix訪問HBase。而Phoenix是一個構建在HBase上的SQL引擎,可以通過SQL方式訪問HBase上的數據。

為了最大程度方便業務方開發和管理流計算任務,滴滴構建瞭如下圖所示的實時計算平臺。在流計算引擎基礎上提供了 StreamSQL IDE、監控報警、診斷體系、血緣關係、任務管控等能力。

大數據平臺演進之路 | 淘寶 & 滴滴 & 美團

圖來源於《滴滴大數據平臺演進之路》

美團

我們以數據流的架構角度介紹一下整個美團數據平臺的架構,大數據平臺的數據源來自MySQL數據庫和日誌,數據庫通過Canal獲得MySQL的binlog,輸出給消息隊列Kafka,日誌通過Flume也輸出到Kafka,同時也會迴流到ODPS。

大數據平臺演進之路 | 淘寶 & 滴滴 & 美團

圖來源於《美團大數據平臺》

Kafka的數據會被流式計算和批處理計算兩個引擎分別消費。流處理使用Storm進行計算,結果輸出到HBase或者數據庫。批處理計算使用Hive進行分析計算,結果輸出到查詢系統和BI(商業智能)平臺。

數據分析師可以通過BI產品平臺進行交互式的數據查詢訪問,也可以通過可視化的報表工具查看已經處理好的常用分析指標。公司高管也是通過這個平臺上的天機系統查看公司主要業務指標和報表。

"

作者:王知無

歡迎掃碼關注我的VX公眾號,回覆【JAVAPDF】可以獲得一份200頁秋招面試題~

大數據技術與架構

點擊右側關注,大數據開發領域最強公眾號!

大數據平臺演進之路 | 淘寶 & 滴滴 & 美團

大數據平臺演進之路 | 淘寶 & 滴滴 & 美團

暴走大數據

點擊右側關注,暴走大數據!

大數據平臺演進之路 | 淘寶 & 滴滴 & 美團

聲明:本文參考了淘寶/滴滴/美團發表的關於大數據平臺建設的文章基礎上予以整理。參考鏈接和作者在文末給出。在此對三家公司的技術人員無私奉獻精神表示感謝,如果文章造成了侵權行為,請聯繫本人刪除。本人在尊重事實的基礎上重新組織了語言和內容,旨在給讀者揭開一個完善的大數據平臺的組成和發展過程。本文在未經本人允許情況下不得轉載,否則追究版權責任。

By 大數據技術與架構場景描述:希望本文對那些正在建設大數據平臺的同學們有所啟發。

關鍵詞:大數據平臺

大數據平臺是為了計算,現今社會所產生的越來越大的數據量,以存儲、運算、展現作為目的的平臺。大數據技術是指從各種各樣類型的數據中,快速獲得有價值信息的能力。適用於大數據的技術,包括大規模並行處理(MPP)數據庫,數據挖掘電網,分佈式文件系統,分佈式數據庫,雲計算平臺,互聯網,和可擴展的存儲系統。總結,大數據平臺的出現伴隨著業務的不斷髮展,數據的不斷增長,數據需求的不斷增加,數據分析及挖掘的場景而逐步形成。本文講述淘寶、滴滴和美團三家互聯網公司的大數據平臺的發展歷程,為大家提供建設大數據平臺的基本思路。 淘寶

淘寶可能是中國互聯網業界較早搭建了自己大數據平臺的公司,下圖是淘寶早期的Hadoop大數據平臺,比較典型。

大數據平臺演進之路 | 淘寶 & 滴滴 & 美團

雲梯數據倉庫架構-圖來源於《淘寶大數據平臺之路》

淘寶的大數據平臺基本也是分成三個部分,上面是數據源與數據同步;中間是雲梯1,也就是淘寶的Hadoop大數據集群;下面是大數據的應用,使用大數據集群的計算結果。

數據源主要來自Oracle和MySQL的備庫,以及日誌系統和爬蟲系統,這些數據通過數據同步網關服務器導入到Hadoop集群中。其中DataExchange非實時全量同步數據庫數據,DBSync實時同步數據庫增量數據,TimeTunnel實時同步日誌和爬蟲數據。數據全部寫入到HDFS中。

大數據平臺演進之路 | 淘寶 & 滴滴 & 美團

數據同步工具-圖來源於《淘寶大數據平臺之路》

在Hadoop中的計算任務會通過天網調度系統,根據集群資源和作業優先級,調度作業的提交和執行。計算結果寫入到HDFS,再經過DataExchange同步到MySQL和Oracle數據庫。處於平臺下方的數據魔方、推薦系統等從數據庫中讀取數據,就可以實時響應用戶的操作請求。

淘寶大數據平臺的核心是位於架構圖左側的天網調度系統,提交到Hadoop集群上的任務需要按序按優先級調度執行,Hadoop集群上已經定義好的任務也需要調度執行,何時從數據庫、日誌、爬蟲系統導入數據也需要調度執行,何時將Hadoop執行結果導出到應用系統的數據庫,也需要調度執行。可以說,整個大數據平臺都是在天網調度系統的統一規劃和安排下進行運作的。

DBSync、TimeTunnel、DataExchange這些數據同步組件也是淘寶內部開發的,可以針對不同的數據源和同步需求進行數據導入導出。這些組件淘寶大都已經開源,我們可以參考使用。

滴滴

到目前為止大概經歷了三個階段,第一階段是業務方自建小集群;第二階段是集中式大集群、平臺化;第三階段是 SQL 化。

大數據平臺演進之路 | 淘寶 & 滴滴 & 美團

圖來源於《滴滴大數據平臺演進之路》

離線計算平臺架構如下。滴滴的離線大數據平臺是基於Hadoo 2(HDFS、Yarn、MapReduce)和Spark以及Hive構建,在此基礎上開發了自己的調度系統和開發系統。調度系統和前面其他系統一樣,調度大數據作業的優先級和執行順序。開發平臺是一個可視化的SQL編輯器,可以方便地查詢表結構、開發SQL,併發布到大數據集群上。

大數據平臺演進之路 | 淘寶 & 滴滴 & 美團

圖來源於《滴滴大數據平臺演進之路》

此外,滴滴還對HBase重度使用,並對相關產品(HBase、Phoenix)做了一些自定義的開發,維護著一個和實時、離線兩個大數據平臺同級別的HBase平臺,它的架構圖如下。

大數據平臺演進之路 | 淘寶 & 滴滴 & 美團

圖來源於《滴滴大數據平臺演進之路》

來自於實時計算平臺和離線計算平臺的計算結果被保存到HBase中,然後應用程序通過Phoenix訪問HBase。而Phoenix是一個構建在HBase上的SQL引擎,可以通過SQL方式訪問HBase上的數據。

為了最大程度方便業務方開發和管理流計算任務,滴滴構建瞭如下圖所示的實時計算平臺。在流計算引擎基礎上提供了 StreamSQL IDE、監控報警、診斷體系、血緣關係、任務管控等能力。

大數據平臺演進之路 | 淘寶 & 滴滴 & 美團

圖來源於《滴滴大數據平臺演進之路》

美團

我們以數據流的架構角度介紹一下整個美團數據平臺的架構,大數據平臺的數據源來自MySQL數據庫和日誌,數據庫通過Canal獲得MySQL的binlog,輸出給消息隊列Kafka,日誌通過Flume也輸出到Kafka,同時也會迴流到ODPS。

大數據平臺演進之路 | 淘寶 & 滴滴 & 美團

圖來源於《美團大數據平臺》

Kafka的數據會被流式計算和批處理計算兩個引擎分別消費。流處理使用Storm進行計算,結果輸出到HBase或者數據庫。批處理計算使用Hive進行分析計算,結果輸出到查詢系統和BI(商業智能)平臺。

數據分析師可以通過BI產品平臺進行交互式的數據查詢訪問,也可以通過可視化的報表工具查看已經處理好的常用分析指標。公司高管也是通過這個平臺上的天機系統查看公司主要業務指標和報表。

大數據平臺演進之路 | 淘寶 & 滴滴 & 美團

圖來源於《美團大數據平臺》

這幅圖是離線數據平臺的部署架構圖,最下面是三個基礎服務,包括Yarn、HDFS、HiveMeta。不同的計算場景提供不同的計算引擎支持。如果是新建的公司,其實這裡是有一些架構選型的。Cloud Table是自己做的HBase分裝封口。我們使用Hive構建數據倉庫,用Spark在數據挖掘和機器學習,Presto支持Adhoc上查詢,也可能寫一些複雜的SQL。對應關係這裡Presto沒有部署到Yarn,跟Yarn是同步的,Spark 是 on Yarn跑。目前Hive還是依賴Mapreduce的,目前嘗試著Hive on tez的測試和部署上線。

另外我們得知,在實時數倉的建設中,美團已經從原來的Storm遷移至Flink,Flink的API、容錯機制與狀態持久化機制都可以解決一部分使用Storm中遇到的問題。Flink不僅支持了大量常用的SQL語句,基本覆蓋了常用開發場景。而且Flink的Table可以通過TableSchema進行管理,支持豐富的數據類型和數據結構以及數據源。可以很容易的和現有的元數據管理系統或配置管理系統結合。

美團大數據平臺的整個過程管理通過調度平臺進行管理。公司內部開發者使用數據開發平臺訪問大數據平臺,進行ETL(數據提取、轉換、裝載)開發,提交任務作業並進行數據管理。

參考鏈接和作者:

  • 威少Java
  • https://www.jianshu.com/p/58869272944b
  • 淘寶大數據之路
  • http://www.raincent.com/content-85-7736-1.html
  • 滴滴的大數據計算平臺演進之路
  • https://blog.csdn.net/yulidrff/article/details/85680731
  • 美團大數據平臺
  • https://blog.csdn.net/love284969214/article/details/83652012

歡迎點贊+收藏+轉發朋友圈素質三連

"

作者:王知無

歡迎掃碼關注我的VX公眾號,回覆【JAVAPDF】可以獲得一份200頁秋招面試題~

大數據技術與架構

點擊右側關注,大數據開發領域最強公眾號!

大數據平臺演進之路 | 淘寶 & 滴滴 & 美團

大數據平臺演進之路 | 淘寶 & 滴滴 & 美團

暴走大數據

點擊右側關注,暴走大數據!

大數據平臺演進之路 | 淘寶 & 滴滴 & 美團

聲明:本文參考了淘寶/滴滴/美團發表的關於大數據平臺建設的文章基礎上予以整理。參考鏈接和作者在文末給出。在此對三家公司的技術人員無私奉獻精神表示感謝,如果文章造成了侵權行為,請聯繫本人刪除。本人在尊重事實的基礎上重新組織了語言和內容,旨在給讀者揭開一個完善的大數據平臺的組成和發展過程。本文在未經本人允許情況下不得轉載,否則追究版權責任。

By 大數據技術與架構場景描述:希望本文對那些正在建設大數據平臺的同學們有所啟發。

關鍵詞:大數據平臺

大數據平臺是為了計算,現今社會所產生的越來越大的數據量,以存儲、運算、展現作為目的的平臺。大數據技術是指從各種各樣類型的數據中,快速獲得有價值信息的能力。適用於大數據的技術,包括大規模並行處理(MPP)數據庫,數據挖掘電網,分佈式文件系統,分佈式數據庫,雲計算平臺,互聯網,和可擴展的存儲系統。總結,大數據平臺的出現伴隨著業務的不斷髮展,數據的不斷增長,數據需求的不斷增加,數據分析及挖掘的場景而逐步形成。本文講述淘寶、滴滴和美團三家互聯網公司的大數據平臺的發展歷程,為大家提供建設大數據平臺的基本思路。 淘寶

淘寶可能是中國互聯網業界較早搭建了自己大數據平臺的公司,下圖是淘寶早期的Hadoop大數據平臺,比較典型。

大數據平臺演進之路 | 淘寶 & 滴滴 & 美團

雲梯數據倉庫架構-圖來源於《淘寶大數據平臺之路》

淘寶的大數據平臺基本也是分成三個部分,上面是數據源與數據同步;中間是雲梯1,也就是淘寶的Hadoop大數據集群;下面是大數據的應用,使用大數據集群的計算結果。

數據源主要來自Oracle和MySQL的備庫,以及日誌系統和爬蟲系統,這些數據通過數據同步網關服務器導入到Hadoop集群中。其中DataExchange非實時全量同步數據庫數據,DBSync實時同步數據庫增量數據,TimeTunnel實時同步日誌和爬蟲數據。數據全部寫入到HDFS中。

大數據平臺演進之路 | 淘寶 & 滴滴 & 美團

數據同步工具-圖來源於《淘寶大數據平臺之路》

在Hadoop中的計算任務會通過天網調度系統,根據集群資源和作業優先級,調度作業的提交和執行。計算結果寫入到HDFS,再經過DataExchange同步到MySQL和Oracle數據庫。處於平臺下方的數據魔方、推薦系統等從數據庫中讀取數據,就可以實時響應用戶的操作請求。

淘寶大數據平臺的核心是位於架構圖左側的天網調度系統,提交到Hadoop集群上的任務需要按序按優先級調度執行,Hadoop集群上已經定義好的任務也需要調度執行,何時從數據庫、日誌、爬蟲系統導入數據也需要調度執行,何時將Hadoop執行結果導出到應用系統的數據庫,也需要調度執行。可以說,整個大數據平臺都是在天網調度系統的統一規劃和安排下進行運作的。

DBSync、TimeTunnel、DataExchange這些數據同步組件也是淘寶內部開發的,可以針對不同的數據源和同步需求進行數據導入導出。這些組件淘寶大都已經開源,我們可以參考使用。

滴滴

到目前為止大概經歷了三個階段,第一階段是業務方自建小集群;第二階段是集中式大集群、平臺化;第三階段是 SQL 化。

大數據平臺演進之路 | 淘寶 & 滴滴 & 美團

圖來源於《滴滴大數據平臺演進之路》

離線計算平臺架構如下。滴滴的離線大數據平臺是基於Hadoo 2(HDFS、Yarn、MapReduce)和Spark以及Hive構建,在此基礎上開發了自己的調度系統和開發系統。調度系統和前面其他系統一樣,調度大數據作業的優先級和執行順序。開發平臺是一個可視化的SQL編輯器,可以方便地查詢表結構、開發SQL,併發布到大數據集群上。

大數據平臺演進之路 | 淘寶 & 滴滴 & 美團

圖來源於《滴滴大數據平臺演進之路》

此外,滴滴還對HBase重度使用,並對相關產品(HBase、Phoenix)做了一些自定義的開發,維護著一個和實時、離線兩個大數據平臺同級別的HBase平臺,它的架構圖如下。

大數據平臺演進之路 | 淘寶 & 滴滴 & 美團

圖來源於《滴滴大數據平臺演進之路》

來自於實時計算平臺和離線計算平臺的計算結果被保存到HBase中,然後應用程序通過Phoenix訪問HBase。而Phoenix是一個構建在HBase上的SQL引擎,可以通過SQL方式訪問HBase上的數據。

為了最大程度方便業務方開發和管理流計算任務,滴滴構建瞭如下圖所示的實時計算平臺。在流計算引擎基礎上提供了 StreamSQL IDE、監控報警、診斷體系、血緣關係、任務管控等能力。

大數據平臺演進之路 | 淘寶 & 滴滴 & 美團

圖來源於《滴滴大數據平臺演進之路》

美團

我們以數據流的架構角度介紹一下整個美團數據平臺的架構,大數據平臺的數據源來自MySQL數據庫和日誌,數據庫通過Canal獲得MySQL的binlog,輸出給消息隊列Kafka,日誌通過Flume也輸出到Kafka,同時也會迴流到ODPS。

大數據平臺演進之路 | 淘寶 & 滴滴 & 美團

圖來源於《美團大數據平臺》

Kafka的數據會被流式計算和批處理計算兩個引擎分別消費。流處理使用Storm進行計算,結果輸出到HBase或者數據庫。批處理計算使用Hive進行分析計算,結果輸出到查詢系統和BI(商業智能)平臺。

數據分析師可以通過BI產品平臺進行交互式的數據查詢訪問,也可以通過可視化的報表工具查看已經處理好的常用分析指標。公司高管也是通過這個平臺上的天機系統查看公司主要業務指標和報表。

大數據平臺演進之路 | 淘寶 & 滴滴 & 美團

圖來源於《美團大數據平臺》

這幅圖是離線數據平臺的部署架構圖,最下面是三個基礎服務,包括Yarn、HDFS、HiveMeta。不同的計算場景提供不同的計算引擎支持。如果是新建的公司,其實這裡是有一些架構選型的。Cloud Table是自己做的HBase分裝封口。我們使用Hive構建數據倉庫,用Spark在數據挖掘和機器學習,Presto支持Adhoc上查詢,也可能寫一些複雜的SQL。對應關係這裡Presto沒有部署到Yarn,跟Yarn是同步的,Spark 是 on Yarn跑。目前Hive還是依賴Mapreduce的,目前嘗試著Hive on tez的測試和部署上線。

另外我們得知,在實時數倉的建設中,美團已經從原來的Storm遷移至Flink,Flink的API、容錯機制與狀態持久化機制都可以解決一部分使用Storm中遇到的問題。Flink不僅支持了大量常用的SQL語句,基本覆蓋了常用開發場景。而且Flink的Table可以通過TableSchema進行管理,支持豐富的數據類型和數據結構以及數據源。可以很容易的和現有的元數據管理系統或配置管理系統結合。

美團大數據平臺的整個過程管理通過調度平臺進行管理。公司內部開發者使用數據開發平臺訪問大數據平臺,進行ETL(數據提取、轉換、裝載)開發,提交任務作業並進行數據管理。

參考鏈接和作者:

  • 威少Java
  • https://www.jianshu.com/p/58869272944b
  • 淘寶大數據之路
  • http://www.raincent.com/content-85-7736-1.html
  • 滴滴的大數據計算平臺演進之路
  • https://blog.csdn.net/yulidrff/article/details/85680731
  • 美團大數據平臺
  • https://blog.csdn.net/love284969214/article/details/83652012

歡迎點贊+收藏+轉發朋友圈素質三連

大數據平臺演進之路 | 淘寶 & 滴滴 & 美團

"

作者:王知無

歡迎掃碼關注我的VX公眾號,回覆【JAVAPDF】可以獲得一份200頁秋招面試題~

大數據技術與架構

點擊右側關注,大數據開發領域最強公眾號!

大數據平臺演進之路 | 淘寶 & 滴滴 & 美團

大數據平臺演進之路 | 淘寶 & 滴滴 & 美團

暴走大數據

點擊右側關注,暴走大數據!

大數據平臺演進之路 | 淘寶 & 滴滴 & 美團

聲明:本文參考了淘寶/滴滴/美團發表的關於大數據平臺建設的文章基礎上予以整理。參考鏈接和作者在文末給出。在此對三家公司的技術人員無私奉獻精神表示感謝,如果文章造成了侵權行為,請聯繫本人刪除。本人在尊重事實的基礎上重新組織了語言和內容,旨在給讀者揭開一個完善的大數據平臺的組成和發展過程。本文在未經本人允許情況下不得轉載,否則追究版權責任。

By 大數據技術與架構場景描述:希望本文對那些正在建設大數據平臺的同學們有所啟發。

關鍵詞:大數據平臺

大數據平臺是為了計算,現今社會所產生的越來越大的數據量,以存儲、運算、展現作為目的的平臺。大數據技術是指從各種各樣類型的數據中,快速獲得有價值信息的能力。適用於大數據的技術,包括大規模並行處理(MPP)數據庫,數據挖掘電網,分佈式文件系統,分佈式數據庫,雲計算平臺,互聯網,和可擴展的存儲系統。總結,大數據平臺的出現伴隨著業務的不斷髮展,數據的不斷增長,數據需求的不斷增加,數據分析及挖掘的場景而逐步形成。本文講述淘寶、滴滴和美團三家互聯網公司的大數據平臺的發展歷程,為大家提供建設大數據平臺的基本思路。 淘寶

淘寶可能是中國互聯網業界較早搭建了自己大數據平臺的公司,下圖是淘寶早期的Hadoop大數據平臺,比較典型。

大數據平臺演進之路 | 淘寶 & 滴滴 & 美團

雲梯數據倉庫架構-圖來源於《淘寶大數據平臺之路》

淘寶的大數據平臺基本也是分成三個部分,上面是數據源與數據同步;中間是雲梯1,也就是淘寶的Hadoop大數據集群;下面是大數據的應用,使用大數據集群的計算結果。

數據源主要來自Oracle和MySQL的備庫,以及日誌系統和爬蟲系統,這些數據通過數據同步網關服務器導入到Hadoop集群中。其中DataExchange非實時全量同步數據庫數據,DBSync實時同步數據庫增量數據,TimeTunnel實時同步日誌和爬蟲數據。數據全部寫入到HDFS中。

大數據平臺演進之路 | 淘寶 & 滴滴 & 美團

數據同步工具-圖來源於《淘寶大數據平臺之路》

在Hadoop中的計算任務會通過天網調度系統,根據集群資源和作業優先級,調度作業的提交和執行。計算結果寫入到HDFS,再經過DataExchange同步到MySQL和Oracle數據庫。處於平臺下方的數據魔方、推薦系統等從數據庫中讀取數據,就可以實時響應用戶的操作請求。

淘寶大數據平臺的核心是位於架構圖左側的天網調度系統,提交到Hadoop集群上的任務需要按序按優先級調度執行,Hadoop集群上已經定義好的任務也需要調度執行,何時從數據庫、日誌、爬蟲系統導入數據也需要調度執行,何時將Hadoop執行結果導出到應用系統的數據庫,也需要調度執行。可以說,整個大數據平臺都是在天網調度系統的統一規劃和安排下進行運作的。

DBSync、TimeTunnel、DataExchange這些數據同步組件也是淘寶內部開發的,可以針對不同的數據源和同步需求進行數據導入導出。這些組件淘寶大都已經開源,我們可以參考使用。

滴滴

到目前為止大概經歷了三個階段,第一階段是業務方自建小集群;第二階段是集中式大集群、平臺化;第三階段是 SQL 化。

大數據平臺演進之路 | 淘寶 & 滴滴 & 美團

圖來源於《滴滴大數據平臺演進之路》

離線計算平臺架構如下。滴滴的離線大數據平臺是基於Hadoo 2(HDFS、Yarn、MapReduce)和Spark以及Hive構建,在此基礎上開發了自己的調度系統和開發系統。調度系統和前面其他系統一樣,調度大數據作業的優先級和執行順序。開發平臺是一個可視化的SQL編輯器,可以方便地查詢表結構、開發SQL,併發布到大數據集群上。

大數據平臺演進之路 | 淘寶 & 滴滴 & 美團

圖來源於《滴滴大數據平臺演進之路》

此外,滴滴還對HBase重度使用,並對相關產品(HBase、Phoenix)做了一些自定義的開發,維護著一個和實時、離線兩個大數據平臺同級別的HBase平臺,它的架構圖如下。

大數據平臺演進之路 | 淘寶 & 滴滴 & 美團

圖來源於《滴滴大數據平臺演進之路》

來自於實時計算平臺和離線計算平臺的計算結果被保存到HBase中,然後應用程序通過Phoenix訪問HBase。而Phoenix是一個構建在HBase上的SQL引擎,可以通過SQL方式訪問HBase上的數據。

為了最大程度方便業務方開發和管理流計算任務,滴滴構建瞭如下圖所示的實時計算平臺。在流計算引擎基礎上提供了 StreamSQL IDE、監控報警、診斷體系、血緣關係、任務管控等能力。

大數據平臺演進之路 | 淘寶 & 滴滴 & 美團

圖來源於《滴滴大數據平臺演進之路》

美團

我們以數據流的架構角度介紹一下整個美團數據平臺的架構,大數據平臺的數據源來自MySQL數據庫和日誌,數據庫通過Canal獲得MySQL的binlog,輸出給消息隊列Kafka,日誌通過Flume也輸出到Kafka,同時也會迴流到ODPS。

大數據平臺演進之路 | 淘寶 & 滴滴 & 美團

圖來源於《美團大數據平臺》

Kafka的數據會被流式計算和批處理計算兩個引擎分別消費。流處理使用Storm進行計算,結果輸出到HBase或者數據庫。批處理計算使用Hive進行分析計算,結果輸出到查詢系統和BI(商業智能)平臺。

數據分析師可以通過BI產品平臺進行交互式的數據查詢訪問,也可以通過可視化的報表工具查看已經處理好的常用分析指標。公司高管也是通過這個平臺上的天機系統查看公司主要業務指標和報表。

大數據平臺演進之路 | 淘寶 & 滴滴 & 美團

圖來源於《美團大數據平臺》

這幅圖是離線數據平臺的部署架構圖,最下面是三個基礎服務,包括Yarn、HDFS、HiveMeta。不同的計算場景提供不同的計算引擎支持。如果是新建的公司,其實這裡是有一些架構選型的。Cloud Table是自己做的HBase分裝封口。我們使用Hive構建數據倉庫,用Spark在數據挖掘和機器學習,Presto支持Adhoc上查詢,也可能寫一些複雜的SQL。對應關係這裡Presto沒有部署到Yarn,跟Yarn是同步的,Spark 是 on Yarn跑。目前Hive還是依賴Mapreduce的,目前嘗試著Hive on tez的測試和部署上線。

另外我們得知,在實時數倉的建設中,美團已經從原來的Storm遷移至Flink,Flink的API、容錯機制與狀態持久化機制都可以解決一部分使用Storm中遇到的問題。Flink不僅支持了大量常用的SQL語句,基本覆蓋了常用開發場景。而且Flink的Table可以通過TableSchema進行管理,支持豐富的數據類型和數據結構以及數據源。可以很容易的和現有的元數據管理系統或配置管理系統結合。

美團大數據平臺的整個過程管理通過調度平臺進行管理。公司內部開發者使用數據開發平臺訪問大數據平臺,進行ETL(數據提取、轉換、裝載)開發,提交任務作業並進行數據管理。

參考鏈接和作者:

  • 威少Java
  • https://www.jianshu.com/p/58869272944b
  • 淘寶大數據之路
  • http://www.raincent.com/content-85-7736-1.html
  • 滴滴的大數據計算平臺演進之路
  • https://blog.csdn.net/yulidrff/article/details/85680731
  • 美團大數據平臺
  • https://blog.csdn.net/love284969214/article/details/83652012

歡迎點贊+收藏+轉發朋友圈素質三連

大數據平臺演進之路 | 淘寶 & 滴滴 & 美團

大數據平臺演進之路 | 淘寶 & 滴滴 & 美團

文章不錯?點個【在看】吧!

"

相關推薦

推薦中...