DTCC2017:聽馬如悅解析百度NewSQL數據庫系統

NewSql 大數據 NoSQL 機器學習 IT168企業級 2017-04-11

他是一個不折不扣的“架構老司機”,早在2010年的時候就曾參加過IT168舉辦的系統架構師大會,可以說是我們的老朋友。他還是一個“技術痴狂”,曾在我們的技術大會現場修改了自己的演講PPT,只為同現場的技術人展示更多的核心技術論。這就是DTCC2017數據庫技術大會開幕前接受筆者專訪的演講嘉賓,百度大數據部資深工程師/大數據主任架構師——馬如悅。

DTCC2017:聽馬如悅解析百度NewSQL數據庫系統

馬如悅, 目前在百度負責大數據平臺的架構。主要的工作包括離線處理平臺,在線數據服務。在線數據服務包括3個系統,一個叫做SimpleDB,是偏高性能數據服務的NoSQL系統;一個是偏大規模數據分析的OLAP數據庫叫Palo;還有一個就是這次他即將為我們帶來解析的最主要TDB,是偏大規模事物處理的OLTP數據庫。

我們都知道像百度這樣的大型互聯網公司往往擁有海量的用戶,用戶每天產生的海量數據必須有一個大數據平臺做支撐。據馬如悅介紹,百度當前有兩大平臺,一個大數據平臺,一個機器學習平臺。

馬如悅告訴筆者,百度大數據平臺利用hadoop、spark等類似技術,主要做數據收集和預處理。就是通過adhoc分析,報表產出等這些任務,包括batch/Stream 離線處理部分和在線數據服務部分。它獨特之處就是不用大量開源組件堆砌,而是對各個組件進行定製,集成,形成一個易用的大數據架構解決方案。這就類似於我們提供給用戶的是蘋果手機,而不是cpu,內存,磁盤的一堆組件集合。機器學習平臺是百度統一的機器學習訓練和預測平臺。這套平臺實現了機器學習算法,深度學習算法的大規模分佈式實現,對GPU和FPGA等的加速支持。同時這個平臺也對類似語音,圖像,自然語言處理等領域提供各種高層庫的支持。

技術趨勢前提是用戶簡單使用

談到最近關注的技術,馬如悅說他目前關注兩個領域:一個是大數據系統和機器學習系統領域的離線系統集成產品;一個是包括偏OLAP和偏OLTP領域的大規模數據庫系統。

他講到,離線數據處理和分析系統,需要集成性產品,類似於傳統的解決方案提供商。當前的大數據系統和機器學習系統,百花齊放,各類組件繁多,每個公司要實施這些系統,都需要部署多達一二十種組件。如何讓用戶簡單的使用,不關心各個組件的部署和維護,使得使用多個組件的集合像一個系統一樣,這個是我認為未來的一個技術趨勢。正如很久前大家都會去中關村淘選零件自己裝機一樣,而現在多數都會選購品牌機,組裝機的日子一去不返。又如大家看到各種android機,用的零件都是差不多,為什麼有的賣得好,有的則不然,這就是看哪個廠家的集成能力強了。做集成產品也是傳統商業系統廠商的長處,而我們當前使用的大量開源系統在這個方面做得還是不夠好。在和其它公司合作大數據系統時,大家的需求也都是一個更好用的大數據解決方案,或者一個好的集成系統。

另外,馬如悅還在關注數據庫領域的在線數據系統。在實際中,業務系統一般會用兩個,一個是偏OLAP分析的,一個是偏OLTP的。他認為當前這兩個領域都沒有好的項目,要麼是針對傳統數據庫的不斷改進優化,要麼是各種NoSQL系統係數登場。各種浮誇的宣傳和無意義的跑分,著實讓一線選型人員頭疼。而實踐中,各種系統又問題頻出,遠達不到各自宣傳的那樣。所以,在數據庫領域,未來一定會吸引更多的公司投入。

數據庫領域改朝換代的機會來了

隨著馬如悅分析的技術趨勢,筆者問到近期行業內熱議的“商業數據庫已死”這個問題,馬如悅是如何看待的呢?他這樣告訴筆者他的觀點“當前傳統數據庫還未死,因為新式數據庫還未成熟的原因。但是隨著對數據庫領域的投入增多,未來商業數據庫份額定會越來越小。這個毋庸置疑。”這個趨勢在互聯網公司會先流行起來然後蔓延到傳統產業。這對於數據庫領域的從業者來說是打好機會。互聯網產業迫切的需要新式數據庫來解決種種問題,大量的傳統企業紛紛進行互聯網化也加速了新式數據庫的成熟。

企業怎樣選擇存儲系統

眾所周知,Hadoop的HDFS一直是比較受歡迎的分佈式文件系統。不少人認為HDFS應該朝著實現Posix文件系統發展,而對象存儲朝著類似NoSQL方向,對於這個判斷馬如悅並不贊同。他說“在百度這麼多年的實際實踐中發現,基本沒有任何業務需求需要Posix文件系統這種語義,而HDFS遇到更多的是高可用擴展問題、大量小文件支持問題。而對象存儲也逐漸需要一些目錄樹的支持,以便更好的支持各種計算系統。所以這兩者未來必定會融合,他們之間的差異並不足以支撐兩套系統的獨立存在。”

對於企業面臨的選擇問題,馬如悅給出建議:在解決問題時,不要糾結於名詞,糾結別人設置的條框。實踐出真知,在實踐中往往可以解決問題,這就是最好的方案。從分佈式存儲系統遷移至對象存儲系統,相當容易。當前使用HDFS多簡單的原因是沒有一套成熟的開源對象存儲系統。

寫在最後

隨著分析系統的成熟,百度一直研發的偏分析系統已經逐漸成熟。隨著互聯網趨勢的要求,在OLTP領域,在線事務處理需求量變大,原來一直依賴的是OldSQL,OldSQL++, 或者 NoSQL 來應對,比如 MySQL, 或者支持分庫分表的分佈式 MySQL解決方案,類似 MongoDB, HBase 等 NoSQL 系統,當前各個系統都在某個領域解決得很好,但是都存在各種或多或少的問題,更為重要的是,業務系統無法簡單的使用一套系統來解決大部分問題。對於在線業務,多套系統的聯合部署使用,不但影響上層業務開發效率,就是部署、維護、調優和學習這些系統,都是非常大的障礙。而商業 OLTP 數據庫,由於很多都是面向過去,傳統產業進行設計,而沒有考慮到如今互聯網帶來的對數據庫的很多技術衝擊,比如24*7在線的要求,異地多活的需求,還有高效的 online schema changing,還有高併發高性能的需求,這些在傳統數據庫中考慮都是有限的。

在即將開幕的DTCC2017數據庫技術大會上,馬如悅將為參會者帶來主題演講《百度NewSQL數據庫系統》。主要向大家介紹百度在NewSQL領域的最新工作。希望這個分享為那些奮戰在OldSQL 領域和 NoSQL 領域的同學們帶來一些 NewSQL 領域的思維,讓大家多多關注這個領域,大家共同把這個領域做好。讓我們共同期待著一場乾貨的到來。

相關推薦

推薦中...