DTCC2017：聽馬如悅解析百度NewSQL數據庫系統

NewSql 大數據 NoSQL 機器學習 IT168企業級 2017-04-11

他是一個不折不扣的“架構老司機”，早在2010年的時候就曾參加過IT168舉辦的系統架構師大會，可以說是我們的老朋友。他還是一個“技術痴狂”，曾在我們的技術大會現場修改了自己的演講PPT，只為同現場的技術人展示更多的核心技術論。這就是DTCC2017數據庫技術大會開幕前接受筆者專訪的演講嘉賓，百度大數據部資深工程師/大數據主任架構師——馬如悅。

馬如悅，目前在百度負責大數據平臺的架構。主要的工作包括離線處理平臺，在線數據服務。在線數據服務包括3個系統，一個叫做SimpleDB，是偏高性能數據服務的NoSQL系統;一個是偏大規模數據分析的OLAP數據庫叫Palo;還有一個就是這次他即將為我們帶來解析的最主要TDB，是偏大規模事物處理的OLTP數據庫。

我們都知道像百度這樣的大型互聯網公司往往擁有海量的用戶，用戶每天產生的海量數據必須有一個大數據平臺做支撐。據馬如悅介紹，百度當前有兩大平臺，一個大數據平臺，一個機器學習平臺。

馬如悅告訴筆者，百度大數據平臺利用hadoop、spark等類似技術，主要做數據收集和預處理。就是通過adhoc分析，報表產出等這些任務，包括batch/Stream 離線處理部分和在線數據服務部分。它獨特之處就是不用大量開源組件堆砌，而是對各個組件進行定製，集成，形成一個易用的大數據架構解決方案。這就類似於我們提供給用戶的是蘋果手機，而不是cpu，內存，磁盤的一堆組件集合。機器學習平臺是百度統一的機器學習訓練和預測平臺。這套平臺實現了機器學習算法，深度學習算法的大規模分佈式實現，對GPU和FPGA等的加速支持。同時這個平臺也對類似語音，圖像，自然語言處理等領域提供各種高層庫的支持。

技術趨勢前提是用戶簡單使用

談到最近關注的技術，馬如悅說他目前關注兩個領域：一個是大數據系統和機器學習系統領域的離線系統集成產品;一個是包括偏OLAP和偏OLTP領域的大規模數據庫系統。

他講到，離線數據處理和分析系統，需要集成性產品，類似於傳統的解決方案提供商。當前的大數據系統和機器學習系統，百花齊放，各類組件繁多，每個公司要實施這些系統，都需要部署多達一二十種組件。如何讓用戶簡單的使用，不關心各個組件的部署和維護，使得使用多個組件的集合像一個系統一樣，這個是我認為未來的一個技術趨勢。正如很久前大家都會去中關村淘選零件自己裝機一樣，而現在多數都會選購品牌機，組裝機的日子一去不返。又如大家看到各種android機，用的零件都是差不多，為什麼有的賣得好，有的則不然，這就是看哪個廠家的集成能力強了。做集成產品也是傳統商業系統廠商的長處，而我們當前使用的大量開源系統在這個方面做得還是不夠好。在和其它公司合作大數據系統時，大家的需求也都是一個更好用的大數據解決方案，或者一個好的集成系統。

另外，馬如悅還在關注數據庫領域的在線數據系統。在實際中，業務系統一般會用兩個，一個是偏OLAP分析的，一個是偏OLTP的。他認為當前這兩個領域都沒有好的項目，要麼是針對傳統數據庫的不斷改進優化，要麼是各種NoSQL系統係數登場。各種浮誇的宣傳和無意義的跑分，著實讓一線選型人員頭疼。而實踐中，各種系統又問題頻出，遠達不到各自宣傳的那樣。所以，在數據庫領域，未來一定會吸引更多的公司投入。

數據庫領域改朝換代的機會來了

隨著馬如悅分析的技術趨勢，筆者問到近期行業內熱議的“商業數據庫已死”這個問題，馬如悅是如何看待的呢?他這樣告訴筆者他的觀點“當前傳統數據庫還未死，因為新式數據庫還未成熟的原因。但是隨著對數據庫領域的投入增多，未來商業數據庫份額定會越來越小。這個毋庸置疑。”這個趨勢在互聯網公司會先流行起來然後蔓延到傳統產業。這對於數據庫領域的從業者來說是打好機會。互聯網產業迫切的需要新式數據庫來解決種種問題，大量的傳統企業紛紛進行互聯網化也加速了新式數據庫的成熟。

企業怎樣選擇存儲系統

眾所周知，Hadoop的HDFS一直是比較受歡迎的分佈式文件系統。不少人認為HDFS應該朝著實現Posix文件系統發展，而對象存儲朝著類似NoSQL方向，對於這個判斷馬如悅並不贊同。他說“在百度這麼多年的實際實踐中發現，基本沒有任何業務需求需要Posix文件系統這種語義，而HDFS遇到更多的是高可用擴展問題、大量小文件支持問題。而對象存儲也逐漸需要一些目錄樹的支持，以便更好的支持各種計算系統。所以這兩者未來必定會融合，他們之間的差異並不足以支撐兩套系統的獨立存在。”

對於企業面臨的選擇問題，馬如悅給出建議：在解決問題時，不要糾結於名詞，糾結別人設置的條框。實踐出真知，在實踐中往往可以解決問題，這就是最好的方案。從分佈式存儲系統遷移至對象存儲系統，相當容易。當前使用HDFS多簡單的原因是沒有一套成熟的開源對象存儲系統。

寫在最後

隨著分析系統的成熟，百度一直研發的偏分析系統已經逐漸成熟。隨著互聯網趨勢的要求，在OLTP領域，在線事務處理需求量變大，原來一直依賴的是OldSQL，OldSQL++, 或者 NoSQL 來應對，比如 MySQL, 或者支持分庫分表的分佈式 MySQL解決方案，類似 MongoDB, HBase 等 NoSQL 系統，當前各個系統都在某個領域解決得很好，但是都存在各種或多或少的問題，更為重要的是，業務系統無法簡單的使用一套系統來解決大部分問題。對於在線業務，多套系統的聯合部署使用，不但影響上層業務開發效率，就是部署、維護、調優和學習這些系統，都是非常大的障礙。而商業 OLTP 數據庫，由於很多都是面向過去，傳統產業進行設計，而沒有考慮到如今互聯網帶來的對數據庫的很多技術衝擊，比如24*7在線的要求，異地多活的需求，還有高效的 online schema changing，還有高併發高性能的需求，這些在傳統數據庫中考慮都是有限的。

在即將開幕的DTCC2017數據庫技術大會上，馬如悅將為參會者帶來主題演講《百度NewSQL數據庫系統》。主要向大家介紹百度在NewSQL領域的最新工作。希望這個分享為那些奮戰在OldSQL 領域和 NoSQL 領域的同學們帶來一些 NewSQL 領域的思維，讓大家多多關注這個領域，大家共同把這個領域做好。讓我們共同期待著一場乾貨的到來。

DTCC2017：聽馬如悅解析百度NewSQL數據庫系統

相關推薦