大數據軟件遇到一坎應用井噴下哪種技術路線能邁過去成為引領者?

歷經十多年發展,大數據應用井噴式湧現,不但讓商業和企業的先行者利用了數據的價值,獲得商業成功,而且改變了當前全球企業業務發展的驅動力,由原來的流程等驅動,發展到現在的數據驅動。

另一個變化就是在企業級市場,大數據核心軟件主要由國外企業把持的市場格局開始鬆動,中國大數據核心軟件迅速成長,在一些方面實現了超越。

在全球大數據軟件分工越來越專業、競爭越來越有序的環境下,大數據應用對大數據基礎軟件提出了更高的要求,在大數據核心軟件眾多發展路線中,誰會邁過這道坎,引領發展呢?

技術路線之爭延綿十餘年

在大數據基礎軟件發展中,技術路線發展演繹精彩紛呈,令人目不暇接。不過,經過多方採訪,記者發現目前大數據軟件的技術路線基本可以分為四大類:

第一條技術路線就是Hadoop

提起大數據,依然不能不提Hadoop。因為Hadoop讓海量的數據能分佈存儲,並能分佈的存取與處理。過去Hadoop幾乎成了大數據的代名詞。在大數據發展中,開源大數據平臺Hadoop佔據至關重要的地位。Cloudera、Hortonworks、MapR是Hadoop的三駕馬車。

提到Hadoop,就不能不提Cloudera。雖然Cloudera也發佈商業化工具產品,但以提供Hadoop發行版為主。產品分為免費版和企業版,只有企業版的核心組件不對外開放,其他技術均提供給社區。

Hortonworks就是通過Hadoop框架搭建其產品的最大的一家公司,將自己的技術完全貢獻給社區,不靠產品獲利,而是靠向企業客戶提供支持服務和後期維護盈利。

MapR以發佈商業化工具產品為主,同時提供Hadoop發行版。基於開源技術,提高穩定性,同時強化了一些高級功能,定製化程度較高,核心技術是不公開的,營收主要來自軟件收入。MapR的企業級產品的優勢是更好地管理和確保數據在Hadoop中的可恢復性和可靠性,以及多租戶和高可用性功能提供了工具。

專家認為,作為大數據基礎軟件的一大技術路線,基於開源Hadoop發展的最大優勢就是可處理的數據量龐大且運行穩定。在節點資源不增加的情況下,運行速度雖然不佔優勢,但卻十分穩定。既是優勢也是劣勢,Hadoop在批處理方面的強大無法掩蓋其在交互式分析和流處理方面的缺憾。

第二條技術路線就是Spark。

Gartner連續多年唱衰Hadoop,並認為,儘管企業對大數據解決方案的需求不斷增長,但對Hadoop的需求沒有像預期那樣加速。同時,25%的Spark已經開始脫離Hadoop生態單獨運行。

一位業界專家介紹非常形象:如果說Hadoop是一家大型包工隊,Hadoop是人工的搬磚蓋房子,所以慢,但是穩妥;Spark是用機器搬磚蓋房子,可以很快很靈活,缺點就是更容易出機械故障。

Hadoop開始升級,指定調度專家YARN調度工人,其MapReduce也可以支持Mesos;Spark從多個倉庫(HDFS、Cassandra、S3、HBase)搬磚,還允許不同專家如YARN/ MESOS對人員和任務進行調度。

其實,這兩者並不是水火不容。Spark經常和Hadoop團隊合作,讓問題變得更加複雜。不管怎麼說,Spark和Hadoop都是兩個獨立的包工隊,都有著各自的優缺點和特定的業務用例。

Spark技術的代表企業是Databricks。Databricks公司是由加州大學伯克利分校負責開發流行的開源Apache Spark數據處理框架的團隊創建的。該公司幫助大企業快速處理、整合和分析大量數據。它的統一分析平臺旨在孤立的數據存儲系統之間建立數字管道,並幫助工程師和數據科學家更好地溝通。

Spark的優勢是在內存中運行速度比Hadoop快100倍,在磁盤上運行速度快10倍。此外,Spark在機器學習應用中的速度同樣更快,如Naive Bayes和k-means。

所以說大數據應用基礎平臺並不是固定的,也是需要優化的,優化後的性能表現會有出色的表現。

第三條技術路線就是以星環科技為代表的自主開發。

中國獨特的國情帶來的大數據量,國外的技術在處理本土業時經常會水土不服:中國用戶需要處理的數據量遠超過之前在其他國家的需求。同時中國用戶在應用場景方面有著非常強的創新意識,需要處理的場景複雜度也超過了其他國家用戶。星環科技就是專注解決用戶難點,不盲從社區或其他路線的代表,走出了一條獨特的自主研發技術創新之路。星環的產品體系已經從最早的分析型數據庫擴展至分析型數據庫、實時計算、全文檢索數據庫、圖數據庫、Bigtable數據庫、交易數據庫、基於容器技術的數據雲等,從底層資源調度到上面的計算引擎,形成了一條有別於Hadoop或Spark、而具有星環特色的技術路線,實現了多個領域的技術突破。例如分析型數據庫ArgoDB採用了星環統一的計算引擎以及統一的存儲管理系統,同時針對閃存設計的存儲格式,取代了傳統的Hadoop+MPP的結構,同時對比MPP和Hadoop平臺在數據量較大時都有性能上的優勢。

在實時流處理領域,星環自主的Slipstream不僅僅支持SQL的實時數據庫,搭載了一個自主研發的規則引擎和複雜事件處理引擎,用戶可以直接在對業務所需要用的計算方式進行直接的編寫,還可以對開發的結果進行一站式的部署調試,極大的方便了業務的開發人員。

第四條其他技術路線。

其中最重要的一條就是上一代MPP架構的繼續沿用。早在大數據廣為人知之前,大規模並行處理MPP架構就已誕生。其設計理念是對傳統關係型數據庫進行分佈式化,是對以往數據庫擴展性差的改良。Teradata、Greenplum、Vertica、Netezza等大家早已熟知企業都是基於此架構來完成解決方案。不過由於其根源仍是對舊技術的修修補補,不支持非結構化數據存儲分析,擴展上限仍不足夠,硬件設備昂貴等特性隨著時間逐漸暴露出來。

除此之外,還有部分專屬領域的技術活躍在市場上,例如應用於網站數據存儲的文檔數據庫MongDB,專注於滿足各類複雜搜索需求的ElasticSearch,常被應用於會話緩存的高速NoSQL數據庫Redis,圖數據庫Neo4J,以及由實時計算引擎正蔓延成為通用大數據引擎的Flink等。這些技術有幾大特點:一是大多是開源系統;二是應用面相對較窄,影響範圍有限。

2.四條技術路線開始出現分化

伴隨著技術的興起到發展成熟,技術路線也從百花齊放到部分技術路線消亡或者合併。任何技術的發展最終只會有兩三條路線沉澱下來。實踐證明,大數據基礎平臺是不可或缺的。但是隨著應用的深入,要想利用開源通過服務或者訂閱賺錢的難度卻越來越大了,要把它做成生意的門檻越來越高了。近年來,大數據基礎軟件典型的四條技術路線開始出現分化。

首先 Hadoop 商業化最典型的公司就是Hadoop的三駕馬車——Hortonworks、Cloudera和MapR。2014年,Hortonworks成功在納斯達克上市。該公司以每股16美元的價格發行625萬股股票,募集1億美元資金,開盤首日上漲幅度達到60%,市值接近11億美元。

2017年4月底,Cloudera以每股15美元的定價在紐約證券交易所上市,股價一日上漲超20%至18.09美元。這一價格也超出了此前公司12到14美元的預期範圍。Cloudera市值約為23億美元,遠低於2014年英特爾給出的41億美元估值。

2018年,大數據領域的兩大巨頭公司Cloudera和Hortonworks因為連連虧損,宣佈平等合併,Cloudera以股票方式收購Hortonworks,Cloudera股東最終獲得合併公司60%的股份。這筆交易意味著Hadoop市場再也無法維持兩大競爭對手對峙的狀態了。但合併後公司股價繼續下跌,在過去的七個月市值減半。

MapR於2009年成立,曾在五輪風險投資裡拿到1.14億美元。公司的風投支持者通常希望看到兩個結果,其一是上市,另一個是被收購。但是公司MapR的首席執行官米爾斯表示,“我想上市,但我也想尊重上市的步驟。”

遺憾的是,MapR於近期宣佈,如果無法獲得額外的資金,可能削減122個工作崗位,並關閉其位於美國加利福尼亞州的總部。關閉總部意味著什麼?是企業關門大吉,還是不要行政總部,繼續發展開源系統,幾乎無人可以確認。

其次,Spark技術的代表企業Databricks公司2018年的經常性收入達到1億美元,訂閱收入增加了兩倍。但是其業務方向已經轉移到“大數據分析和人工智能解決方案”。行業內更多的將其看成一家AI公司。

第三, 星環科技堅持走自己的技術路線,堅持自主研發和技術創新,成果豐碩。

星環科技的產品連續兩年入選工信部“星河獎”最佳大數據產品獎。知名諮詢機構wikibon在2018年的《大數據市場分析報告》中,星環科技作為唯一進入報告的中國廠商,被評價為“產品策略對西方供應商非常具有指導意義,因為它解決了許多同行的開源版本的限制”。因為超前的技術眼光和產品發展路線,星環科技行業技術引領者的地位獲得了初步認可。

另外,Elasticsearch則轉為實時分佈式搜索和分析引擎,可以應用在任何實時檢索的場景中。基於此技術的公司Elastic一手抓住搜索,一手專注開源,利用創新的搜索引擎技術和開源的軟件,成為大數據搜索和數據實時處理領域的頭部企業。公司成功在紐約證券交易所上市。

3.誰能邁過這道坎,成為引領者?

那麼,哪條大數據軟件技術發展路線能成為領導者呢?筆者認為,主要看四個方面:

首先,適應性,能否適應雲計算髮展大勢。企業向公有云的轉變,各種規模的公司都在增加對AWS、Azure、阿里雲、Google Cloud等雲服務的採用。如果企業正在轉向雲計算,那麼選擇將大數據視為其中一部分的雲平臺既省時又省力。利用雲計算的資源池化,利用容器技術統一管理和調度,支持單行擴展,按需使用,按需付費,讓業務人員隨時使用數據分析平臺成為一個發展方向。

第二,獨特性。軟件產品自主可控固然重要,但是獨特性則是市場競爭致勝的法寶。星環科技CEO孫元浩說,我們發展新技術最看重獨特性、領先性。

第三,豐富性。目前來看,單有大數據平臺還不夠,應該與人工智能、雲計算融合發展,提供一體化平臺,彈性資源策略讓服務隨處可見。另外,全棧自主開發也成為一道風景。

第四,生態體系與用戶成功實踐經驗。大數據和雲計算的基礎軟件,需要一個強大的生態才能夠形成一定的規模。覆蓋的行業廣泛性、用戶應用成功經驗等也都是非常重要的因素。

提供基於私有云服務的雲上大數據廠商BlueData在去年將服務延伸至人工智能和分析服務,今年被HP收購,以提升HP為客戶提供的服務全棧性,彌補HP的短板。而另外一家公司Qubole則是選擇了在各個公有云上提供數據分析與機器學習平臺,其口號是“讓你的數據湖變成利潤中心”。

星環科技於2018年在行業首先推出了數據雲平臺Transwarp Data Cloud,這一雲原生平臺採用容器技術,以數據為中心,通過提供完整的數據、應用和智能的開發工具,實現數據和應用互通互聯。今年5月推出的TDC 2.0與上一版本相比,能更全面地滿足不用業務、不同角色的工作需求。經過近4年的發展,星環形成了有突出的技術優勢的PaaS產品——星環數據雲。

有趣的是,2018年Cloudera和Hortonworks宣佈合併時也創建其首個企業數據雲。除了主打是100%開源外,能夠同時兼容混合雲、多雲部署應用情境,提供企業用戶足夠的搬遷、部署彈性,避免被特定廠商綁定。

僅在公有云上提供DB-PaaS的公司Snowflake去年估值已達35億美金,而業績不到1億美金,估值倍數超過了其他同類公司。星環的數據雲TDC除了提供與Snowflake類似服務外,還可以支持 DB-PaaS、Application PaaS和Analytic PaaS三個核心模塊,並能支持公有云-公有云、公有云-私有云之間互操作,有效的融合了數據、應用和智能,異構雲的互通擴大了產品應用範圍。

隨著大數據技術的不斷髮展,預計在未來三到五年內,會發展為僅剩一到兩條技術路線。誰能成為大數據技術引領者,我們將拭目以待!

相關推薦

推薦中...