'大數據與AI主要發展趨勢：基礎設施、分析層面及應用層面'

大數據人工智能 Hadoop Cloudera Azure 微軟雲計算 Hortonworks 技術人生第一份工作 Google IBM 經濟紅帽公司 Adobe Systems 證券投資基金分析師交通加米穀大數據 2019-08-25

在過去幾年，我們已經開始通過數據科學、機器學習和人工智能讓部分應用場景的數據產生價值。這些技術也逐步從最初的早期採用者（BAT和初創公司）擴展到更廣泛的經濟。如何存儲數據、管理數據並深挖數據的價值已經變成了幾乎所有的企業都需要思考的問題。來源：晨山資本

我們正處在通往數據驅動的智能世界（智能交通工具、智能企業、智能產品）的快車道上。在終局到來之前，技術發展都在顛覆與被顛覆，這是初創企業的用武之地。我們持續關注數據智能鏈條上的初創企業，也在持續關注數據與AI發展當前處在什麼階段，未來會有什麼變化。

以下是Matt Turck（美國早期基金FirstMark合夥人）總結的2019年大數據及AI領域的主要發展趨勢。他從基礎設施、分析以及應用層面分別闡述了主要發展趨勢，希望能給大家帶來思考。

基礎設施層面的趨勢

第三波浪潮從Hadoop到雲服務再到Kubernetes

數據治理、數據編目、數據沿襲：數據管理的重要性與日俱增

專用於AI的基礎設施的崛起

數據基礎設施一直保持快速進化狀態。這個速度保持了很多年，近期有加速進化的趨勢，主要經歷三個階段：從Hadoop到雲服務再到Kubernetes環境。

誕生於2003年10月的Hadoop可以算得上大數據領域的“鼻祖”。Hadoop是一個使用計算機網絡對大量數據進行分佈式存儲和處理框架，在數據生態系統的爆炸式發展中發揮了絕對核心的作用。

然而，在過去的幾年裡，宣佈Hadoop死亡已經成為行業觀察家們的常態。隨著Hadoop供應商遇到各種各樣的麻煩，這一趨勢今年進一步加速。在撰寫本文時，MapR已經處於關閉的邊緣，也有可能已經找到了買家。最近剛剛完成52億美元合併的Cloudera和Hortonworks在6月份經歷了艱難的一天，由於令人失望的季度收益，股價暴跌了40%。Cloudera已經發布了多款雲計算和混合產品，但目前還沒有正式對外售賣。

由於來自雲平臺的競爭，Hadoop正面臨越來越大的阻力。Hadoop是在雲沒那麼完備的時候開發的，大多數數據是在本地的，那時網絡延遲是瓶頸，將數據和計算放在一起很有意義。但這一切已經改變了。

然而，Hadoop不太可能很快消失。它的發展可能會放緩，但它在企業間的部署規模之大，將使其在未來幾年保持慣性和生命力。

無論如何，向雲的轉變顯然正在加速。有趣的是，在我們與《財富》1000強企業高管的交談中，2019年似乎是一個真正的轉變。在過去的幾年裡，討論雲的很多，但真正的行動都是本地部署，尤其是在受監管的行業。現在《財富》雜誌1000強企業的許多高管都在積極轉向雲計算，其中有一部分活動涉及從傳統的微軟商店轉向Azure。

因此，儘管雲提供商的規模已經非常龐大，但它們仍在繼續快速增長。2018年，AWS實現收入257億美元，比2017年175億美元增長46.9%。微軟Azure的收入沒有單獨披露，但在截至2019年3月的季度中同比增長了73%。雖然這不是一個完美的對比，但是AWS的收入在同季度同比增長了41%。

隨著雲計算應用的深入，客戶開始對成本望而卻步。在世界各地的董事會會議室裡，高管們突然注意到一個曾經很小的賬目：他們的雲賬單。雲計算確實提供了敏捷性，但它通常會帶來很高的成本，尤其是當客戶的注意力離開計價器或者無法準確預測他們的計算需求時。像Adobe和Capital One等AWS客戶，他們的雲賬單在2017年至2018年的短短一年裡增長了60%以上，達到了2億美元以上。

成本，以及對供應商鎖定的擔憂，加速了向混合方法的發展，包括公共雲、私有云和本地部署的組合。面對眾多的選擇，企業將越來越多地選擇最適合自己的工具來優化績效和經濟效益。隨著雲提供商更加積極地實現差異化，企業開始採用多雲策略，利用每個雲提供商最擅長的領域。在某些情況下，為了優化經濟效益，最好的方法是將一些工作負載保留（甚至是調回）在本地，特別是對於非動態工作負載。

在過去幾年，我們已經開始通過數據科學、機器學習和人工智能讓部分應用場景的數據產生價值。這些技術也逐步從最初的早期採用者（BAT和初創公司）擴展到更廣泛的經濟。如何存儲數據、管理數據並深挖數據的價值已經變成了幾乎所有的企業都需要思考的問題。來源：晨山資本

基礎設施層面的趨勢

第三波浪潮從Hadoop到雲服務再到Kubernetes

數據治理、數據編目、數據沿襲：數據管理的重要性與日俱增

專用於AI的基礎設施的崛起

數據基礎設施一直保持快速進化狀態。這個速度保持了很多年，近期有加速進化的趨勢，主要經歷三個階段：從Hadoop到雲服務再到Kubernetes環境。

然而，Hadoop不太可能很快消失。它的發展可能會放緩，但它在企業間的部署規模之大，將使其在未來幾年保持慣性和生命力。

有趣的是，雲提供商正在適應企業計算能力向混合環境發展的現實,像AWS會提供類似於AWS前哨的工具，允許客戶進行本地計算和存儲的同時，還能將本地負載與AWS雲上其他程序無縫集成。

在這個新的多雲和混合雲時代，Kubernetes無疑是冉冉升起的巨星。Kubernetes是谷歌於2014年推出的一個用於管理容器化工作負載和服務的開源項目，它正經歷著與Hadoop幾年前同樣的熱情，有8000名與會者參加了KubeCon活動，還有源源不斷的博客文章和播客。許多分析師認為，RedHat在Kubernetes世界的重要地位，在很大程度上促成了IBM以340億美元的大規模收購。Kubernetes的前景是幫助企業實現跨環境運行工作負載，企業的混合環境會包括數據中心、私有云以及一個或多個公共雲。

Kubernetes作為一個特別適合管理複雜、混合環境的編制框架，也越來越成為機器學習的有吸引力的選項。Kubernetes使用相同的基礎設施服務於多個用戶，使得數據科學家不必成為基礎設施專家，就能夠靈活地選擇他們喜歡的任何語言、機器學習庫或框架，並訓練和擴展模型，允許相對快速的迭代和強大的重現性。Kubeflow是為Kubernetes開發的機器學習工具包，它的發展勢頭迅猛。

Kubernetes相對來說還處於起步階段，但有趣的是，因為數據科學家可能更喜歡Kubernetes的整體靈活性和可控性，上述情況可能標誌著一種遠離雲機器學習服務的進化。我們可能正在進入數據科學和機器學習基礎設施的第三個範式轉變，從Hadoop（直到2017年）到數據雲服務（2017-2019），再到一個由Kubernetes和下一代數據倉庫（比如Snowflake）主導的世界。

這種演變的另一面是複雜性的增加。當然，這裡會有一個綜合平臺的機會。平臺會抽象並簡化對大量雲底層基礎設施的操控，讓更廣泛的數據科學家和分析師群體更容易訪問這個美麗的新世界。

儘管角度不同，Serverless模式就是這種簡化的一種嘗試。這種執行模型允許用戶編寫和部署代碼，而無需擔心底層基礎設施。雲提供商處理所有後端服務，客戶根據實際使用情況的付費。在過去的幾年裡，Serverless模式無疑是一個重要的新興主題，這也是我們在今年的Data&AI領域中增加的新品類。然而，將Serverless模式應用於機器學習和數據科學仍有較多工作要做，像Algorithmia和Iguazio/Nuclio這樣的公司是早期進入者。

數據環境日益混合的另一個後果是，企業需要加大努力來獲得對數據的控制。

目前的數據環境非常複雜，有些位於數據倉庫、有些位於數據湖、有些位於各種其他數據源，跨越本地部署、私有云和公共雲，那應該如何查找、管理、控制和跟蹤數據？這包含各種相關的形式和名稱，包括數據查詢、數據治理、數據編目和數據沿襲，所有這些都越來越重要和突出。

在混合環境中查詢數據本身就是一個挑戰，其解決方案要符合存儲和計算分離的總體趨勢。

數據治理是另一個迅速成為企業首要考慮的領域。數據治理的一般思想是管理數據，並確保整個數據生命週期（涉及數據有效性、完整性、可用性、一致性和安全性）的高質量性。值得注意的是，在2019年初，Collibra進行了一輪1億美元的融資，估值超過10億美元。

數據編目是數據管理的另一種日益重要的手段。有效的數據編目是綜合企業各種數據資產的字典。它們幫助用戶（包括數據科學家、數據分析師、開發人員和業務用戶）能夠自助發現和使用數據。

最後，數據沿襲可能是最新出現的數據管理類別。數據沿襲的目的是捕獲跨企業的“數據之旅”。它幫助公司弄清楚數據在其生命週期中是如何被收集、如何被修改以及如何被分享的。許多因素推動了這一領域的增長，包括合規、隱私和倫理的重要性日益增加，也包括對機器學習管道和模型的可重複性和透明度的需求。

今年一直在加速發展的最後一個關鍵趨勢，是AI專用基礎設施的不斷湧現。

管理人工智能管道和模型的需求導致了MLOps（或AIOps）領域的快速增長。為了呼應這種新趨勢，今年的Landscape裡面，我們添加了兩個新的框，一個名為基礎設施（各種早期創業公司包括Algorithmia、Spell、 Weights&Biases等等），一個名為開放源碼（各種各樣的項目，通常相當早，包括Pachyderm、Seldon、Snorkel、MLeap等等）。

ML工程師需要能夠運行實驗並快速迭代，在需要時訪問如GPU等資源。在我們的Data Driven NYC活動中，我們介紹了一些早期初創公司，它們提供了諸如Spell、Comet、Paperspace等基礎設施。

隨著GPU數據庫的崛起和新一代人工智能芯片（Graphcore、Cerebras等）的誕生，人工智能對基礎設施產生了深遠的影響。人工智能正迫使我們重新思考計算的本質。

在過去幾年，我們已經開始通過數據科學、機器學習和人工智能讓部分應用場景的數據產生價值。這些技術也逐步從最初的早期採用者（BAT和初創公司）擴展到更廣泛的經濟。如何存儲數據、管理數據並深挖數據的價值已經變成了幾乎所有的企業都需要思考的問題。來源：晨山資本

基礎設施層面的趨勢

第三波浪潮從Hadoop到雲服務再到Kubernetes

數據治理、數據編目、數據沿襲：數據管理的重要性與日俱增

專用於AI的基礎設施的崛起

數據基礎設施一直保持快速進化狀態。這個速度保持了很多年，近期有加速進化的趨勢，主要經歷三個階段：從Hadoop到雲服務再到Kubernetes環境。

然而，Hadoop不太可能很快消失。它的發展可能會放緩，但它在企業間的部署規模之大，將使其在未來幾年保持慣性和生命力。

數據環境日益混合的另一個後果是，企業需要加大努力來獲得對數據的控制。

在混合環境中查詢數據本身就是一個挑戰，其解決方案要符合存儲和計算分離的總體趨勢。

今年一直在加速發展的最後一個關鍵趨勢，是AI專用基礎設施的不斷湧現。

分析層面發展趨勢

商業智能(BI)正在整合

企業AI平臺是一個趨勢

橫向人工智能仍然非常活躍

在商業智能領域, 正如前面提到的，過去幾個月的明顯趨勢是大量整合,包括Tableau、Looker、Zoomdata和Clearstory的收購，以及SiSense和Periscope的合併。因為數據可視化和自助分析服務有大量的供應商，BI中的整合在某種程度上是不可避免的。每個供應商，無論大小，都面臨著多樣化和擴展能力的壓力。對於雲收購商來說，這些新產品線肯定會增加收入，但更重要的是，它們擁有附加功能，能夠幫助雲收購商的核心平臺產生更多收入。

BI未來會有更多的整合嗎?微軟在Power BI方面擁有強大的地位，但當整個細分市場整合並且每家公司都有效參與時，併購市場可能會有自己的動態。AWS就可能需要更強的產品，考慮到它的QuickSight BI通常被認為有點落後。

隨著BI的整合，數據科學和機器學習平臺領域的熱度持續上升。在企業中部署ML/AI是一種巨大的趨勢，這個趨勢目前還處於早期階段，各種參與者都在爭先恐後地構建平臺。

對於該領域的大多數公司來說，明確的目標是促進ML/AI的民主化，也就是讓更大的用戶群體和更多的公司獲利於ML/AI。目前人才短缺仍然是ML/AI廣泛採用的主要瓶頸。然而，不同的玩家有不同的策略。

一種方法是AutoML。它涉及到自動化機器學習的整個生命週期，包括一些最乏味的部分。根據產品的不同，AutoML將處理包括特徵生成和工程，算法選擇，模型訓練、部署和監視等各種任務。DataRobot是AutoML專家，自2018年以來，該公司已籌集了1億美元的D輪融資（據稱自那以後還籌集了更多）。

該領域的其他公司，如Dataiku、H20和RapidMiner，提供具有AutoML功能的平臺，但也提供更廣泛的功能。以Dataiku為例, 自2018年以來，成功融了C輪1.01億美元。它的整體思路是賦能整個數據團隊（包括數據科學家和數據分析師），使得整個生命週期的數據處理簡單而有趣。

雲提供商當然很活躍，包括微軟的Learning Studio、谷歌的cloud AutoML和AWS Sagemaker。儘管雲提供商很強大，但這些產品的定位比較窄——通常很難使用，而且主要針對技術含量很高的高級用戶。它們還處於萌芽階段。據報道，亞馬遜的雲機器學習平臺Sagemaker在2018年開局緩慢，僅向商業領域銷售了1100萬美元。一些雲提供商正積極與該領域的專業第三方合作，微軟參與了Databricks的2.5億美元的E輪投資，這或許是未來收購的前奏。

除了企業人工智能平臺，橫向人工智能領域（包括計算機視覺、NLP、語音等）繼續令人難以置信地充滿活力。主要趨勢如下：

NLP領域的重大改進，特別是通過轉移學習的應用（其中包括基於大量的數據訓練模型，將其模型通過移植和微調的方式用於解決某個特定的問題），讓它使用較少的數據就能工作：例如ELMO，ULMFit，最重要的還有谷歌的BERT。

業界為了用更少的數據實現人工智能做出了更多努力，包括單樣本學習(one-shot learning)。

深度學習與強化學習相結合。

生成式對抗網絡(GAN)的持續進展。

在過去幾年，我們已經開始通過數據科學、機器學習和人工智能讓部分應用場景的數據產生價值。這些技術也逐步從最初的早期採用者（BAT和初創公司）擴展到更廣泛的經濟。如何存儲數據、管理數據並深挖數據的價值已經變成了幾乎所有的企業都需要思考的問題。來源：晨山資本

基礎設施層面的趨勢

第三波浪潮從Hadoop到雲服務再到Kubernetes

數據治理、數據編目、數據沿襲：數據管理的重要性與日俱增

專用於AI的基礎設施的崛起

數據基礎設施一直保持快速進化狀態。這個速度保持了很多年，近期有加速進化的趨勢，主要經歷三個階段：從Hadoop到雲服務再到Kubernetes環境。

然而，Hadoop不太可能很快消失。它的發展可能會放緩，但它在企業間的部署規模之大，將使其在未來幾年保持慣性和生命力。

數據環境日益混合的另一個後果是，企業需要加大努力來獲得對數據的控制。

在混合環境中查詢數據本身就是一個挑戰，其解決方案要符合存儲和計算分離的總體趨勢。

今年一直在加速發展的最後一個關鍵趨勢，是AI專用基礎設施的不斷湧現。

分析層面發展趨勢

商業智能(BI)正在整合

企業AI平臺是一個趨勢

橫向人工智能仍然非常活躍

除了企業人工智能平臺，橫向人工智能領域（包括計算機視覺、NLP、語音等）繼續令人難以置信地充滿活力。主要趨勢如下：

業界為了用更少的數據實現人工智能做出了更多努力，包括單樣本學習(one-shot learning)。

深度學習與強化學習相結合。

生成式對抗網絡(GAN)的持續進展。

應用層面發展趨勢

企業部署ML/AI的階段已來

企業自動化和RPA的興起

在這個階段，我們可能需要3到4年的時間來嘗試為企業構建ML/AI應用。

當然已經有過一些遠遠早於現實的尷尬產品嚐試（第一代聊天機器人）和一些重大的營銷聲明，特別是一些公司試圖改造現有產品實現ML/AI。

但是，我們已經逐步進入了ML/AI在企業中的部署階段，從好奇和實驗到實際的生產使用。未來幾年的趨勢似乎很明顯：以一個給定的問題為例，看看ML/AI（通常是深度學習，或其變體）是否會產生影響，如果是的話，構建一個AI應用程序來更有效地解決問題。

此部署階段將以多種方式進行。一些產品將由內部團隊使用上面提到的企業AI平臺來構建和部署。其他的將是由不同的供應商提供內嵌人工智能能力的全棧產品，其中的人工智能部分可能在很大程度上對客戶是不可見的。還有一些將由提供混合產品和服務的供應商提供。

當然，現在還為時尚早。內部團隊通常從處理一個用例（例如客戶流失預測）開始，並開始擴展到其他問題。許多構建ML/AI應用的初創企業仍在學習克服從研發到完全規模化運營的挑戰。

然而，成熟正在到來。在過去的幾年裡，對於任何希望在實際應用中部署ML/AI的人來說，都需要大量的學習，關於技術可以做什麼和不能做什麼，我們開始更好地理解機器和人之間任務的正確分配。人們從第一代人工智能應用獲得不少經驗教訓。例如，從用戶角度出發，下一代客戶服務聊天機器人在ML/AI與可配置性和透明性之間提供了更智能的組合。

展望未來，隨著ML/AI在高性能數據棧的支持下逐漸普及，我們是否看到了完全自動化企業的曙光?

自從信息技術出現以來，企業就被信息孤島所困擾，各種系統和數據分散到各個部門，彼此之間無法溝通（這導致了大規模的系統集成服務行業），而人類充當了兩者之間的“粘合劑”。當前數據和系統日益集成、ML/AI有能力逐步將人類從某些功能中移除，企業完全有可能以一種日益自動化、系統化的方式運作。

例如，假設一個自動化企業，需求的增加（ML預測出來的）自動觸發供應商訂單的增加，這將自動記錄在財務系統中（財務系統可以自動計算和支付補償津貼等）；或者預期的需求下降會自動觸發相應的營銷支出的增加等等。

在未來的世界裡，企業不僅會成為完全自動化的組織，最終還會成為自我修復和自治的組織。

然而，我們離那個階段還很遠，今天的現實主要集中在RPA上。這是一個非常熱門的領域，像UI Path和Automation Anywhere這樣的領先者增長得非常快，並且籌集了大量資金。

RPA是機器人過程自動化的簡稱（儘管可能令人失望的是，它沒有利用任何實際的機器人），涉及到通常非常簡單的工作流，通常是手工的（由人類執行）和重複的，並由軟件替代它們。許多RPA發生在後臺辦公室功能中（例如，發票處理）。

RPA是由企業數字轉型的浪潮推動的，尤其是在過去幾年裡，數字轉型一直在加速。一些RPA的領先企業已經存在多年了（UiPath成立於2005年），但是當數字轉換成為日常話題時，突然受到了歡迎。RPA還提供了一個強大的ROI，因為它的實現可以直接與人類執行相同任務的成本進行比較。RPA對技術服務巨頭也非常有吸引力，因為它涉及大量的實現服務（需要實現無數不同的工作流配置）；因此，RPA初創公司從與這些大型服務公司的強大合作關係中獲益。

在過去幾年，我們已經開始通過數據科學、機器學習和人工智能讓部分應用場景的數據產生價值。這些技術也逐步從最初的早期採用者（BAT和初創公司）擴展到更廣泛的經濟。如何存儲數據、管理數據並深挖數據的價值已經變成了幾乎所有的企業都需要思考的問題。來源：晨山資本

基礎設施層面的趨勢

第三波浪潮從Hadoop到雲服務再到Kubernetes

數據治理、數據編目、數據沿襲：數據管理的重要性與日俱增

專用於AI的基礎設施的崛起

數據基礎設施一直保持快速進化狀態。這個速度保持了很多年，近期有加速進化的趨勢，主要經歷三個階段：從Hadoop到雲服務再到Kubernetes環境。

然而，Hadoop不太可能很快消失。它的發展可能會放緩，但它在企業間的部署規模之大，將使其在未來幾年保持慣性和生命力。

數據環境日益混合的另一個後果是，企業需要加大努力來獲得對數據的控制。

在混合環境中查詢數據本身就是一個挑戰，其解決方案要符合存儲和計算分離的總體趨勢。

今年一直在加速發展的最後一個關鍵趨勢，是AI專用基礎設施的不斷湧現。

分析層面發展趨勢

商業智能(BI)正在整合

企業AI平臺是一個趨勢

橫向人工智能仍然非常活躍

除了企業人工智能平臺，橫向人工智能領域（包括計算機視覺、NLP、語音等）繼續令人難以置信地充滿活力。主要趨勢如下：

業界為了用更少的數據實現人工智能做出了更多努力，包括單樣本學習(one-shot learning)。

深度學習與強化學習相結合。

生成式對抗網絡(GAN)的持續進展。

應用層面發展趨勢

企業部署ML/AI的階段已來

企業自動化和RPA的興起

在這個階段，我們可能需要3到4年的時間來嘗試為企業構建ML/AI應用。

當然已經有過一些遠遠早於現實的尷尬產品嚐試（第一代聊天機器人）和一些重大的營銷聲明，特別是一些公司試圖改造現有產品實現ML/AI。

展望未來，隨著ML/AI在高性能數據棧的支持下逐漸普及，我們是否看到了完全自動化企業的曙光?

在未來的世界裡，企業不僅會成為完全自動化的組織，最終還會成為自我修復和自治的組織。

也許有理由懷疑RPA。一些人認為這在很大程度上是不明智的“創可貼”，或者是某種權宜之計——採用由人類執行的低效工作流，讓機器來完成。從這個角度來看，RPA可能只是在創建下一層技術債。隨著周圍環境的變化，除了導致需要更多的RPA將舊任務重新配置到新環境之外，自動化的RPA功能會發生什麼變化還不清楚。至少在這個階段，RPA更多的是關於自動化而不是智能，更多的是基於規則的解決方案而不是人工智能（儘管一些RPA供應商在營銷材料中加強了他們的人工智能能力）。

RPA應該與智能自動化區分開來，智能自動化是以ML/AI為核心的新興領域。智能自動化也以企業流程和工作流為目標，但是它更以數據為中心，而不是以流程為中心，並且最終能夠學習、改進和治癒。

智能自動化的一個例子是智能文檔處理(ADP)，這是一個可以利用ML/AI來理解文檔（表單、發票、合同等）的類別，其水平與人類相當或更好。

在未來幾年觀察這些領域將特別有趣，RPA和智能自動化有可能通過併購或推出新的本土產品進行合併，除非後者的進展如此之快，限制了對前者的需求。

'大數據與AI主要發展趨勢：基礎設施、分析層面及應用層面'

相關推薦