2019 年數據和人工智能全景圖：主要技術趨勢

人工智能 Hadoop 技術 Cloudera 雲計算 Azure 微軟 Hortonworks Google 大數據交通 Adobe Systems 移動互聯網新媒體 2019-07-14

《2019 年數據和人工智能全景圖》的第一部分涵蓋了有關數據和人工智能的社會影響的問題，包括全景圖本身。在第二部分中，我們將深入探討數據與人工智能的一些主要行業趨勢。

數據和人工智能生態系統仍然是最令人興奮的技術領域之一。它不僅有自己的爆炸式的發展勢頭，而且還推動並加速了許多其他領域（消費者應用、遊戲、交通等）的創新。因此，它的整體影響是巨大的，遠遠超出了下文的技術討論。

當然，沒有任何有意義的趨勢會在短短一年的時間內展現出來。而接下來要講到的許多趨勢都是經過多年醞釀而成的。我們將重點討論 2019 年特別加速的趨勢，或者在行業對話中迅速突出的趨勢。

我們將從左到右大致遵循全景圖的順序：基礎架構、分析和應用。

基礎架構的趨勢

我們在基礎架構領域中看到三大趨勢：

是第三波浪潮來了嗎？從 Hadoop 到雲服務，再到 Kubernetes。
數據治理、編目、沿襲：數據管理越來越重要。
人工智能專用基礎架構堆棧的興起。

數據基礎架構世界在繼續快速發展。這裡的主要方向是從 Hadoop 到雲服務再到混合雲 / Kubernetes 環境的三個階段過渡，這一過程已進行多年，但似乎正在加速。

Hadoop 在很大程度上是大數據世界的“先驅者”，可以追溯到 2003 年 10 月的一篇論文。作為使用計算機網絡分佈式存儲和處理大量數據的框架，它在數據生態系統的爆炸式發展中發揮了絕對核心的作用。

然而，在過去的幾年裡，宣佈“Hadoop 已死”已經成為行業觀察者的一項運動。由於 Hadoop 供應商遇到各種各樣的麻煩，這一趨勢今年進一步加速。在撰寫本文時，MapR 已經幾乎瀕臨關門停業，不過，現在可能已經找到了買家。最近 Cloudera 和 Hortonworks 剛完成高達 52 億美元的合併，在 6 月份的一個艱難的日子裡，由於令人失望的季度收益，股價暴跌了 40%。Cloudera 已宣佈多種雲計算和混合產品，但尚未推出。

由於來自雲平臺的競爭，Hadoop 正面臨越來越大的阻力。Hadoop 開發的時候，雲計算還不是一個嚴肅的選擇，大多數數據都是本地部署的，網絡延遲是一個真正的瓶頸，因此保持數據和計算共處一地還是很有意義的。但現在，世界已經改變了。

然而，Hadoop 不太可能很快就會消失。它的採用可能會減緩，但由於它在企業中的部署規模之大，將使它在未來幾年內能夠保持慣性和持久力。

無論如何，向雲端過渡的趨勢顯然正在加速。有趣的是，在我們與《財富》美國 1000 強企業高管的談話中，我們得到一個印象：2019 年似乎真的發生了轉變。在過去的幾年裡，儘管人們都在討論雲，但真正的行動卻是本地部署（on-premise），尤其是在受監管的行業。他們認為這幾乎是一個骯髒的祕密。《財富》美國 1000 強企業的許多高管都在積極轉向雲計算，其中一部分活動涉及從傳統 Microsoft 商店轉向 Azure。

因此，儘管雲供應商的規模已經非常龐大，但它們仍在繼續快速增長。2018 年，AWS 實現了 257 億美元的收入，比 2017 年的 175 億美元增長了 46.9%。Microsoft Azure 的收入沒有單獨披露，但截至 2019 年 3 月的季度同比增長了 73%。這雖然不是一個完美的對比，但 AWS 的收入同比增長了 41%。

隨著雲計算應用的深入，客戶開始因成本問題而躊躇不決。在世界各地的董事會會議室裡，高管們突然注意到一個曾經很小的項目，現在這個項目發展得非常迅速，就跟滾雪球似的：他們的雲賬單、雲計算確實提供了敏捷性，但它往往要付出高昂的代價，特別是如果客戶沒注意計價器或無法準確預測他們的計算需求時。像 Adobe 和 Capital One 這樣的 AWS 客戶的故事有很多，他們的賬單在 2017 年到 2018 年的短短一年裡增長了 60% 以上，遠超過 2 億美元。

成本，以及對廠商鎖定的擔憂，促成了向混合方法的演變，包括公用雲、私有云和本地部署的組合。面對眾多的選擇，企業將越來越多地選擇最佳工具來優化性能和經濟效益。隨著雲提供商更加積極地實現自身差異化，企業開始採用多雲策略，以充分利用每個雲提供商最擅長的領域。在某些情況下，最好的方法是將一些工作負載保留（甚至遣返）在本地，以優化經濟性，特別是對於非動態工作負載。

有趣的是，雲提供商正在適應這樣一個現實：企業計算將在多種環境中進行，他們提供了一些工具，如 AWS Outposts 之類的工具，這些工具允許客戶在本地運行計算和存儲，並無縫地將本地工作負載與 AWS 雲中的其他應用集成在一起。

在這個新的多雲和混合雲時代，冉冉升起的超級巨星無疑是 Kubernetes。Kubernetes 是 Google 在 2014 年推出的一個用於管理容器負載和服務的開源項目，它正經歷著和 Hadoop 幾年前一樣的熱情，有 8000 名與會者參加了它的 KubeCon 活動，還有源源不斷的博客和播客。許多分析師認為，Red Hat 在 Kubernetes 世界因主要貢獻帶來的聲望，在很大程度上促成了以 340 億美元的價格被 IBM 收購。Kubernetes 的承諾是幫助企業在自己的數據中心和私有云以及一個或多個公用雲上運行工作負載。

作為一種編排框架，Kubernetes 特別適合於管理複雜、混合的環境，它也成為機器學習的一個越來越有吸引力的選擇。Kubernetes 讓數據科學家能夠靈活地選擇他們喜歡的語言、機器學習庫或框架，並訓練和擴展模型，允許相對快速的迭代和強大的可重複性，而無需成為基礎架構專家，同一基礎設置服務多個用戶（欲瞭解更多信息請點擊此處）。Kubeflow 是為 Kubernetes 開發的機器學習工具包，它的發展勢頭很迅猛。

相對而言，Kubernetes 仍處於起步階段。但有趣的是，上述情況可能預示著雲機器學習的演變，因為數據科學家可能更喜歡 Kubernetes 的整體靈活性和可控性。我們可能正在進入數據科學和機器學習基礎架構的第三個範式轉變，從 Hadoop（直到 2017 年？）到數據雲服務（2017 年~2019 年），再到由 Kubernetes 和 Snowflake（2019 年~?) 等下一代數據倉庫主導的世界。

這種演變的另一面是複雜性的增加。當然，我們有機會提供一個完整的平臺，可以抽象出大量的雲底層基礎架構的複雜性，讓更廣泛的數據科學家和分析師更容易進入這個美麗的新世界。

無服務器（Serverless）就是這種簡化的一種嘗試，儘管角度不同。這種執行模型使用戶能夠編寫和部署代碼，而無需擔心底層基礎架構。雲提供商負責處理所有後端服務，並根據客戶實際使用情況向他們收取費用。在過去的幾年裡，無服務器無疑是一個關鍵的新興話題，這也是我們在今年的數據和人工智能全景圖中增加的一個新類別。然而，無服務器對機器學習和數據科學的適用性，仍然有太多的工作要做，像 Algorithmia 和 Iguazio/Nuclio 這樣的公司是早期參與者。

數據環境日益混合的另一個後果是，企業需要加大努力來獲得對數據的控制。

在這樣的一個世界裡，有些數據位於數據倉庫中，有些數據位於數據湖中，有些數據位於各種其他數據源中，跨越了本地部署、私有云和公用雲，該如何查找、管理、控制和跟蹤數據呢？ 這些努力採取了各種相關的形式和名稱，包括數據查詢、數據治理、數據編目和數據沿襲，所有這些都變得越來越重要、突出。

在混合環境中查詢數據本身就是一個挑戰，其解決方案屬於存儲和計算分離的總體趨勢。（請觀看 Starburst Data 的視頻，這是一家提供企業版 SQL 查詢引擎 Presto 的公司，來自我們的 Data Driven NYC 活動）。

數據治理是另一個迅速成為企業首要考慮的領域。數據治理的一般理念是管理數據，並確保數據在整個生命週期中具有較高的質量，它涉及了數據可用性、完整性、可用性、一致性和安全性等方面。值得注意的是，2019 年初，Collibra 進行了一輪 1 億美元的融資，估值超過了 10 億美元。

數據編目是另一種日益重要的數據管理方式。有效的數據編目是綜合企業各種數據資產的字典。它們使用戶（包括數據科學家、數據分析師、開發人員和業務用戶）能夠在自助服務環境中發現並使用數據。請參閱領先供應商 Alation 提供的這篇優秀說明。

最後，數據沿襲可能是最近才出現的數據管理類別。數據沿襲的目的是普貨整個企業的“數據之旅”。它可以幫助公司瞭解數據是如何收集的，以及如何在其生命週期中對數據進行修改和共享。這一細分市場的增長受到許多因素的推動，包括合規性、隱私和倫理的重要性日益增加，以及對機器學習管道、模型的可重複性和透明性的需求。關於這個主題， O’Reilly 有一個很不錯的播客可以看看。

今年加速發展的最後一個關鍵趨勢是人工智能專用基礎架構堆棧不斷湧現。

管理人工智能管道和模型的需求，催生了快速增長的 MLOps（或 AIOps） 的類別。為了認清這種新趨勢，我們在今年的全景圖中增加了兩個框，其中一個框放在基礎架構（各種早期創業公司，包括 Algorithmia、Spell、Weights & Biases 等），另一個框放在開源（各種項目，通常也是相當早期的項目，包括 Pachyderm、Seldon、Snorkel、MLeap 等）。

機器學習工程師需要能夠運行實驗並快速迭代，在需要時訪問諸如 GPU 之類的資源。在我們的 Data Driven NYC 活動中，我們已經特別介紹了一些早期的初創公司，他們提供了這樣的基礎架構，包括 Speell（視頻）、Comet（視頻）、Paperspace（視頻）等。

隨著 GPU 數據庫的興起和新一代人工智能芯片（Graphcore、Cerebras 等）的誕生，人工智能對基礎架構產生了深遠的影響，即使在較低的堆棧層面也是如此。人工智能可能會迫使我們重新思考計算的整個本質。

分析趨勢

在分析中，我們將重點介紹幾個關鍵趨勢：

商業智能（BI）正在整合。
行動正在向企業人工智能平臺轉移。
橫向人工智能仍然非常活躍。

在商業智能領域，過去幾個月的明顯趨勢是我們在本文前面提到的收購活動的爆發：Tabluau、Looker、Zoomdata 和 Clearstory 的收購，以及 SiSense 和 Periscope 的合併（Periscope 首席執行官 Henry Glaser 去年曾在 Data Driven NYC 發表演講）。

事後看來，隨著數據可視化和自助式分析領域的商品化，以及湧現大量的純服務供應商，商業智能在某種程度上是不可避免的。每家供應商，無論大小，都面臨著多樣化和擴展能力的壓力。對於雲收購者來說，這些新的產品線肯定會增加收入，但更重要的是，它們有擴大原產品線的能力，這是幫助產生核心平臺的又一種工具。

商業智能還會有更多的整合嗎？Microsoft 在 Power BI 中佔據強勢地位，但當整個細分市場整合，並且每家公司都有效地參與其中時，併購市場也可以有自己的動力。鑑於其 QuickSight BI 通常被認為有點落伍，AWS 可能有更強烈的產品需求。

隨著商業智能的整合，數據科學和機器學習平臺領域的熱度持續上升。機器學習 / 人工智能在企業中的部署是一個大趨勢，但仍處於早期階段，各種參與者都在爭先恐後地搭建自己選擇的平臺。

對該領域的大多數公司來說，明確的目標是促進機器學習 / 人工智能的民主化，讓更多的用戶和公司能夠從中獲得好處，因為機器學習 / 人工智能領域持續存在的人才短缺現象仍然是廣泛採用的主要瓶頸之一。然而，不同的參與者有不同的策略。

一種方法是 AutoML。它涉及到自動化機器學習生命週期的整個部分，包括一些最單調乏味的部分。根據產品的不同，AutoML 可以處理從特徵生成和工程、算法選擇到模型訓練、部署和監控的任何任務。DataRobot，是 AutoML 專家，自我們策劃 2018 年全景圖以來，已經進行了 1 億美元的 D 輪融資（據說自那之後還進行了更多融資）。

該領域的其他公司，如 Dataiku、H20 和 RapidMiner，也提供了具有 AutoML 功能的平臺，但也提供了更廣泛的功能。例如，Dataiku 自 2018 年全景圖以來進行了大約 1.01 億美元的 C 輪融資，其總體理念是增強整個數據團隊的能力（數據科學家和數據分析師），並抽象出處理整個數據生命週期所涉及的許多複雜性和繁瑣性工作（如果想了解更多，請觀看 Dataiku 首席執行官 Florian Douetteau 在 Data Driven NYC 發表的演講視頻）『免責聲明：FirstMark 是 Dataiku 的投資者』。

雲提供商當然是活躍的，比如 Microsoft 的 Learning Studio、Google 的 Cloud AutoML 和 Amazon 的 AWS Sagemaker。儘管雲提供商實力很強大，但這些產品的範圍仍然相當狹窄：通常難以使用，而且主要面向技術性很強的高級用戶。它們還處於萌芽階段。據報道，Amazon 雲機器學習平臺 Sagemaker 在 2018 年起步緩慢，在商業領域的銷售額僅為 1100 萬美元。

一些雲提供商正積極與該領域的純玩家合作：Microsoft參與了 Databricks 的 2.5 億美元的 E 輪融資，這或許是未來收購的前奏。

除了企業人工智能平臺外，橫向人工智能的世界（包括計算機視覺、自然語言處理、語音等）仍然保持著令人難以置信的活力。

我們在之前的一篇文章中已經討論過人工智能研究的現狀：Frontier AI: How far are we from artificial “general” intelligence, really?（《人工智能前沿：講真，我們離人工“通用”智能還有多遠？》）

自那篇文章發表以來，人工智能領域的一些主要趨勢包括：

自然語言處理的重大改進，特別是通過應用遷移學習（涉及對大量數據上進行訓練模型，並針對正在處理的特定問題對其進行遷移和微調），使其能夠在較少數據的情況下工作：參見 ELMO、ULMFit，最重要的是，來自 Google AI 的 BERT。
人們付出更多的努力，讓人工智能能夠在較少數據的情況下工作，包括單樣本學習。
深度學習與強化學習相結合。
生成對抗網絡的持續進展。

要了解更多信息，請參閱剛剛發佈的兩份重要報告：Nathan Benaich 的 State of AI Report 2019（2019 年人工智能狀告報告》）、MMC Ventures 的 The State of AI: Divergence（《人工智能的現狀：分歧》）。

應用趨勢

最後，隨著我們完成 2019 年全景圖的旅程，從圖表的左側到右側應用中需要重點關注的幾個關鍵趨勢如下：

機器學習 / 人工智能進入部署階段
企業自動化和機器人流程自動化的興起

在這個階段，我們可能需要 3 到 4 年的時間才能嘗試將機器學習 / 人工智能構建到幾乎任何一個企業應用中，而這些企業應用都將為其提供支持。當然，肯定有有些尷尬的產品嚐試（如第一代聊天機器人）和一些遠遠超前於現實的大型營銷主張（特別是來自試圖使用機器學習 / 人工智能改造成現有產品的老公司），總體而言，這還為時尚早。許多構建機器學習 / 人工智能的初創公司仍在瞭解從研發模式向全面擴展運營轉變的挑戰（關於這個話題，我在之前的博文中寫了一些想法：Scaling AI Startups（《擴大人工智能初創公司的規模》））。

但未來幾年的趨勢似乎很明顯：針對一個給定的問題，看看機器學習 / 人工智能能否產生影響，如果可以，就構建一個人工智能（或人工智能驅動）應用來更有效地解決這個問題。經過幾年的評估和實驗，我們完全進入了人工智能的部署階段。在接下來的幾年內，機器學習 / 人工智能產品將被部署到整個企業，這一點顯而易見，也是不可避免的。

一些產品將由內部團隊使用上述企業人工智能平臺來構建和部署。其他的將是具有嵌入式人工智能的全棧產品，由不同的供應商提供，其中人工智能部分可能對客戶來說基本是不可見的。還有一些是由提供各種產品和服務組合的供應商提供的（有關這種方法的例子，請參閱 Element AI 首席執行官 Jean-Francois Gagne 的演講）。

成熟正逐漸到來，無論是在技術上還是在產品上。機器學習 / 人工智能在當前狀態下能做什麼，不能做什麼，這一點越來越清晰。我們開始對機器和人類之間正確分配任務有了更好的認識（請參閱 x.ai 首席執行官 Dennis Mortensen 的演講，關於構建第一個人工智能應用的經驗教訓）。例如，下一代客戶服務聊天機器人，在機器學習 / 人工智能、可配置性和透明性之間提供了更智能的組合，為最終用戶帶來了最大的利益。請參閱 Ada 首席執行官 Mike Murchison 就此主題發表的精彩演講。Ada 是 Data Driven NYC 的自動化客戶體驗領域的新興領導者。『免責證明：FirstMark 是 x.ai 和 Ada 的投資者。』

展望未來，隨著機器學習 / 人工智能在高性能數據堆棧的支持下逐漸變得普及，我們是否看到了全自動化企業的曙光？

自信息技術出現以來，企業一直受到“孤島化”（siloisation）的困擾，各種系統和數據分散在各個部門，彼此之間無法溝通（這導致了龐大的系統集成服務行業），而人類則充當了兩者之間的“粘合劑”。在一個數據和系統越來越集成，機器學習 / 人工智能將人類從某些功能中移除的世界裡，現在比以往任何時候，都更有可能想象企業以一種日以自動化、系統化的方式運作。

例如，設想一個自動化企業，需求的增加（通過機器學習預測）自動觸發供應商訂單的增加，這些訂單會自動記錄到財務系統中（可以自動計算和支付薪酬獎金等）；或者預期的需求減少可能會自動觸發績效營銷支出的相應增加等。

在未來的世界裡，企業不僅會成為完全自動化的組織，最終還會成為自我修復和自治的組織，這是我們在去年關於人工智能和區塊鏈的演講中探討過的一個話題。

然而，我們離那個階段還很遠，今天的現實主要集中在機器人流程自動化上。這是一個炙手可熱的類別，UI Path 和 Automation Anywhere 等領軍企業發展非常迅速，並且正如上面提到的那樣，籌集了大量資金。

機器人流程自動化（Robotic Process Automation）的縮寫是 RPA（儘管可能令人失望的是，它並沒有利用任何真正的機器人），涉及通常非常簡單的工作流程，通常是手動（由人類執行）和重複性的，然後用軟件替代它們。許多機器人流程自動化是發生在後臺功能中（如發票處理）。

機器人流程自動化是由圍繞數字化轉型的一股非常強勁的順風推動的（該領域的領軍者已經存在多年，但當數字化轉型成為當今熱門話題時，就突然迎來了高速的增長）。它還提供了強大的投資回報率，因為它的實現可以直接與人類執行相同任務的成本進行比較。機器人流程自動化對技術服務於巨頭也非常有吸引力，因為它涉及大量的實現服務（因為軟件需要針對無數不同的工作流進行配置）；因此，機器人流程自動化初創公司從與這些大型服務公司的強大合作關係中受益。

人們有理由對機器人流程自動化持懷疑態度。有些人認為它基本上是非智能的“創可貼”，或者說是某種權宜之計，採用由人類執行的低效工作流，然後讓機器來完成。從這個角度來看，機器人流程自動化可能只是在創建下一級技術債務，隨著環境的變化，自動化的機器人流程自動化功能還會發生什麼樣的變化，人們對此並不清楚，除了導致需要更多的機器人自動化來講舊任務重新配置到新環境之外。

以上原因是，至少在這個階段，機器人流程自動化更多的是關於自動化，而不是智能；更多的是關於基於規則的解決方案，而不是人工智能（不要被機器人流程自動化供應商的營銷鼓譟所迷惑）。

機器人流程自動化應該和智能自動化區分開來，智能自動化是一個以機器學習 / 人工智能為中心的新興類別。智能自動化還以企業流程和工作流為目標，但它更多的是以數據為中心，而不是以流程為中心，並且最終能夠學習、改進和修復。

智能自動化的一個例子是智能文檔處理（ADP），在這個類別中，機器學習 / 人工智能可以被用來理解文檔（表格、發票、合同等），其水平可與人類相比，甚至更好，但大規模的情況除外。要了解有關更多背景，請參閱 Hyperscience 在 Data Driven NYC 發表的演講。『免責證明：FirstMark 是 HyperScience 的投資者』

在未來幾年裡，觀察這些空間將是特別有趣的事，機器人流程自動化和智能自動化有可能會合並，除非後者的進展如此之快，以至於限制了人們對前者的需求。

2019 年數據和人工智能全景圖：主要技術趨勢

相關推薦