如何區分人工智能、機器學習和深度學習

本文內容來自於硅谷投資人Lake Dai,LDV Partners合夥人。嚴肅編輯整理。

人工智能(Artificial Intelligence)是一個最廣泛的概念,人工智能的目的就是讓計算機這臺機器能夠象人一樣思考,而機器學習(Machine Learning)是人工智能的分支,專門研究計算機怎樣模擬或實現人類的學習行為,以獲取新的知識或技能,使之不斷改善自身的性能。

深度學習(Deep Learning)是一種機器學習的方法,它試圖使用包含複雜結構或由多重非線性變換構成的多個處理層(神經網絡)對數據進行高層抽象的算法。

如何區分人工智能、機器學習和深度學習

神經網絡是一組大致模仿人類大腦構造設計的算法,用於識別模式。神經網絡通過機器感知系統解釋傳感器數據,能夠對原始輸入進行標記或聚類等操作。神經網絡所能識別的模式是數值形式,因此圖像、聲音、文本、時間序列等一切現實世界的數據必須轉換為數值。

在深度學習網絡中,每一個節點層在前一層輸出的基礎上學習識別一組特定的特徵。隨著神經網絡深度增加,節點所能識別的特徵也就越來越複雜,因為每一層會整合並重組前一層的特徵。

如何區分人工智能、機器學習和深度學習

(http://fortune.com/ai-artificial-intelligence-deep-machine-learning/)

上圖顯示了一個神經網絡用於判定一個圖片是不是一條狗的過程,輸入是圖片,通過深層神經網絡對狗的低層特徵進行抽象,最後輸出是圖片是狗的概率。

深度學習的過程同樣是分為訓練和推理(既“評估”)兩個過程,通過訓練過程來獲得數據模型,然後用於評估新的數據。

數據模型分為兩種,一種是所謂判別模型(Discriminative Model),也就是說模型可以直接用來判別事物的。這裡所說的判別事物,最典型的就是做分類。既然直接可以用來分類,也就是說我們可以在已知屬性的條件下,對該記錄進行判斷。所以,判別模型是對條件概率進行的建模,也就是p(Y|X)。這裡X就是屬性集合,實際上就是一個向量;而Y則可能是一個值(此時對應分類問題), 可能是一個向量(此時對應序列標註問題)。判別模型常用於處理分類問題(比如鑑定垃圾郵件)、圖像識別等等。

再說一說生成模型(Generative Model)。生成模型可以描述數據的生成過程。換句話說,已知了這個模型,我們就可以產生該模型描述的數據。而數據由兩部分組成,也就是(X,Y),前者是特徵,後者則是類別(Y是標量)或者序列類別(Y是向量)。要描述整個數據,也就是要對p(X,Y)進行建模,所以是對聯合概率進行建模。生成模型本身不是做分類或者序列標註的,但是可以用來解決這些問題,也可以用於生成式問題,比如聊天機器人、比如AI譜曲等問題。

而機器學習可以分成下面幾種類別:

  • 監督學習從給定的訓練數據集中學習出一個函數,當新的數據到來時,可以根據這個函數預測結果。監督學習的訓練集要求是包括輸入和輸出,也可以說是特徵和目標。訓練數據中的目標是由人標註的。常見的監督學習算法包括迴歸分析和統計分類。

  • 無監督學習與監督學習相比,訓練集沒有人為標註的結果。常見的無監督學習算法有聚類。

  • 半監督學習介於監督學習與無監督學習之間。它主要考慮如何利用少量的標註樣本和大量的未標註樣本進行訓練和分類的問題。。

  • 增強學習通過觀察來學習做成如何的動作。每個動作都會對環境有所影響,學習對象根據觀察到的周圍環境的反饋來做出判斷。

在傳統的機器學習領域,監督學習最大的問題是訓練數據標註成本比較高,而無監督學習應用範圍有限。利用少量的訓練樣本和大量無標註數據的半監督學習一直是機器學習的研究重點。

當前非常流行的深度學習GAN模型和半監督學習的思路有相通之處,GAN是“生成對抗網絡”(Generative Adversarial Networks)的簡稱,包括了一個生成模型G和一個判別模型D,GAN的目標函數是關於D與G的一個零和遊戲,也是一個最小-最大化問題。

GAN實際上就是生成模型和判別模型之間的一個模仿遊戲。生成模型的目的,就是要儘量去模仿、建模和學習真實數據的分佈規律;而判別模型則是要判別自己所得到的一個輸入數據,究竟是來自於真實的數據分佈還是來自於一個生成模型。通過這兩個內部模型之間不斷的競爭,從而提高兩個模型的生成能力和判別能力。

如何區分人工智能、機器學習和深度學習

如何區分人工智能、機器學習和深度學習

(圖片來自Nvidia Deep Learning Training Workshop)

目前主流的深度學習框架:

  • Caffe 由Berkeley提出

  • TensorFlow 由Google提出 (Apache 2.0)

  • Torch (BSD License), facebook是主要使用者

  • MXNet 一個相對中立的機器學習框架(Apache 2.0), 被Amazon AWS使用

  • CNTK2 由Microsoft提出 (MIT License)

人工智能在各個行業的公司分佈

如何區分人工智能、機器學習和深度學習

(圖片來源 http://www.shivonzilis.com/)

目前人工智能在各個領域的初創公司數量(2016年的數據):

  • Deep learning/機器學習 (通用)(123家公司)

  • Deep learning/機器學習 (應用) (260家公司)

  • NLP (通用) (154家公司)

  • NLP (語音識別) (78家公司)

  • 計算機視覺/圖像識別 (通用) (106家公司)

  • 計算機視覺/圖像識別 (應用) (83 家公司)

  • 手勢控制 (33 家公司)

  • 虛擬個人助理 (92 家公司)

  • 智能機器人 (65 家公司)

  • 推薦系統 (60 家公司)

  • Context aware computing (28 家公司)

  • 語音即時翻譯 (15 家公司)

  • 視頻識別 (14 家公司)

下圖是目前人工智能在各個行業的熱度

如何區分人工智能、機器學習和深度學習

如何區分人工智能、機器學習和深度學習

上圖是2011到2016年最積極的人工智能企業投資者

如何區分人工智能、機器學習和深度學習

下圖是福布斯關注的50家人工智能公司。

如何區分人工智能、機器學習和深度學習

(圖片來自http://fortune.com/2017/02/23/artificial-intelligence-companies/)

融資最多的人工智能初創公司(2011-2016)

如何區分人工智能、機器學習和深度學習

Sentient Technologies:使用先進的人工智能技術,大規模分佈式計算和科學的方法來驗證新發現的策略,Sentient Technologies為各種領域中的複雜問題提供了新的解決方案。

Ayasdi:機器學習平臺,數據可視化,分析,金融技術,醫療保健代理系統:

Vicarious: 這是一家神祕的人工智能公司,Vicarious的目標定位於“建立下一代的人工智能算法”。並且聲稱要構建“像人類一樣思考的軟件”,實現“人腦級別的視覺、語言和自動控制系統”,致力於研究通用人工智能,目前他們的研究重點是實現人工視覺識別系統。

Context Relevant:Context Relevant通過使用機器學習驅動的自動化數據科學平臺,來解決一些世界上最棘手的大數據,預測和行為挑戰 - 比任何其他解決方案更快更有效。

Cortia:Cortica的技術模擬人類皮層,以便以最高的精度理解和識別圖像。

Workfusion:WorkFusion是全球運營的完整自動化解決方案,將您需要的複雜業務流程數字化所需的核心功能整合到一個平臺中:業務流程管理(BPM),機器人過程自動化(RPA),勞動力編排和機器學習提供的認知自動化。

RapidMiner:開源預測分析平臺,使企業能夠在業務流程中包括預測分析

Digital Reasoning Systems:確保合規性,保持安全性,並快速準確地分析信息。

H2O.ai:H2O是世界領先的開源深度學習平臺。 H2O被超過80,000個數據科學家和超過9,000個組織使用。

Viv Labs:Viv在開發語音智能助理,已被三星收購。

參考文獻:

http://fortune.com/ai-artificial-intelligence-deep-machine-learning/

https://en.wikipedia.org/wiki/Artificial_neural_network

http://fortune.com/2017/02/23/artificial-intelligence-companies/

https://www.amazon.com/b?ie=UTF8&node=16008589011#

http://techemergence.com/artificial-intelligence-industry-an-overview-by-segment/

Nvidia Deep Learning Training Workshop

Crunchbase

CB Insight

相關推薦

推薦中...