人工“碳”索意猶盡 智能“硅”來未可知(深度學習系列之二)

更多深度文章,請關注雲計算頻道:https://yq.aliyun.com/cloud

系列文章:一入侯門“深”似海,深度學習深幾許(入門系列之一):https://yq.aliyun.com/articles/86580


在前面的小節中,我們僅僅泛泛而談了機器學習、深度學習等概念,在這一小節,我們將給出它的更加準確的形式化描述。

我們經常聽到人工智能如何如何?深度學習怎樣怎樣?那麼它們之間有什麼關係呢?在本小節,我們首先從宏觀上談談人工智能的“江湖定位”和深度學習的歸屬。然後再在微觀上聊聊機器學習的數學本質是什麼?以及我們為什麼要用神經網絡?

2.1 人工智能的“江湖定位”


宏觀上來看,人類科學和技術的發展,大致都遵循著這樣的規律:現象觀察、理論提取和人工模擬(或重現)。人類“觀察大腦”的歷史由來已久,但由於對大腦缺乏“深入認識”,常常“絞盡腦汁”,也難以“重現大腦”。

直到上個世紀40年代以後,腦科學、神經科學、心理學及計算機科學等眾多學科,取得了一系列重要進展,使得人們對大腦的認識相對“深入”,從而為科研人員從“觀察大腦”到“重現大腦”搭起了橋樑,哪怕這個橋樑到現在還僅僅是個並不堅固的浮橋。

人工“碳”索意猶盡 智能“硅”來未可知(深度學習系列之二)

圖1 人工智能的本質

而所謂的“重現大腦”,在某種程度上,就是目前的研究熱點——人工智能。簡單來講,人工智能就是為機器賦予人類的智能。由於目前的機器核心部件是由晶體硅構成,所以可稱之為“硅基大腦”。而人類的大腦主要由碳水化合物構成,因此可稱之為“碳基大腦”。

那麼,現在的人工智能,簡單來講,大致就是用“硅基大腦”模擬或重現“碳基大腦”。那麼,在未來會不會出現“碳硅合一”的大腦或者全面超越人腦的“硅基大腦”呢?

有人就認為,在很大程度上,這個答案可能是“會的”!比如說,未來預言大師雷·庫茲韋爾(Ray Kurzweil)就預測,到2045年,人類的“奇點”時刻就會臨近[1] 。這裡的“奇點”是指,人類與其他物種(物體)的相互融合。確切來說,是指硅基智能與碳基智能兼容的那個奇妙時刻。

2.2 深度學習的歸屬


在當下,雖然深度學習領跑人工智能。但事實上,人工智能研究領域很廣,包括機器學習、計算機視覺、專家系統、規劃與推理、語音識別、自然語音處理和機器人等。而機器學習又包括深度學習、監督學習、無監督學習等。簡單來講,機器學習是實現人工智能的一種方法,而深度學習僅僅是實現機器學習的一種技術而已(如圖1所示)。

人工“碳”索意猶盡 智能“硅”來未可知(深度學習系列之二)

圖2 深度學習的“江湖地位”

需要說明的是,對人工智能做任何形式的劃分,都可能是有缺陷的。在圖2中,人工智能的各類技術分支,彼此涇渭分明,但實際上,它們之間卻可能阡陌縱橫,比如說深度學習是無監督的。語音識別可以用深度學習的方法來完成。再比如說,圖像識別、機器視覺更是當前深度學習的拿手好戲。

一言蔽之,人工智能並不是一個有序的樹,而是一個彼此纏繞的灌木叢。有時候,一個分藤蔓比另一個分藤蔓生長得快,並且處於顯要地位,那麼它就是當時的研究熱點。深度學習的前生——神經網絡的發展,就是這樣的幾起幾落。當下,深度學習如日中天,但會不會也有“虎落平陽被犬欺”的一天呢?從事物的發展規律來看,這一天肯定會到來!

在圖2中,既然我們把深度學習和傳統的監督學習和無監督學習單列出來,自然是有一定道理的。這就是因為,深度學習是高度數據依賴型的算法,它的性能通常隨著數據量的增加而不斷增強,也就是說它的可擴展性(Scalability)顯著優於傳統的機器學習算法(如圖3所示)。

人工“碳”索意猶盡 智能“硅”來未可知(深度學習系列之二)

圖3 深度學習和傳統學習算法的區別

但如果訓練數據比較少,深度學習的性能並不見得就比傳統機器學習好。其潛在的原因在於,作為複雜系統代表的深度學習算法,只有數據量足夠多,才能通過訓練,在深度神經網絡中“恰如其分”地表徵出蘊含於數據之中的模式。

不論機器學習,還是它的特例深度學習,在大致上,都存在兩個層面的分析(如圖4所示):

人工“碳”索意猶盡 智能“硅”來未可知(深度學習系列之二)

圖4 機器學習的兩層作用

(1)面向過去(對收集到的歷史數據,用作訓練),發現潛藏在數據之下的模式,我們稱之為描述性分析(Descriptive Analysis);

(2)面向未來,基於已經構建的模型,對於新輸入數據對象實施預測,我們稱之為預測性分析(Predictive Analysis)。

前者主要使用了“歸納”,而後者更側重於“演繹”。對歷史對象的歸納,可以讓人們獲得新洞察、新知識,而對新對象實施演繹和預測,可以使機器更加智能,或者說讓機器的某些性能得以提高。二者相輔相成,均不可或缺。

在前面的部分,我們給予機器學習的概念性描述,下面我們給出機器學習的形式化定義。

2.3.機器學習的形式化定義


在《未來簡史》一書中[2],尤瓦爾•赫拉利說,根據數據主義的觀點,**人工智能實際上就是找到一種高效的“電子算法”,用以代替或在某項指標上超越人類的“生物算法”。**那麼,任何一個“電子算法”都要實現一定的功能(Function),才有意義。

在計算機術語中,中文將“Function”翻譯成“函數”,這個多少有點扯淡,因為它的翻譯並沒有達到“信達雅”的標準,除了給我們留下一個抽象的概念之外,什麼也沒有剩下來。但這一稱呼已被廣為接受,我們也只能“約定俗成”地把“功能”叫做“函數”。

根據臺灣大學李宏毅博士的說法,所謂機器學習,在形式上,可近似等同於在數據對象中,通過統計或推理的方法,尋找一個有關特定輸入和預期輸出功能函數(如圖5所示)。習慣上,我們把輸入變量寫作大寫的X ,而把輸出變量寫作大寫的Y 。那麼所謂的機器學習,在形式就是完成如下變換:Y= f(X) 。

人工“碳”索意猶盡 智能“硅”來未可知(深度學習系列之二)

圖5 機器學習近似等同於找一個好用的函數

在這樣的函數中,針對語音識別功能,如果輸入一個音頻信號,那麼這個函數就能輸出諸如“你好”,“How are you?”等這類識別信息。

針對圖片識別功能,如果輸入的是一個圖片,在這個函數的加工下,就能輸出(或稱識別出)一個貓或狗的判定。

針對下棋博弈功能,如果輸入的是一個圍棋的棋譜局勢(比如AlphaGO),它能輸出這個圍棋的下一步“最佳”走法。

而對於具備智能交互功能的系統(比如微軟的小冰),當我們給這個函數輸入諸如“How are you?”,它就能輸出諸如“I am fine,thank you?”等智能的迴應。

每個具體的輸入,都是一個實例(instance),它通常由特徵空間(feature vector)構成。在這裡,所有特徵向量存在的空間稱為特徵空間(feature space),特徵空間的每一個維度,對應於實例的一個特徵。

但問題來了,這樣“好用的”函數並不那麼好找。當輸入一個貓的圖像後,這個函數並不一定就能輸出它就是一隻貓,可能它會錯誤地輸出為一條狗或一條蛇。

這樣一來,我們就需要構建一個評估體系,來辨別函數的好壞(Goodness)。當然,這中間自然需要訓練數據(training data)來“培養”函數的好品質(如圖6所示)。在第一小節中,我們提到,學習的核心就是性能改善,在圖6中,通過訓練數據,我們把f1改善為f2的樣子,性能(判定的準確度)得以改善了,這就是學習!很自然,這個學習過程如果是在機器上完成的,那就是“機器學習”了。

人工“碳”索意猶盡 智能“硅”來未可知(深度學習系列之二)

圖6 機器學習的三步走

具體說來,機器學習要想做得好,需要走好三大步:

(1) 如何找一系列函數來實現預期的功能,這是建模問題。

(2) 如何找出一組合理的評價標準,來評估函數的好壞,這是評價問題。

(3) 如何快速找到性能最佳的函數,這是優化問題(比如說,機器學習中梯度下降法乾的就是這個活)。

2.4 為什麼要用神經網絡?


我們知道,深度學習的概念源於人工神經網絡的研究。含多隱層的多層感知機就是一種深度學習結構。所以說到深度學習,就不能不提神經網絡。

那麼什麼是神經網絡呢?有關神經網絡的定義有很多。這裡我們給出芬蘭計算機科學家Teuvo Kohonen的定義(這老爺子以提出“自組織神經網絡”而名揚人工智能領域):“神經網絡,是一種由具有自適應性的簡單單元構成的廣泛並行互聯的網絡,它的組織結構能夠模擬生物神經系統對真實世界所作出的交互反應。”

在機器學習中,我們常常提到“神經網絡”,實際上是指“神經網絡學習”。學習是大事,不可忘記!

那為什麼我們要用神經網絡學習呢?這個原因說起來,有點“情非得已”。

我們知道,在人工智能領域,有兩大主流門派。第一個門派是符號主義。符號主義的理念是,知識是信息的一種表達形式,人工智能的核心任務,就是處理好知識表示、知識推理和知識運用。這個門派核心方法論是,自頂向下設計規則,然後通過各種推理,逐步解決問題。很多人工智能的先驅(比如CMU的赫伯特•西蒙)和邏輯學家,很喜歡這種方法。但這個門派的發展,目前看來並不太好。未來會不會“峰迴路轉”,現在還不好說。

還有一個門派,就是試圖編寫一個通用模型,然後通過數據訓練,不斷改善模型中的參數,直到輸出的結果符合預期,這個門派就是連接主義。連接主義認為,人的思維就是某些神經元的組合。因此,可以在網絡層次上模擬人的認知功能,用人腦的並行處理模式,來表徵認知過程。這種受神經科學的啟發的網絡,被稱之人工神經網絡(Artificial Neural Network,簡稱ANN)。目前,這方法的升級版,就是目前非常流行的深度學習。

前面我們提到,機器學習在本質是就找好一個好用的函數。而人工神經網絡最牛逼的地方就在於,它可以在理論上證明:只需一個包含足夠多神經元的隱藏層,多層前饋網絡能以任意進度逼近任意複雜度的連續函數[4]。這個定理也被稱之為通用近似定理(Universal Approximation Theorem)。這裡的“Universal”,也有人將其翻譯成“萬能的”,由此可見,這個定理的能量有多大。換句話說,神經網絡可在理論上解決任何問題,這就是目前深度學習能夠“牛逼哄哄”最底層的邏輯(當然,大數據+大計算也功不可沒,後面還會繼續討論)。

2.5 小結


在本小節中,我們首先談了談人工智能的“江湖定位”,然後指出深度學習僅僅是人工智能研究的很小的一個分支,接著我們給出了機器學習的形式化定義。最後我們回答了為什麼人工神經網絡能“風起雲湧”,簡單來說,在理論上可以證明,它能以任意精度逼近任意形式的連續函數,而機器學習的本質,不就是要到一個好用的函數嘛?

在下小節,我們將深度解讀什麼是激活函數,什麼是卷積?(很多教科書真是越講越糊塗,希望你看到下一小節,能有所收穫)

2.6 請你思考


學完前面的知識,請你思考如下問題(掌握思辨能力,好像比知識本身更重要):

(1)你認可庫茲韋爾“到2045年人類的奇點時刻就會臨近”的觀點嗎?為什麼?庫茲韋爾的預測,屬於科學的範疇嗎?(提示:可以從波普爾的科學評判的標準——是否具備可證偽性分來析。)

(2)深度學習的性能,高度依賴性於訓練數據量的大小?這個特性是好還是壞?(提示:在《聖經》中有七宗原罪,其中一宗罪就是暴食,而原罪就是“deadly sin”,即死罪。目前,深度學習貪吃數據和能量,能得以改善嗎?)

寫下你的心得體會,祝你每天都有進步!

文章作者:張玉宏(著有《品味大數據》),審校:我是主題曲哥哥。

(未完待續)

【參考文獻】

1 雷·庫茲韋爾, 李慶誠等譯. 奇點臨近.機械工業出版社.2012.12

2尤瓦爾·赫拉利,未來簡史. 出版社:中信出版社.2017.1

[3] 李航.統計學習方法.清華大學出版社.2012.3

[4] Hornik K, Stinchcombe M, White H. Multilayer feedforward networks are universal approximators[J]. Neural networks, 1989, 2(5): 359-366.

相關推薦

推薦中...