Gary Marcus:在人工智能上取得成功的「叛逆者」

機器之心原創

編輯:吳攀、李亞洲

Gary Marcus 為機器之心 「2017 全球機器智能峰會」的重要演講嘉賓。

演講時間:5 月 27 日,14:50-15:10

演講主題:Control Intelligence and Machine Intelligence

近年來,在計算機計算能力的指數級突破和數據量飛漲這兩大因素的推動下,深度學習帶來了人工智能的又一波浪潮。圖像識別、語音識別、視頻理解、自然語言理解、博弈、預測分析、內容生成…… 深度學習不斷地在不同的應用領域創造著驚喜。

2016 年 3 月份 AlphaGo 的一場人機大戰,徹底將深度學習的浪潮推向了巔峰。似乎一夜之間,人工智能、深度學習成了人人都在關注的關鍵詞——工程師探討新應用、企業家在尋找新商機、政府和社會學家在思考新的社會問題,其它領域的科學家也開始將其用作輔助研究的手段。

但備受追捧的背後,還有一種聲音讓我們警惕深度學習的過度炒作。

這一波深度學習引發的人工智能浪潮中,Gary Marcus 就是這樣一個 「叛逆者(contrarian)」。2016 年在 Edge 的一次視頻專訪中,他曾表示自己覺得人工智能正走在錯誤的方向上。他不確定深度學習、大數據否能讓我們靠近人工智能中更加深層的問題,比如如何理解語言,或是怎麼推理這個世界?

不管是發表作品、評論,還是公開露面宣講,Marcus 都以一個嚴厲的深度學習批評者身份亮相。

他在神經認知科學領域的堅持,是深度學習火熱的今天發展人工智能的不同方向。正如瑞士人工智能公司 Demiurge Technologies 聯合創始人 Bragi Lovetrue 告訴機器之心的那樣,「在紐約大學,Yann LuCun 等學者將深度學習帶上巔峰的同時,Gary Marcus、Brenden Lake、Ned Block 等學者已為後深度學習時代的人工智能打下了堅實的地基。期待後深度學習時代的人工智能從大腦、意識和嬰兒研究中汲取靈感,創造新的算法與架構滿足深度學習所釋放的對人工智能的廣泛需求。」

Marcus 與深度學習

1956 年,美國達特茅斯大學的一次會議推動了全球第一次人工智能浪潮的出現,也就是 1956 年到 1974 年。當時,在算法方面出現了很多世界級的發明,其中包括貝爾曼公式以及感知器。感知器作為首個可訓練的神經網絡,由康奈爾大學的心理學家 Frank Rosenblatt 於 1957 年提出的。

但後來,Minsky 和 Papert 發表了一部名為《Perceptrons》的著作,證明在感知器上執行一定量的常見計算會非常耗時間,不切實際。不久之後,人工智能就迎來了第一波寒冬。

在這期間(1970 年),Gary Marcus 出生在美國馬里蘭州巴爾的摩。在高中時期,他讀了認知科學家 Douglas Hofstadter 和哲學家 Daniel Dennett 合編的關於意識的文集《 The Mind’I》,同時也讀了 Douglas Hofstadte 關於機器和心靈的著作《哥德爾、艾舍爾、巴赫》,從此他開始對「心智」變得著迷。

在接受 MIT TR 記者 Will Knight 的專訪時,他談到自己寫過的一個可以將拉丁語翻譯成英語的程序。Marcus 表示,這項工作的困難讓他意識到,如果我們要在機器中重新創造智能,就必須更加理解那些隱藏於人類思維中的運作現象。

進入 20 世紀 80 年代,人工智能迎來第二波發展的浪潮。80 年代中期是一個有趣的時期,那時的人工智能分化為兩個陣營,一方希望通過複製大腦的基本生物狀態來創造智能機器,另一方的目標則是用傳統計算機和軟件來模擬更高級的認知功能。

在這個時期,人工智能領域產生了新的變化。一些心理學家想出了一個方法,認為可以完全顛覆人工智能。這一方法與神經網絡有關,也就是現在耳熟能詳的深度學習的前身。

1944 年,兩位來自芝加哥大學的研究人員 Warren McCullough 和 Walter Pitts 首次提出了神經網絡,他們描述的神經網絡有閾值和權重,但並不是按層的方式排列的,而且當時研究人員也沒詳細說明任何訓練機制。

McCullough 和 Pitts 展現的是神經網絡能夠在理論上計算任何數字化計算機能夠計算的函數。結果更偏向於神經科學,而非計算機科學。

同一時期,加拿大心理學家 Donald Hebb 也提出了關於大腦中神經元如何學習識別一個輸入的理論。他的研究表明,重複的神經元放電可能會加強它們之間的聯繫,從而提高遇到同樣輸入時再次放電的可能性。一些研究者採用類似的設計思路建造了計算機。

但是,這種所謂的神經網絡效能很低(例如前面提到的感知器)。直到 1986 年,一組研究者發現了提高神經網絡學習能力的方法,其中包括著名的多層神經網絡(1986)和 BP 反向傳播算法(1986)等。這些研究者還展示了神經網絡可以用來完成許多不同的事情,從視覺數據中的模式識別到學習英語動詞的過去時態。只要有足夠的數據樣本用於訓練,這些網絡就能形成執行某些任務所需要的連接。

這些研究者把他們的方法稱為「聯結主義(connectionism)」,並聲稱只要有足夠大的神經網絡,就能重現智能。

在聯結主義興起之時,Marcus 正在決定自己要去哪裡讀研究生。他參加了著名認知科學家、時任 MIT 教授的 Steven Pinker 的講座。Pinker 講到了兒童學習和使用動詞的方式。他認為,與純粹聯結主義者的預期不同,兒童學習動詞過去時態的時候,似乎並不是純粹記住一些例子再推而廣之的過程。Pinker 展示的證據表明兒童在學習過程中很快就能察覺出語言規則並加以概括推廣。他和其他人都相信,從本質上說,進化塑造了人腦中的神經網絡,為更加複雜的智能提供了必要工具。

Marcus 在研究生期間收集了更多證據,來支持 Pinker 關於學習的理論,並形成了自己的理念。他率先將大量認知研究數據電子化,研究了幾千份兒童語音的錄音資料來尋找他們的錯誤,例如將「broke」和「went」誤說為「breaked」和「goed」。這似乎證實了兒童掌握語法規則後會將其運用在新詞上,並通過死記硬背來學習那些不符合規則的例外情況。

基於該項研究,Marcus 開始質疑聯結主義者們認為智能會從大型神經網絡中自動湧現的想法,他開始將注意力集中在深度學習的侷限性上。

在 21 世紀的第一個十年裡,神經網絡再次衰落。

「1989 年,我畢業的時候,所有人都在喋喋不休地討論神經網絡。然後這些人消失了。專家體系也存在這種現象。興趣像潮水一樣湧來,然後又無影無蹤。我們這個領域的人最擔心的就是這種現象會不會再次發生。現在的人們為什麼對神經網絡有如此高的興趣,這種熱情能夠保持下去嗎?」。這一年(19 歲),Marcus 加入了 Pinker 在 MIT 的實驗室。

人工智能的 「叛逆者」

Gary Marcus 的 TED 演講

「叛逆」 並不是一個純粹的貶義詞,也不能算是褒義詞,但如果使用得當,它倒有點堅持正確並孤身逆勢而為的意味。在今天的深度學習熱潮中,Gary Marcus 將自己看作一個 「叛逆者」。

「毫無疑問我的觀點有些叛逆。我的看法是人們對那些僅代表了一小部分我們實際需要實現的東西很有熱情。」在 Technical.ly Brooklyn 的一次採訪中他這樣說到,「我認為機器在這些事情上沒有取得進展。它們確實已經在語音識別這些任務上有進展,但這不是語言理解,只是轉錄而已。」

就像前面介紹的,近些年來基於深度學習的人工智能採用的是一種並不算新鮮的形式——人工神經網絡。這種網絡是由許多(有時是幾百萬個)獨立的單元組成的,它們叫做神經元(neuron)。每個神經元都會把多個數字輸入轉化成一個數字輸出,然後再把它傳遞給另一個或很多個其它神經元。就像在大腦中一樣,這些神經元被分成很多「層 (layer)」——一些可以獲取下層的輸入數據並把它們的輸出傳遞給上層的神經元團。神經網絡通過輸入的數據不斷調整其連接的方式來進行學習,直到網絡計算出與已知輸出(一般由很多子類組成)儘可能接近的輸出為止。

但這樣的網絡有一個缺點:需要大量乃至巨量的數據。比如說,微軟和谷歌都已經開發出了超人級的圖像識別算法——其在標準數據集的識別上已經超過了人類的平均水平,可以識別數千種不同的物體,從清真寺到蚊子等等。但是為了達到足夠擊敗人類的性能表現,這些算法需要數以百萬計的有標註的數據。而對於人類,一個小孩僅需要少量甚至只需一個樣本就能學會識別一種新物體。

在評價當前深度學習主導的人工智能現狀時,Marcus 毫不客氣——他甚至並不認為深度學習是 「智能的」。他在 2012 年發表於《紐約客》的一篇反響很大的專欄文章《「深度學習」 是人工智能領域的一次革命嗎?(IS 「DEEP LEARNING」A REVOLUTION IN ARTIFICIAL INTELLIGENCE?)》的結尾處說:「Hinton 造出了一架更好的梯子;但一架更好的梯子並不能幫你登上月球。」

「容易取得的成果比我預想的多一些。我看到別人給出過更簡潔的說法:深度學習不是 AGI(通用人工智能)。你確實可以使用深度學習做很多事情,比如做更好的語音識別,做更好的目標識別。但那並不意味著就是智能。智能是一種多維度的變量,裡面存在很多東西。」 他在 TechCunch 對他的一次採訪中說道,「現在是感知(perception),只是整體的一小部分。這確實是很重要的一部分,但人類智能裡面還有更多的元素,比如我們關注合適的事物的能力、推理和建模當前發生的事情,進而預測未來可能發生的事情等等。而感知只是其中的一部分。深度學習也只是有助於這一部分。」

Gary Marcus:在人工智能上取得成功的「叛逆者」

智能有很多組成元素,感知只是其中一部分,另外還有語言、推理、類推、規劃和常識;圖片來自 Gary Marcus 的 TEDxCERN 演講

Gary Marcus 相信,要想實現真正的人工智能,光有深度學習是遠遠不夠的,我們還需要更多方向。

認知科學與人工智能

既然光靠深度學習不能實現我們心中的通用人工智能,那麼我們應該怎麼做呢?Gary Marcus 認為,為了推動實現通用人工智能的宏偉目標,我們應該「更加認真地對待認知科學,尤其是發展心理學和發展認知科學。」

認知科學是 20 世紀世界科學標誌性的新興研究門類,探究人腦或心智工作機制,研究的領域包括:語言習得、閱讀、話語、心理模型小概念和歸納、問題解決和認知技藝獲得、視覺的計算、視覺注意等等。

Gary Marcus:在人工智能上取得成功的「叛逆者」

認知科學的六角星

經過半個世界的發展,認知科學已經不像初期那樣「聊聊心智是什麼」了。到了本世紀,國際認知科學學會會士 8 位哲學家之一的保羅 · 薩伽德在《心智》一書中,以一種統一的視角,將心理學、人工智能、神經科學、語言學、哲學、和人類學探索認知的進路統統歸為對心理表徵和心理程序的處理。

從 1956 年美國達特茅斯學院的那一場討論會開始,人工智能的發展起起伏伏。幾經波折後的人工智能領域,除了少數人在堅持傳統外,主流人工智能界也開始轉向針對特殊問題的的設計求解。人工智能先驅 Marvin Lee Minsky 就曾表示過,「人工智能的研究從 70 年代開始已經『腦死亡』了。」

到了 21 世紀,以「通用性」為目標的通用人工智能開始再次復興。2005 年,通用人工智能領域的代表人物馬庫斯 · 胡特第一次給出了真正能適應各種不同環境的通用智能主題的數學模型 AIXI,它只有一個公式:

Gary Marcus:在人工智能上取得成功的「叛逆者」

而在最近,DeepMind 深度學習結合強化學習玩 Atari 遊戲的方式也顯示了一定的通用性。DeepMind 也一直在對外宣稱自己有著「建立通用人工智能」的目標。

整體上看,DeepMind 的研究解決了人工智能領域裡一些重要的問題,比如自然語言理解、感知處理、通用學習和用於評估人工智能的策略。雖然特定的模型已經證明了在有限領域內的認知能力,但目前它們還無法代表一種統一的智能模型。

為了實現自己的通用人工智能目標,Gary Marcus 建立了一家致力於讓人工智能系統和代理通過使用很少的數據就能進行有效學習的創業公司 Geometric Intelligence。他認為,「認知科學與神經科學交匯衍催生的新想法將對未來的人工智能研究至關重要。」除了 Marcus,創始成員還包括劍橋機器學習教授 Zoubin Ghahramani、中佛羅里達大學計算機科學教授 Kenneth Stanley 和紐約大學神經語言學博士 Douglas Bemis。

在 MIT 科技評論的 EmTech Digital 的一次演講中,Gary Marcus 曾表示 Geometric Intelligence 的目標包含兩個方面:

  • 通過創新的、正在申請專利的可從更少數據中更高效地學習的技術來重新定義機器學習的邊界

  • 在一個更穩固的框架中逼近規則和控制的力量,整合機器學習的當代進步,同時在它們之上進行延展

為了實現這樣的目標,他們從人類認知心理學(human cognitive psychology)上獲得了一些靈感。去年,Geometric Intelligence 宣佈成功開發出了一種可以使用更少的數據進行更快的機器學習的算法 XProp。

據介紹,相比於目前最為流行的深度學習方法,這種方法所需的樣本數量可以少得多。

Gary Marcus:在人工智能上取得成功的「叛逆者」

XProp 和某種沒有具體指明的卷積神經網絡方法的一個比較——在樣本量相同時 XProp 的街景門牌號(SVHN)分類誤差低於卷積方法。

Geometric Intelligence 沒有披露有關 XProp 工作方式的更多細節,而現在這個算法應該已經落到了 Uber 手裡。

去年 12 月,Uber 以未披露的價格收購了這家公司,隨即便以該公司的員工為核心組建了自己的人工智能研發團隊 Uber AI Labs;Gary Marcus 也隨之加入並擔任該實驗室的主管。不過那之後僅僅過了四個月,Marcus 就離開了 Uber。

暢銷書作家

除了思想家、科學家、創業者和企業家的身份,Gary Marcus 還是一位暢銷書作家和專欄作者,他發表過的專著包括《Guitar Zero: The New Musician and the Science of Learning》、《Kluge: The haphazard construction of the human mind》、《The Norton Psychology Reader》、《The Birth of The Mind: How a Tiny Number of Genes Creates the Complexities of Human Thought》和《The Algebraic Mind: Integrating Connectionism and Cognitive Science》。

Gary Marcus:在人工智能上取得成功的「叛逆者」

其中 2012 年的作品《Guitar Zero: The New Musician and the Science of Learning》講述了他在近 40 歲 「高齡」時學彈吉他的故事,通過這段經歷,他研究了人在不同年齡是如何掌握新技能的。

在本書中,Marcus 提出了這樣的疑問:幾乎每個人都可以聽音樂,但是不是每個人都能演奏音樂呢?演奏音樂是一種與生俱來的能力嗎?還是所有人都可以習得?如果六歲的時候沒有開始學鋼琴,現在還來得及嗎?過了學習的黃金時代(一般認為是成年以前),我們還有機會重塑自我嗎?

為了解答這些問題,當時已經年近 40 歲的 Gary Marcus 決定拿自己來試驗一下——這位之前沒有表現出任何音樂才能的科學家決定開始學習吉他。在這個過程中,Marcus 對人類的心智可塑性和學習能力進行了探索。通過對吉他專家的調研,Marcus 研究瞭如何學習一門樂器的最有效方式——怎樣進行刻意且有效的訓練?怎麼找到最好的音樂老師?天才真的存在,還是隻要努力就能成功?

Guitar Zero 展示了一種音樂的科學,揭示了音樂直覺等等常見的謬誤。在此之上,Marcus 又提出了一個對人類來說非常基本的問題:人生中最重要的是什麼?人生旅程本身就能讓大腦滿足了嗎?如果你對音樂、學習和豐富多彩的人生感興趣,不妨讀讀這本書。

而在另一本書《Kluge: The haphazard construction of the human mind》中,Marcus 對人類心智的構建方式進行了探索。

為什麼我們可以認出高中畢業照上的同學卻不記得昨天早餐吃了什麼?為什麼當廣告寫道 「每位顧客限購 12 只」 時,我們往往傾向於比廣告寫 「每位顧客限購 4 只」 時買得更多,儘管價格一樣?在這本書中,Gary Marcus 令人信服地說明了人類大腦並不如我們想象的那麼優雅完美,而更像是隨便拼湊起來的。Gary Marcus 認為,人類的進化是階段性的。在新的模塊還在組建的時候,我們依然需要舊的模塊繼續工作,讓大腦維持運轉。一邊構造一邊使用就會導致各種偷懶、草率、抄近道。就好像大腦是一個混亂失調的車間,年輕的工人(前腦)處理語言等新技能的同時,老保安(中腦和後腦)則在管理著系統記憶和地下室的保險絲。由此造成的不良後果包括:抑鬱、瘋狂、不可靠的記憶、偏見。

Gary Marcus 的書總能為我們帶來關於人類心智的新思考,他的文章、演講、評論和研究也在不斷幫助人們更好地瞭解智能、心智和我們自身存在的本質,併為人工智能的發展提供不一樣的見解和方向。

相關推薦

推薦中...