AI綜述專欄 | 神經科學啟發的人工智能

人工智能 神經科學 算法 技術 心理學 動物 機器人 哺乳動物 數學 人工智能前沿學生論壇 2019-06-06

點擊→https://mp.weixin.qq.com/s/bK4xVGCD8gsSk7khRfzL4w

關注微信公眾號:人工智能前沿講習,

重磅乾貨,第一時間送達


AI綜述專欄

在科學研究中,從方法論上來講,都應先見森林,再見樹木。當前,人工智能科技迅猛發展,萬木爭榮,更應系統梳理脈絡。為此,我們特別精選國內外優秀的綜述論文,開闢“綜述”專欄,敬請關注。


導讀

近年來,神經科學和AI相關領域取得快速發展。在計算機時代早期,AI的研究與神經科學和心理學的研究有著千絲萬縷的關係,很多早期的研究人員都是橫跨兩個領域,並且取得了大量成果。可近年來,隨著兩個領域的研究越來越深入,學科的邊界越來越明顯,它們之間的交流漸漸減少。本文認為,神經科學的研究對於加速和啟發AI的發展具有越來越關鍵的作用。


作者簡介

戴密斯·哈比斯,世界著名的遊戲開發者、神經科學家、人工智能科學家和企業家,AlphaGo的開發者,世界頂級人工智能研究機構——DeepMind公司創始人兼CEO。被授予倫敦帝國理工學院榮譽學位,英國皇家工程學院院士,英國皇家學會會員。從4歲開始下象棋,8歲編寫計算機遊戲,20歲獲得劍橋大學計算機科學學士學位。畢業後創立了Elixir工作室,成為一名獨立遊戲開發者。2005年,回到校園學習認知神經科學,獲得倫敦大學學院博士學位。博士期間以海馬為研究對象,提出了關於情節記憶系統的新理論,該工作被《科學》雜誌評為年度十大科學突破之一。2011年,中斷博士後研究,創辦了DeepMind公司,以“解決智能”為公司的終極目標。

劉博,中科院自動化所直博一年級在讀,研究興趣為深度神經網絡的可解釋性、生物視覺啟發的視覺算法。


目 錄

1 引言

2 過去

2.1 深度學習

2.2 強化學習

3 現在

3.1 注意機制

3.2 情景記憶

3.3 工作記憶

3.4 持續學習

4 未來

4.1 對物質世界的直觀理解

4.2 高效學習

4.3 遷移學習

4.4 想象與規劃

4.5 虛擬大腦分析

5 結束語

6 參考文獻

7 推薦文獻


1 引言

神經科學對於AI研究的促進主要體現在兩個方面:首先,作為數學和邏輯方法的補充,神經科學為人工智能領域的新算法、新結構提供了豐富的靈感。其次,神經科學可以對現有AI算法的智能性進行驗證。即雖然一個算法在數據集上沒有取得很好的效果,但算法的機理符合神經計算的機理,則說明該算法值得繼續探索。當然,從工程角度來看,讓模型完全地符合神經機理不是必須的。神經科學只是作為一種啟發,而不是強制性的。

值得注意的是,本文所指的神經科學是指包括系統神經科學、認知神經科學和心理學在內的廣義的神經科學。人工智能是指包括機器學習、統計學等致力於建立智能系統的所有研究內容。本文所指的啟發,是指在計算與算法、結構以及功能層次的啟發。這與馬爾視覺計算理論的三個層次中的前兩個層次大致對應。即系統的目標(計算層次)和實現目標的方法(算法層次)。至於大腦皮層神經元是如何實現這些計算過程的(算法實現層次),這裡不涉及。

下面本文將在過去、現在和未來三個階段介紹神經科學對AI的啟發作用。

2 過去

2.1 深度學習

眾所周知,近年來的AI發展主要依靠的是深度學習【1】,而深度學習與神經科學有著直接而緊密的聯繫。神經科學家最先提出了神經網絡【2】的基本模型,而現在最主流的卷積神經網絡【3 4】仍然包含了神經網絡最本質的特點,如層級結構、非線性激活、最大值池化等,這些特點直接來源於神經科學中對哺乳動物視覺皮層的單細胞記錄實驗結論。另外,神經網絡中的正則化也來源於神經科學。如Dropout算法【5】,受啟發於神經元發放的隨機性,即神經元的響應近似服從泊松分佈。總而言之,在過去的研究中,神經科學為創造新的神經網絡結構和算法提供了原始的指引。

2.2 強化學習

除了深度學習,AI領域的另一個支柱是強化學習【6】。強化學習的目的是基於現有的環境狀態,依據特定策略選擇一個動作以獲得更好的回報。強化學習的靈感直接來源於神經科學對動物學習行為的研究。特別的,強化學習中最關鍵的時間差分算法(Temporal-difference)受啟發於對動物在特定條件下的行為研究。從機器人控制到阿法狗,時間差分算法為現有AI研究提供了關鍵技術。


3 現在

3.1 注意機制

當我們學習一個任務時,大腦中的神經網絡並不是進行的全局優化。大腦是模塊化的,不同的功能對應不同的腦區,當執行某一特定任務時只有對應的部分神經網絡會激活。最近卷積神經網絡中的注意機制也暗含著這種機理。直到最近,大部分的卷積神經網絡對輸入的整幅圖像的每個像素都賦予同樣的關注。但在人腦視覺系統中,視覺注意機制【7】會對輸入圖像中不同部分賦予不同關注,將注意在整幅圖像中策略性移動。比如我們觀察圖像時會自覺地將注意移到圖像的前景上而忽視背景,然後集中視覺處理資源對前景進行處理以快速完成物體識別。通過借鑑人類視覺注意機制,現有的卷積神經網絡模型通過快速的掃描圖像,逐步將注意轉移到圖像中下一個位置【8】。這種卷積神經模型能夠使用選擇性注意機制對目標物體賦予更多關注而忽略場景中不相關的背景,能夠準確地完成複雜場景、具有遮擋情況下的物體識別任務【9】,在準確率和計算效率方面超過了對整幅圖像賦予同等關注的普通卷積神經網絡模型。

3.2 情景記憶

神經科學表明智能行為依賴於多種記憶系統。記憶一方面是基於強化學習的機理,即對經歷的大量動作及其反饋值進行學習總結。另一方面是基於個例學習的機理,即對經歷的個例進行快速編碼和存儲,這種記憶,也稱為情景記憶,它的形成主要與海馬區有關。最近深度學習和強化學習的結合——深度強化學習取【10 11】得了很大的突破,比如眾所周知的阿法狗的核心技術就是深度強化學習。深度學習和強化學習的結合存在兩個主要問題:第一是深度學習需要大量獨立的樣本,而強化學習中的樣本都是高度相關的狀態序列;第二是深度學習需要樣本滿足潛在分佈,而強化學習中樣本的分佈隨著學習過程而變化。為了解決訓練樣本高度相關以及樣本分佈不穩定的問題,研究人員提出了經驗回放機制(experience replay),即對經歷過的所有個例樣本進行間隔採樣獲得訓練數據。這種經驗回放機制直接來源於對哺乳類動物大腦中多種記憶系統相互作用的研究。在哺乳類動物大腦中,首先海馬區會對見到的個例信息進行編碼,當進入休眠態時,這些編碼會被整合到新皮質中,這個整合過程就是一種經驗回放的過程。最近的研究表明【12】,當回放更多高回報的個例樣本時,DQN(Deep Q-learning)中的經驗回放機制能取得更好的效果。這與海馬區更喜歡回放更多具有高回報的個例的現象是一致的。

3.3 工作記憶

人類智能與工作記憶緊密相關。所謂工作記憶就是在對信息進行臨時保存的同時對信息進行操作。經典的認知理論認為工作記憶是通過一箇中心控制器和多個獨立的、與特定任務相關的記憶緩存器來完成的【13】。AI研究人員基於這一機理提出了能夠在較長時間內保存歷史狀態信息的模型,其中循環神經網絡(RNN)【14】就是一個典型。在循環神經網絡的基礎上,研究人員進一步提出了長短時記憶網絡(LSTM)【15】,在序列建模領域取得很好的性能。值得注意的是,LSTM網絡和工作記憶模型並不完全相同。在普通的LSTM網絡中,序列的控制和記憶的存儲是混在一起的。但在工作記憶模型中,序列控制和記憶存儲是分開實現的,所以這就導致了更復雜的微分神經計算機(DNC)模型【16 17】的產生。在微分神經計算機中,序列控制和記憶存儲分別使用了不同的模塊。它包括了一個神經網絡控制器模塊,神經網絡控制器能從外部存儲模塊中讀寫矩陣,並且可以進行端對端的訓練,能夠完成一系列更復雜的記憶和推理任務。

3.4 持續學習

一個智能體必須具備持續學習的能力。所謂持續學習,是指當學習新的任務時不能忘記之前已學習到的任務。很顯然,大部分的神經網絡並不具備這種能力,因為當網絡在訓練時,之前學習得到的參數都會被不斷更新。利用先進的神經影像技術,神經科學家發現人類之所以在學習新任務的同時能夠防止之前學習到的任務不被破壞,一個主要原因是已經學習好的那部分神經網絡的突觸可塑性降低。基於這個機理,研究人員提出了能夠進行持續學習的彈性權重鞏固(elastic weight consolidation,EWC)算法【18】。算法的核心思想是,在學習新任務時,算法會降低那部分對某個學習任務十分重要的子網絡的學習速度,因此保留了網絡對之前任務的處理能力。


4 未來

4.1 對物質世界的直觀理解

與人相比,機器缺少與物質世界中核心概念有關的常識。比如空間、物體。這些常識構成了人類對物體間基本關係的認識,從而有利於人類的推理和預測。因此構建一種能夠將場景分解為物體和物體間關係進而解釋和推理物理場景的神經網絡十分重要【19】。現在已經有工作在進行這方面研究【20 21 22】,它們通過將場景分解為物體和物體關係從而建立了一種能夠解釋和推理的神經網絡模型,在一些推理任務上取得了人類水平的表現。另外,深度生成模型也是一個值得探索的方向,它在利用原始感知數據構建豐富的物體模型方面有重要的作用【23】。

4.2 高效學習

利用先驗知識從少量樣本中快速學習新的概念是人類獨特的能力。為了研究機器的這種高效學習能力,Lake等人設計了一個字符識別的任務【24】。在任務中,機器在學習了單個示例後,必須將一個新的不熟悉的字符從其他類似的字符中區分出來。顯然,目前的機器在還沒有具備這種理解能力。值得慶幸的是,最近對結構化的概率模型【25】和深度生成模型【26】的研究將有助於機器獲得這種能力,這兩種模型能從少量樣本中學習到新的概念,從單個示例學習中生成數據分佈。同樣,這種基於小樣本的學習算法可以在神經科學關於動物學習的研究以及發展心理學研究中找到靈感【27】。

4.3 遷移學習

人類能夠將學到的知識推廣到其他之前沒有接觸過的概念上,比如一個使用過Windows系統的人很容易就學會使用其他操作系統。目前的研究正在讓機器也獲得這種遷移學習的能力。比如基於成分表徵【23】的方法,它能夠讓識別出在訓練數據分佈以外的新樣本。還有漸進網絡,它能夠被成功地用於將模擬機器人環境的知識轉移到真正的機器人手臂上,大大減少了在現實世界所需的訓練時間【28】。神經科學的觀點認為,遷移學習的一個標誌是具備進行關係推理的能力,研究人員也在開始建立解決這類問題的深度神經網絡【29】。但由於人類進行遷移學習的神經機理仍然不是很清楚,所以這方面的研究還有待更多的工作投入。

4.4 想象與規劃

儘管基於最大化期望價值的深度強化學習已經取得很好的性能,但這種與模型無關(model-free)的強化學習仍存在兩個問題:首先它需要大量的經驗才能對價值進行準確地估計;其次它的策略對價值的變化太敏感,不夠靈活。相反,人類可以使用基於模擬的規劃(simulation-based planning)來靈活地選擇策略以最大化未來長期價值。這種基於模擬的規劃使用經驗對環境建立內部模型【30】,並以此生成規劃。當然,研究人員也借鑑這種機理建立了基於模型(model-based)以及基於模擬的的強化學習方法,如蒙特卡洛樹搜索(MCTS)【31】。但是,目前的規劃算法還沒有捕捉到人類規劃能力中核心的特點。要解決這個問題,我們需要充分地理解動物怎樣從經驗中學習並建立針對環境的內部模型。神經科學家對動物怎樣基於現有狀態想象未來可能的情景以及如何進行基於模擬的規劃進行了研究。比如,當處於選擇猶豫時,大鼠海馬區的神經活動與進行路徑導航時的神經活動相似,好像它正在想象各種可能的方案。這表明動物通過實例化一個環境內部模型,即想象可能的場景,然後對這個場景進行評價,從而獲得完成規劃任務【32】。目前,基於模擬的規劃取得的初步成果有基於深度生成模型【22 26 33】的方法。它能夠生成時間一致的序列樣本,這些樣本能夠反映最近經歷過的現實環境的幾何佈局。這一算法思想與神經科學的結論也是一致的。

4.5 虛擬大腦分析

目前,雖然深度學習和深度強化學習取得了突破式的性能,但對我們來說它們還相當於一個黑盒子,我們無法解釋它們的內部表達和計算機理。通過借鑑神經科學中的探測技術,比如單細胞記錄、神經影像、切除技術等,有助於我們分析神經網絡,更好的解釋模型。最近這方面的研究取得了一些進展。首先,神經科學中通過降維來可視化大腦內部狀態的方法被用來分析神經網絡【34】。其次,感受野映射的方法被用來分析神經網絡中單個神經元的響應特性,其中一個典型的應用就是激活最大化,它通過最大化確定類別神經元的響應來合成圖像【35】。另外,受神經科學啟發的線性化網絡分析方法可以揭示一些對網絡優化有利的重要準則,有助於理解網絡深度和表達結構的作用【36】。雖然這些工作是有效的,但是理解結構更復雜的網絡仍然十分困難,比如帶有外部存儲的網絡結構。這些研究仍然需要進一步借鑑神經科學。


5 結束語

在本文中,我們回顧了神經科學對人工智能的歷史貢獻,指出了當下四個可以從神經科學中獲得啟發的人工智能研究點,展望了未來神經科學將在五個方面進一步促進人工智能的發展。最後,我們認為神經科學對人工智能的促進作用將日益顯著,而神經科學和人工智能的相互借鑑將加速兩個領域的發展。


6 參考文獻

Hassabis D, Kumaran D, Summerfield C, et al. Neuroscience-Inspired Artificial Intelligence[J]. Neuron, 2017, 95(2):245-258.


7 推薦文獻

1 LeCun, Y.,Bengio, Y., and Hinton, G. (2015). Deep learning. Nature 521,436–444.

2 McCulloch,W., and Pitts, W. (1943). A logical calculus of ideas immanent in nervousactivity. Bull. Math. Biophys. 5, 115–133.

3 LeCun, Y.,Boser, B., Denker, J.S., Henderson, D., Howard, R.E., Hubbard, W., and Jackel,L.D. (1989). Backpropagation applied to handwritten zip code recognition.Neural Comput. 1, 541–551.

4 Krizhevsky,A., Sutskever, I., and Hinton, G. (2012). ImageNet classification with deepconvolutional neural networks. In Advances in Neural Information ProcessingSystems 25, pp. 1097–1105.

5 Hinton,G.E., Srivastava, N., Krizhevsky, A., Sutskever, I., and Salakhutdinov, R.R.(2012). Improving neural networks by preventing co-adaptation of feature detectors.arXiv, arXiv:12070580.

6 Sutton, R.,and Barto, A. (1998). Reinforcement Learning (MIT Press).

7 Moore, T.,and Zirnsak, M. (2017). Neural mechanisms of selective visual attention. Annu.Rev. Psychol. 68, 47–72.

8 Mnih, V.,Heess, N., Graves, A., and Kavukcuoglu, K. (2014). Recurrent models of visualattention. arXiv, arXiv:14066247.

9 Ba, J.L.,Mnih, V., and Kavukcuoglu, K. (2015). Multiple object recognition with visualattention. arXiv, arXiv:14127755.

10 Mnih, V.,Kavukcuoglu, K., Silver, D., Rusu, A.A., Veness, J., Bellemare, M.G., Graves,A., Riedmiller, M., Fidjeland, A.K., Ostrovski, G., et al. (2015). Humanlevelcontrol through deep reinforcement learning. Nature 518, 529–533.

11 Silver, D.,Huang, A., Maddison, C.J., Guez, A., Sifre, L., van den Driessche, G., Schrittwieser,J., Antonoglou, I., Panneershelvam, V., Lanctot, M., et al. (2016). Masteringthe game of Go with deep neural networks and tree search. Nature 529, 484–489.

12 Schaul, T.,Quan, J., Antonoglou, I., and Silver, D. (2015). Prioritized experience replay.bioRxiv, arXiv:1511.05952

13 Baddeley,A. (2012). Working memory: theories, models, and controversies. Annu. Rev.Psychol. 63, 1–29.

14 Botvinick,M.M., and Plaut, D.C. (2006). Short-term memory for serial order: a recurrentneural network model. Psychol. Rev. 113, 201–233.

15 Hochreiter,S., and Schmidhuber, J. (1997). Long short-term memory. Neural Comput. 9,1735–1780.

16 Graves, A.,Wayne, G., and Danihelka, I. (2014). Neural turing machines. arXiv, arXiv:1410.5401.

17 Graves, A.,Wayne, G., Reynolds, M., Harley, T., Danihelka, I., Grabska-Barwinska, A.,Colmenarejo, S.G., Grefenstette, E., Ramalho, T., Agapiou, J., et al. (2016). Hybrid computing using a neuralnetwork with dynamic external memory. Nature 538, 471–476.

18 Kirkpatrick, J., Pascanu, R., Rabinowitz, N., Veness, J., Desjardins, G., Rusu,A.A., Milan, K., Quan, J., Ramalho, T., Grabska-Barwinska, A., et al. (2017). Overcomingcatastrophic forgetting in neural networks. Proc. Natl. Acad.Sci. USA 114,3521–3526.

19 Battaglia,P.W., Hamrick, J.B., and Tenenbaum, J.B. (2013). Simulation as an engine ofphysical scene understanding. Proc. Natl. Acad. Sci. USA 110,18327–18332.

20 Battaglia,P., Pascanu, R., Lai, M., Rezende, D., and Kavukcuoglu, K. (2016). Interactionnetworks for learning about objects, relations and physics. arXiv, arXiv:161200222.

21 Chang,M.B., Ullman, T., Torralba, A., and Tenenbaum, J.B. (2016). A compositionalobject-based approach to learning physical dynamics. arXiv,arXiv:161200341.

22 Eslami, A.,Heess, N., Weber, T.Y.T., Szepesvari, D., Kavukcuoglu, K., and Hinton, G.(2016). Attend, infer, repeat: fast scene understanding with generative models.arXiv, arXiv:160308575

23 Higgins,I., Matthey, L., Glorot, X., Pal, A., Uria, B., Blundell, C., Mohamed, S., andLerchner, A. (2016). Early visual concept learning with unsupervised deep learning.arXiv, arXiv:160605579.

24 Lake, B.M.,Ullman, T.D., Tenenbaum, J.B., and Gershman, S.J. (2016). Building machinesthat learn and think like people. arXiv, arXiv:1604.00289.

25 Lake, B.M.,Salakhutdinov, R., and Tenenbaum, J.B. (2015). Human-level concept learningthrough probabilistic program induction. Science 350, 1332–1338.

26 Rezende, D.,Mohamed, S., Danihelka, I., Gregor, K., and Wierstra, D. (2016b). One-shotgeneralization in deep generative models. arXiv, arXiv:160305106.

27 Kemp, C.,Goodman, N.D., and Tenenbaum, J.B. (2010). Learning to learn causal models.Cogn. Sci. 34, 1185–1243.

28 Rusu, A.A.,Vecerik, M., Rothorl, T., Heess, N., Pascanu, R., and Hadsell, R. (2016).Sim-to-real robot learning from pixels with progressive nets. arXiv, arXiv:161004286.

29 Reed, S.,Zhang, Y., Zhang, Y., and Lee, S. (2015). Deep visual analogymaking. In NIPS’15Proceedings of the 28th International Conference on Neural Information ProcessingSystems, pp. 1252–1260.

30 Dolan,R.J., and Dayan, P. (2013). Goals and habits in the brain. Neuron 80, 312–325

31 Browne, C.,Powley, E., Whitehouse, D., Lucas, S.M., Cowling, P.I., Rohlfshagen, P.,Tavener, S., Perez, D., Samothrakis, S., and Colton, S. (2012). A survey ofMonte-Carlo tree search methods. IEEE Trans. Comput. Intell. AI Games 4, 1–43

32 Redish,A.D. (2016). Vicarious trial and error. Nat. Rev. Neurosci. 17, 147–159.

33 Gemici, M.,Hung, C., Santoro, A., Wayne, G., Mohamed, S., Rezende, D., Amos, D., andLillicrap, T. (2017). Generative temporal models with memory. arXiv,arXiv:170204649.

34 Zahavy, T.,Zrihem, N.B., and Mannor, S. (2016). Graying the black box: understanding DQNs.arXiv, arXiv:160202658.

35 Nguyen, A.,Dosovitskiy, A., Yosinski, J., Borx, T., and Clune, J. (2016). Synthesizing the preferred inputs for neurons in neural networks via deep generator networks.arXiv, arXiv:160509304.

36 Saxe, A.M.,Ganguli, S., and McClelland, J.L. (2013). Exact solutions to the nonlineardynamics of learning in deep linear neural networks. arXiv, arXiv:13126120v3.

AI綜述專欄 | 神經科學啟發的人工智能

點擊上方圖片 或 掃描上方二維碼報名

AI綜述專欄 | 神經科學啟發的人工智能

相關推薦

推薦中...