'類人連續學習及情境依賴學習研究取得進展'

算法 人工智能 深度學習 歷史 餘山 量子之聲 2019-08-18
"

中國科學院自動化研究所腦網絡組研究中心與模式識別國家重點實驗室團隊提出正交權重修改算法,與情境信息處理模塊相結合,使人工神經網絡具備了強大的連續學習和情境依賴學習能力,有效解決災難性遺忘等難題。相關成果已在線發表於Nature Machine Intelligence

人工智能已成為21世紀最具挑戰性的前沿科學領域之一,但究竟什麼是“智能”?可以確定的是,個體對複雜、動態環境的高適應性是智能的重要標誌。

人類大腦顯然是高環境適應性的典範。人不僅可以在新的環境中不斷吸收新的知識,而且可以根據不同的環境靈活調整自己的行為。在此方面,深度神經網絡(deep neural networks,DNN)與大腦相比存在著很大的差距。傳統DNN一方面會受到“災難性遺忘”問題的困擾,難以在學習新知識的同時保留舊知識,即缺少連續學習(continual learning)的能力;另一方面,DNN往往只能實現預先訓練好的固定操作,不能對實際環境中存在情境信息(比如自身狀態、環境變化、任務變化等)做出靈活的響應,難以滿足複雜多變的需求,即缺少情境依賴學習(contextual-dependent learning)的能力。這兩方面能力的缺失是制約當前DNN發展出高水平智能的重要瓶頸。

近日,自動化所腦網絡組研究中心與模式識別國家重點實驗室餘山課題組在克服上述兩個核心問題方面取得新進展,為提高人工智能系統對於複雜多變環境的適應性提出了新的思路和方案。在Continual Learning of Context-dependent Processing in Neural Networks 一文中,碩士生曾冠雄、博士後陳陽等提出了正交權重修改(orthogonal weights modification,OWM)算法和情境依賴處理(context-dependent processing,CDP)模塊。OWM算法可以有效克服神經網絡中的災難性遺忘,實現連續學習;受大腦前額葉皮層啟發的CDP模塊可以有效整合情境信息,調製神經網絡的信息處理過程。二者的有效結合,使人工神經網絡具備了強大的連續學習和情境依賴學習的能力,大大增加了其靈活性和適應性。

OWM算法的核心思想為:在學習新任務時,只在舊任務輸入空間正交的方向上修改神經網絡權重。如此,權重增量幾乎不與以往任務的輸入發生作用,從而保證網絡在新任務訓練過程中搜索到的解,仍處在以往任務的解空間中。OWM通過正交投影算子P與誤差反傳算法得到的權重增量△WBP作用實現其目的,即最終的權重增量為△W=κP△WBP

OWM算法實現了對網絡中已有知識的有效保護,並可以與現有梯度反傳算法完全兼容,在連續學習測試任務中表現出了良好的性能。在連續學習的標準任務disjoint MNIST與shuffled MNIST任務中,OWM算法的表現超過了同類的其他算法。並且,隨著學習的任務數目增加,OWM算法的性能優勢會進一步加大。利用OWM算法,神經網絡可以連續學習識別ImageNet的1000類圖片和3755箇中文手寫體漢字(每個任務僅訓練一類圖片或一個漢字)。值得一提的是,算法具有優良的小樣本學習能力,以手寫體漢字識別為例,基於預訓練的特徵提取器,系統可以從僅僅數個正樣本中就能連續地學習新的漢字。

CDP模塊則是受前額葉皮層啟發提出的。前額葉是大腦中負責認知控制的核心皮層。其同時接收感官輸入和情境信號,並選擇與當前任務最相關的感官信號指導輸出響應。受此啟發,作者引入了類似的處理架構——CDP模塊,它包括兩個子模塊:1.編碼子模塊,其負責將情境信息編碼為適當的控制信號;2.“旋轉”子模塊,其利用編碼模塊的控制信號處理任務輸入(由於其功能上相當於將特徵向量在高維空間上進行了旋轉,故稱為“旋轉”子模塊)。

若將CDP模塊與OWM算法聯合使用,神經網絡只需要一個分類器,就可以連續學習40種不同的臉部特徵的識別任務。並且,當不同的提示信號出現時,其對相應的特徵做出判斷,效果與引入40個分類器的情況相當。

通過OWM算法有效克服災難性遺忘,並通過CDP模塊實現單個網絡基於情境信號的多任務學習,二者結合有望讓智能體通過連續不斷的學習去適應複雜多變的環境,從而逐步逼近更高水平的智能。

"

中國科學院自動化研究所腦網絡組研究中心與模式識別國家重點實驗室團隊提出正交權重修改算法,與情境信息處理模塊相結合,使人工神經網絡具備了強大的連續學習和情境依賴學習能力,有效解決災難性遺忘等難題。相關成果已在線發表於Nature Machine Intelligence

人工智能已成為21世紀最具挑戰性的前沿科學領域之一,但究竟什麼是“智能”?可以確定的是,個體對複雜、動態環境的高適應性是智能的重要標誌。

人類大腦顯然是高環境適應性的典範。人不僅可以在新的環境中不斷吸收新的知識,而且可以根據不同的環境靈活調整自己的行為。在此方面,深度神經網絡(deep neural networks,DNN)與大腦相比存在著很大的差距。傳統DNN一方面會受到“災難性遺忘”問題的困擾,難以在學習新知識的同時保留舊知識,即缺少連續學習(continual learning)的能力;另一方面,DNN往往只能實現預先訓練好的固定操作,不能對實際環境中存在情境信息(比如自身狀態、環境變化、任務變化等)做出靈活的響應,難以滿足複雜多變的需求,即缺少情境依賴學習(contextual-dependent learning)的能力。這兩方面能力的缺失是制約當前DNN發展出高水平智能的重要瓶頸。

近日,自動化所腦網絡組研究中心與模式識別國家重點實驗室餘山課題組在克服上述兩個核心問題方面取得新進展,為提高人工智能系統對於複雜多變環境的適應性提出了新的思路和方案。在Continual Learning of Context-dependent Processing in Neural Networks 一文中,碩士生曾冠雄、博士後陳陽等提出了正交權重修改(orthogonal weights modification,OWM)算法和情境依賴處理(context-dependent processing,CDP)模塊。OWM算法可以有效克服神經網絡中的災難性遺忘,實現連續學習;受大腦前額葉皮層啟發的CDP模塊可以有效整合情境信息,調製神經網絡的信息處理過程。二者的有效結合,使人工神經網絡具備了強大的連續學習和情境依賴學習的能力,大大增加了其靈活性和適應性。

OWM算法的核心思想為:在學習新任務時,只在舊任務輸入空間正交的方向上修改神經網絡權重。如此,權重增量幾乎不與以往任務的輸入發生作用,從而保證網絡在新任務訓練過程中搜索到的解,仍處在以往任務的解空間中。OWM通過正交投影算子P與誤差反傳算法得到的權重增量△WBP作用實現其目的,即最終的權重增量為△W=κP△WBP

OWM算法實現了對網絡中已有知識的有效保護,並可以與現有梯度反傳算法完全兼容,在連續學習測試任務中表現出了良好的性能。在連續學習的標準任務disjoint MNIST與shuffled MNIST任務中,OWM算法的表現超過了同類的其他算法。並且,隨著學習的任務數目增加,OWM算法的性能優勢會進一步加大。利用OWM算法,神經網絡可以連續學習識別ImageNet的1000類圖片和3755箇中文手寫體漢字(每個任務僅訓練一類圖片或一個漢字)。值得一提的是,算法具有優良的小樣本學習能力,以手寫體漢字識別為例,基於預訓練的特徵提取器,系統可以從僅僅數個正樣本中就能連續地學習新的漢字。

CDP模塊則是受前額葉皮層啟發提出的。前額葉是大腦中負責認知控制的核心皮層。其同時接收感官輸入和情境信號,並選擇與當前任務最相關的感官信號指導輸出響應。受此啟發,作者引入了類似的處理架構——CDP模塊,它包括兩個子模塊:1.編碼子模塊,其負責將情境信息編碼為適當的控制信號;2.“旋轉”子模塊,其利用編碼模塊的控制信號處理任務輸入(由於其功能上相當於將特徵向量在高維空間上進行了旋轉,故稱為“旋轉”子模塊)。

若將CDP模塊與OWM算法聯合使用,神經網絡只需要一個分類器,就可以連續學習40種不同的臉部特徵的識別任務。並且,當不同的提示信號出現時,其對相應的特徵做出判斷,效果與引入40個分類器的情況相當。

通過OWM算法有效克服災難性遺忘,並通過CDP模塊實現單個網絡基於情境信號的多任務學習,二者結合有望讓智能體通過連續不斷的學習去適應複雜多變的環境,從而逐步逼近更高水平的智能。

類人連續學習及情境依賴學習研究取得進展


OWM算法原理示意圖。(a): 在權重更新時,OWM算法只保留傳統BP算法計算的權重增量中與歷史任務輸入空間正交的部分。(b): 在新任務中,OWM算法將神經網絡對解的搜索範圍約束在舊任務的解空間中。

"

中國科學院自動化研究所腦網絡組研究中心與模式識別國家重點實驗室團隊提出正交權重修改算法,與情境信息處理模塊相結合,使人工神經網絡具備了強大的連續學習和情境依賴學習能力,有效解決災難性遺忘等難題。相關成果已在線發表於Nature Machine Intelligence

人工智能已成為21世紀最具挑戰性的前沿科學領域之一,但究竟什麼是“智能”?可以確定的是,個體對複雜、動態環境的高適應性是智能的重要標誌。

人類大腦顯然是高環境適應性的典範。人不僅可以在新的環境中不斷吸收新的知識,而且可以根據不同的環境靈活調整自己的行為。在此方面,深度神經網絡(deep neural networks,DNN)與大腦相比存在著很大的差距。傳統DNN一方面會受到“災難性遺忘”問題的困擾,難以在學習新知識的同時保留舊知識,即缺少連續學習(continual learning)的能力;另一方面,DNN往往只能實現預先訓練好的固定操作,不能對實際環境中存在情境信息(比如自身狀態、環境變化、任務變化等)做出靈活的響應,難以滿足複雜多變的需求,即缺少情境依賴學習(contextual-dependent learning)的能力。這兩方面能力的缺失是制約當前DNN發展出高水平智能的重要瓶頸。

近日,自動化所腦網絡組研究中心與模式識別國家重點實驗室餘山課題組在克服上述兩個核心問題方面取得新進展,為提高人工智能系統對於複雜多變環境的適應性提出了新的思路和方案。在Continual Learning of Context-dependent Processing in Neural Networks 一文中,碩士生曾冠雄、博士後陳陽等提出了正交權重修改(orthogonal weights modification,OWM)算法和情境依賴處理(context-dependent processing,CDP)模塊。OWM算法可以有效克服神經網絡中的災難性遺忘,實現連續學習;受大腦前額葉皮層啟發的CDP模塊可以有效整合情境信息,調製神經網絡的信息處理過程。二者的有效結合,使人工神經網絡具備了強大的連續學習和情境依賴學習的能力,大大增加了其靈活性和適應性。

OWM算法的核心思想為:在學習新任務時,只在舊任務輸入空間正交的方向上修改神經網絡權重。如此,權重增量幾乎不與以往任務的輸入發生作用,從而保證網絡在新任務訓練過程中搜索到的解,仍處在以往任務的解空間中。OWM通過正交投影算子P與誤差反傳算法得到的權重增量△WBP作用實現其目的,即最終的權重增量為△W=κP△WBP

OWM算法實現了對網絡中已有知識的有效保護,並可以與現有梯度反傳算法完全兼容,在連續學習測試任務中表現出了良好的性能。在連續學習的標準任務disjoint MNIST與shuffled MNIST任務中,OWM算法的表現超過了同類的其他算法。並且,隨著學習的任務數目增加,OWM算法的性能優勢會進一步加大。利用OWM算法,神經網絡可以連續學習識別ImageNet的1000類圖片和3755箇中文手寫體漢字(每個任務僅訓練一類圖片或一個漢字)。值得一提的是,算法具有優良的小樣本學習能力,以手寫體漢字識別為例,基於預訓練的特徵提取器,系統可以從僅僅數個正樣本中就能連續地學習新的漢字。

CDP模塊則是受前額葉皮層啟發提出的。前額葉是大腦中負責認知控制的核心皮層。其同時接收感官輸入和情境信號,並選擇與當前任務最相關的感官信號指導輸出響應。受此啟發,作者引入了類似的處理架構——CDP模塊,它包括兩個子模塊:1.編碼子模塊,其負責將情境信息編碼為適當的控制信號;2.“旋轉”子模塊,其利用編碼模塊的控制信號處理任務輸入(由於其功能上相當於將特徵向量在高維空間上進行了旋轉,故稱為“旋轉”子模塊)。

若將CDP模塊與OWM算法聯合使用,神經網絡只需要一個分類器,就可以連續學習40種不同的臉部特徵的識別任務。並且,當不同的提示信號出現時,其對相應的特徵做出判斷,效果與引入40個分類器的情況相當。

通過OWM算法有效克服災難性遺忘,並通過CDP模塊實現單個網絡基於情境信號的多任務學習,二者結合有望讓智能體通過連續不斷的學習去適應複雜多變的環境,從而逐步逼近更高水平的智能。

類人連續學習及情境依賴學習研究取得進展


OWM算法原理示意圖。(a): 在權重更新時,OWM算法只保留傳統BP算法計算的權重增量中與歷史任務輸入空間正交的部分。(b): 在新任務中,OWM算法將神經網絡對解的搜索範圍約束在舊任務的解空間中。

類人連續學習及情境依賴學習研究取得進展


在連續學習MNIST手寫體數字0-9的任務中,隨著任務數目的增加,OWM算法的優勢也愈加明顯。同時,任務的學習順序會對個別任務產生影響。如先學數字4和7,會顯著提升數字9的識別正確率。

"

中國科學院自動化研究所腦網絡組研究中心與模式識別國家重點實驗室團隊提出正交權重修改算法,與情境信息處理模塊相結合,使人工神經網絡具備了強大的連續學習和情境依賴學習能力,有效解決災難性遺忘等難題。相關成果已在線發表於Nature Machine Intelligence

人工智能已成為21世紀最具挑戰性的前沿科學領域之一,但究竟什麼是“智能”?可以確定的是,個體對複雜、動態環境的高適應性是智能的重要標誌。

人類大腦顯然是高環境適應性的典範。人不僅可以在新的環境中不斷吸收新的知識,而且可以根據不同的環境靈活調整自己的行為。在此方面,深度神經網絡(deep neural networks,DNN)與大腦相比存在著很大的差距。傳統DNN一方面會受到“災難性遺忘”問題的困擾,難以在學習新知識的同時保留舊知識,即缺少連續學習(continual learning)的能力;另一方面,DNN往往只能實現預先訓練好的固定操作,不能對實際環境中存在情境信息(比如自身狀態、環境變化、任務變化等)做出靈活的響應,難以滿足複雜多變的需求,即缺少情境依賴學習(contextual-dependent learning)的能力。這兩方面能力的缺失是制約當前DNN發展出高水平智能的重要瓶頸。

近日,自動化所腦網絡組研究中心與模式識別國家重點實驗室餘山課題組在克服上述兩個核心問題方面取得新進展,為提高人工智能系統對於複雜多變環境的適應性提出了新的思路和方案。在Continual Learning of Context-dependent Processing in Neural Networks 一文中,碩士生曾冠雄、博士後陳陽等提出了正交權重修改(orthogonal weights modification,OWM)算法和情境依賴處理(context-dependent processing,CDP)模塊。OWM算法可以有效克服神經網絡中的災難性遺忘,實現連續學習;受大腦前額葉皮層啟發的CDP模塊可以有效整合情境信息,調製神經網絡的信息處理過程。二者的有效結合,使人工神經網絡具備了強大的連續學習和情境依賴學習的能力,大大增加了其靈活性和適應性。

OWM算法的核心思想為:在學習新任務時,只在舊任務輸入空間正交的方向上修改神經網絡權重。如此,權重增量幾乎不與以往任務的輸入發生作用,從而保證網絡在新任務訓練過程中搜索到的解,仍處在以往任務的解空間中。OWM通過正交投影算子P與誤差反傳算法得到的權重增量△WBP作用實現其目的,即最終的權重增量為△W=κP△WBP

OWM算法實現了對網絡中已有知識的有效保護,並可以與現有梯度反傳算法完全兼容,在連續學習測試任務中表現出了良好的性能。在連續學習的標準任務disjoint MNIST與shuffled MNIST任務中,OWM算法的表現超過了同類的其他算法。並且,隨著學習的任務數目增加,OWM算法的性能優勢會進一步加大。利用OWM算法,神經網絡可以連續學習識別ImageNet的1000類圖片和3755箇中文手寫體漢字(每個任務僅訓練一類圖片或一個漢字)。值得一提的是,算法具有優良的小樣本學習能力,以手寫體漢字識別為例,基於預訓練的特徵提取器,系統可以從僅僅數個正樣本中就能連續地學習新的漢字。

CDP模塊則是受前額葉皮層啟發提出的。前額葉是大腦中負責認知控制的核心皮層。其同時接收感官輸入和情境信號,並選擇與當前任務最相關的感官信號指導輸出響應。受此啟發,作者引入了類似的處理架構——CDP模塊,它包括兩個子模塊:1.編碼子模塊,其負責將情境信息編碼為適當的控制信號;2.“旋轉”子模塊,其利用編碼模塊的控制信號處理任務輸入(由於其功能上相當於將特徵向量在高維空間上進行了旋轉,故稱為“旋轉”子模塊)。

若將CDP模塊與OWM算法聯合使用,神經網絡只需要一個分類器,就可以連續學習40種不同的臉部特徵的識別任務。並且,當不同的提示信號出現時,其對相應的特徵做出判斷,效果與引入40個分類器的情況相當。

通過OWM算法有效克服災難性遺忘,並通過CDP模塊實現單個網絡基於情境信號的多任務學習,二者結合有望讓智能體通過連續不斷的學習去適應複雜多變的環境,從而逐步逼近更高水平的智能。

類人連續學習及情境依賴學習研究取得進展


OWM算法原理示意圖。(a): 在權重更新時,OWM算法只保留傳統BP算法計算的權重增量中與歷史任務輸入空間正交的部分。(b): 在新任務中,OWM算法將神經網絡對解的搜索範圍約束在舊任務的解空間中。

類人連續學習及情境依賴學習研究取得進展


在連續學習MNIST手寫體數字0-9的任務中,隨著任務數目的增加,OWM算法的優勢也愈加明顯。同時,任務的學習順序會對個別任務產生影響。如先學數字4和7,會顯著提升數字9的識別正確率。

類人連續學習及情境依賴學習研究取得進展


OWM算法在ImageNet和中文手寫體漢字識別的連續學習任務上體現出優良的性能

"

中國科學院自動化研究所腦網絡組研究中心與模式識別國家重點實驗室團隊提出正交權重修改算法,與情境信息處理模塊相結合,使人工神經網絡具備了強大的連續學習和情境依賴學習能力,有效解決災難性遺忘等難題。相關成果已在線發表於Nature Machine Intelligence

人工智能已成為21世紀最具挑戰性的前沿科學領域之一,但究竟什麼是“智能”?可以確定的是,個體對複雜、動態環境的高適應性是智能的重要標誌。

人類大腦顯然是高環境適應性的典範。人不僅可以在新的環境中不斷吸收新的知識,而且可以根據不同的環境靈活調整自己的行為。在此方面,深度神經網絡(deep neural networks,DNN)與大腦相比存在著很大的差距。傳統DNN一方面會受到“災難性遺忘”問題的困擾,難以在學習新知識的同時保留舊知識,即缺少連續學習(continual learning)的能力;另一方面,DNN往往只能實現預先訓練好的固定操作,不能對實際環境中存在情境信息(比如自身狀態、環境變化、任務變化等)做出靈活的響應,難以滿足複雜多變的需求,即缺少情境依賴學習(contextual-dependent learning)的能力。這兩方面能力的缺失是制約當前DNN發展出高水平智能的重要瓶頸。

近日,自動化所腦網絡組研究中心與模式識別國家重點實驗室餘山課題組在克服上述兩個核心問題方面取得新進展,為提高人工智能系統對於複雜多變環境的適應性提出了新的思路和方案。在Continual Learning of Context-dependent Processing in Neural Networks 一文中,碩士生曾冠雄、博士後陳陽等提出了正交權重修改(orthogonal weights modification,OWM)算法和情境依賴處理(context-dependent processing,CDP)模塊。OWM算法可以有效克服神經網絡中的災難性遺忘,實現連續學習;受大腦前額葉皮層啟發的CDP模塊可以有效整合情境信息,調製神經網絡的信息處理過程。二者的有效結合,使人工神經網絡具備了強大的連續學習和情境依賴學習的能力,大大增加了其靈活性和適應性。

OWM算法的核心思想為:在學習新任務時,只在舊任務輸入空間正交的方向上修改神經網絡權重。如此,權重增量幾乎不與以往任務的輸入發生作用,從而保證網絡在新任務訓練過程中搜索到的解,仍處在以往任務的解空間中。OWM通過正交投影算子P與誤差反傳算法得到的權重增量△WBP作用實現其目的,即最終的權重增量為△W=κP△WBP

OWM算法實現了對網絡中已有知識的有效保護,並可以與現有梯度反傳算法完全兼容,在連續學習測試任務中表現出了良好的性能。在連續學習的標準任務disjoint MNIST與shuffled MNIST任務中,OWM算法的表現超過了同類的其他算法。並且,隨著學習的任務數目增加,OWM算法的性能優勢會進一步加大。利用OWM算法,神經網絡可以連續學習識別ImageNet的1000類圖片和3755箇中文手寫體漢字(每個任務僅訓練一類圖片或一個漢字)。值得一提的是,算法具有優良的小樣本學習能力,以手寫體漢字識別為例,基於預訓練的特徵提取器,系統可以從僅僅數個正樣本中就能連續地學習新的漢字。

CDP模塊則是受前額葉皮層啟發提出的。前額葉是大腦中負責認知控制的核心皮層。其同時接收感官輸入和情境信號,並選擇與當前任務最相關的感官信號指導輸出響應。受此啟發,作者引入了類似的處理架構——CDP模塊,它包括兩個子模塊:1.編碼子模塊,其負責將情境信息編碼為適當的控制信號;2.“旋轉”子模塊,其利用編碼模塊的控制信號處理任務輸入(由於其功能上相當於將特徵向量在高維空間上進行了旋轉,故稱為“旋轉”子模塊)。

若將CDP模塊與OWM算法聯合使用,神經網絡只需要一個分類器,就可以連續學習40種不同的臉部特徵的識別任務。並且,當不同的提示信號出現時,其對相應的特徵做出判斷,效果與引入40個分類器的情況相當。

通過OWM算法有效克服災難性遺忘,並通過CDP模塊實現單個網絡基於情境信號的多任務學習,二者結合有望讓智能體通過連續不斷的學習去適應複雜多變的環境,從而逐步逼近更高水平的智能。

類人連續學習及情境依賴學習研究取得進展


OWM算法原理示意圖。(a): 在權重更新時,OWM算法只保留傳統BP算法計算的權重增量中與歷史任務輸入空間正交的部分。(b): 在新任務中,OWM算法將神經網絡對解的搜索範圍約束在舊任務的解空間中。

類人連續學習及情境依賴學習研究取得進展


在連續學習MNIST手寫體數字0-9的任務中,隨著任務數目的增加,OWM算法的優勢也愈加明顯。同時,任務的學習順序會對個別任務產生影響。如先學數字4和7,會顯著提升數字9的識別正確率。

類人連續學習及情境依賴學習研究取得進展


OWM算法在ImageNet和中文手寫體漢字識別的連續學習任務上體現出優良的性能

類人連續學習及情境依賴學習研究取得進展


OWM實現漢字識別的小樣本連續學習

"

中國科學院自動化研究所腦網絡組研究中心與模式識別國家重點實驗室團隊提出正交權重修改算法,與情境信息處理模塊相結合,使人工神經網絡具備了強大的連續學習和情境依賴學習能力,有效解決災難性遺忘等難題。相關成果已在線發表於Nature Machine Intelligence

人工智能已成為21世紀最具挑戰性的前沿科學領域之一,但究竟什麼是“智能”?可以確定的是,個體對複雜、動態環境的高適應性是智能的重要標誌。

人類大腦顯然是高環境適應性的典範。人不僅可以在新的環境中不斷吸收新的知識,而且可以根據不同的環境靈活調整自己的行為。在此方面,深度神經網絡(deep neural networks,DNN)與大腦相比存在著很大的差距。傳統DNN一方面會受到“災難性遺忘”問題的困擾,難以在學習新知識的同時保留舊知識,即缺少連續學習(continual learning)的能力;另一方面,DNN往往只能實現預先訓練好的固定操作,不能對實際環境中存在情境信息(比如自身狀態、環境變化、任務變化等)做出靈活的響應,難以滿足複雜多變的需求,即缺少情境依賴學習(contextual-dependent learning)的能力。這兩方面能力的缺失是制約當前DNN發展出高水平智能的重要瓶頸。

近日,自動化所腦網絡組研究中心與模式識別國家重點實驗室餘山課題組在克服上述兩個核心問題方面取得新進展,為提高人工智能系統對於複雜多變環境的適應性提出了新的思路和方案。在Continual Learning of Context-dependent Processing in Neural Networks 一文中,碩士生曾冠雄、博士後陳陽等提出了正交權重修改(orthogonal weights modification,OWM)算法和情境依賴處理(context-dependent processing,CDP)模塊。OWM算法可以有效克服神經網絡中的災難性遺忘,實現連續學習;受大腦前額葉皮層啟發的CDP模塊可以有效整合情境信息,調製神經網絡的信息處理過程。二者的有效結合,使人工神經網絡具備了強大的連續學習和情境依賴學習的能力,大大增加了其靈活性和適應性。

OWM算法的核心思想為:在學習新任務時,只在舊任務輸入空間正交的方向上修改神經網絡權重。如此,權重增量幾乎不與以往任務的輸入發生作用,從而保證網絡在新任務訓練過程中搜索到的解,仍處在以往任務的解空間中。OWM通過正交投影算子P與誤差反傳算法得到的權重增量△WBP作用實現其目的,即最終的權重增量為△W=κP△WBP

OWM算法實現了對網絡中已有知識的有效保護,並可以與現有梯度反傳算法完全兼容,在連續學習測試任務中表現出了良好的性能。在連續學習的標準任務disjoint MNIST與shuffled MNIST任務中,OWM算法的表現超過了同類的其他算法。並且,隨著學習的任務數目增加,OWM算法的性能優勢會進一步加大。利用OWM算法,神經網絡可以連續學習識別ImageNet的1000類圖片和3755箇中文手寫體漢字(每個任務僅訓練一類圖片或一個漢字)。值得一提的是,算法具有優良的小樣本學習能力,以手寫體漢字識別為例,基於預訓練的特徵提取器,系統可以從僅僅數個正樣本中就能連續地學習新的漢字。

CDP模塊則是受前額葉皮層啟發提出的。前額葉是大腦中負責認知控制的核心皮層。其同時接收感官輸入和情境信號,並選擇與當前任務最相關的感官信號指導輸出響應。受此啟發,作者引入了類似的處理架構——CDP模塊,它包括兩個子模塊:1.編碼子模塊,其負責將情境信息編碼為適當的控制信號;2.“旋轉”子模塊,其利用編碼模塊的控制信號處理任務輸入(由於其功能上相當於將特徵向量在高維空間上進行了旋轉,故稱為“旋轉”子模塊)。

若將CDP模塊與OWM算法聯合使用,神經網絡只需要一個分類器,就可以連續學習40種不同的臉部特徵的識別任務。並且,當不同的提示信號出現時,其對相應的特徵做出判斷,效果與引入40個分類器的情況相當。

通過OWM算法有效克服災難性遺忘,並通過CDP模塊實現單個網絡基於情境信號的多任務學習,二者結合有望讓智能體通過連續不斷的學習去適應複雜多變的環境,從而逐步逼近更高水平的智能。

類人連續學習及情境依賴學習研究取得進展


OWM算法原理示意圖。(a): 在權重更新時,OWM算法只保留傳統BP算法計算的權重增量中與歷史任務輸入空間正交的部分。(b): 在新任務中,OWM算法將神經網絡對解的搜索範圍約束在舊任務的解空間中。

類人連續學習及情境依賴學習研究取得進展


在連續學習MNIST手寫體數字0-9的任務中,隨著任務數目的增加,OWM算法的優勢也愈加明顯。同時,任務的學習順序會對個別任務產生影響。如先學數字4和7,會顯著提升數字9的識別正確率。

類人連續學習及情境依賴學習研究取得進展


OWM算法在ImageNet和中文手寫體漢字識別的連續學習任務上體現出優良的性能

類人連續學習及情境依賴學習研究取得進展


OWM實現漢字識別的小樣本連續學習

類人連續學習及情境依賴學習研究取得進展


類前額葉的CDP模塊的結構設計。左上角是其工作原理示意圖。

"

中國科學院自動化研究所腦網絡組研究中心與模式識別國家重點實驗室團隊提出正交權重修改算法,與情境信息處理模塊相結合,使人工神經網絡具備了強大的連續學習和情境依賴學習能力,有效解決災難性遺忘等難題。相關成果已在線發表於Nature Machine Intelligence

人工智能已成為21世紀最具挑戰性的前沿科學領域之一,但究竟什麼是“智能”?可以確定的是,個體對複雜、動態環境的高適應性是智能的重要標誌。

人類大腦顯然是高環境適應性的典範。人不僅可以在新的環境中不斷吸收新的知識,而且可以根據不同的環境靈活調整自己的行為。在此方面,深度神經網絡(deep neural networks,DNN)與大腦相比存在著很大的差距。傳統DNN一方面會受到“災難性遺忘”問題的困擾,難以在學習新知識的同時保留舊知識,即缺少連續學習(continual learning)的能力;另一方面,DNN往往只能實現預先訓練好的固定操作,不能對實際環境中存在情境信息(比如自身狀態、環境變化、任務變化等)做出靈活的響應,難以滿足複雜多變的需求,即缺少情境依賴學習(contextual-dependent learning)的能力。這兩方面能力的缺失是制約當前DNN發展出高水平智能的重要瓶頸。

近日,自動化所腦網絡組研究中心與模式識別國家重點實驗室餘山課題組在克服上述兩個核心問題方面取得新進展,為提高人工智能系統對於複雜多變環境的適應性提出了新的思路和方案。在Continual Learning of Context-dependent Processing in Neural Networks 一文中,碩士生曾冠雄、博士後陳陽等提出了正交權重修改(orthogonal weights modification,OWM)算法和情境依賴處理(context-dependent processing,CDP)模塊。OWM算法可以有效克服神經網絡中的災難性遺忘,實現連續學習;受大腦前額葉皮層啟發的CDP模塊可以有效整合情境信息,調製神經網絡的信息處理過程。二者的有效結合,使人工神經網絡具備了強大的連續學習和情境依賴學習的能力,大大增加了其靈活性和適應性。

OWM算法的核心思想為:在學習新任務時,只在舊任務輸入空間正交的方向上修改神經網絡權重。如此,權重增量幾乎不與以往任務的輸入發生作用,從而保證網絡在新任務訓練過程中搜索到的解,仍處在以往任務的解空間中。OWM通過正交投影算子P與誤差反傳算法得到的權重增量△WBP作用實現其目的,即最終的權重增量為△W=κP△WBP

OWM算法實現了對網絡中已有知識的有效保護,並可以與現有梯度反傳算法完全兼容,在連續學習測試任務中表現出了良好的性能。在連續學習的標準任務disjoint MNIST與shuffled MNIST任務中,OWM算法的表現超過了同類的其他算法。並且,隨著學習的任務數目增加,OWM算法的性能優勢會進一步加大。利用OWM算法,神經網絡可以連續學習識別ImageNet的1000類圖片和3755箇中文手寫體漢字(每個任務僅訓練一類圖片或一個漢字)。值得一提的是,算法具有優良的小樣本學習能力,以手寫體漢字識別為例,基於預訓練的特徵提取器,系統可以從僅僅數個正樣本中就能連續地學習新的漢字。

CDP模塊則是受前額葉皮層啟發提出的。前額葉是大腦中負責認知控制的核心皮層。其同時接收感官輸入和情境信號,並選擇與當前任務最相關的感官信號指導輸出響應。受此啟發,作者引入了類似的處理架構——CDP模塊,它包括兩個子模塊:1.編碼子模塊,其負責將情境信息編碼為適當的控制信號;2.“旋轉”子模塊,其利用編碼模塊的控制信號處理任務輸入(由於其功能上相當於將特徵向量在高維空間上進行了旋轉,故稱為“旋轉”子模塊)。

若將CDP模塊與OWM算法聯合使用,神經網絡只需要一個分類器,就可以連續學習40種不同的臉部特徵的識別任務。並且,當不同的提示信號出現時,其對相應的特徵做出判斷,效果與引入40個分類器的情況相當。

通過OWM算法有效克服災難性遺忘,並通過CDP模塊實現單個網絡基於情境信號的多任務學習,二者結合有望讓智能體通過連續不斷的學習去適應複雜多變的環境,從而逐步逼近更高水平的智能。

類人連續學習及情境依賴學習研究取得進展


OWM算法原理示意圖。(a): 在權重更新時,OWM算法只保留傳統BP算法計算的權重增量中與歷史任務輸入空間正交的部分。(b): 在新任務中,OWM算法將神經網絡對解的搜索範圍約束在舊任務的解空間中。

類人連續學習及情境依賴學習研究取得進展


在連續學習MNIST手寫體數字0-9的任務中,隨著任務數目的增加,OWM算法的優勢也愈加明顯。同時,任務的學習順序會對個別任務產生影響。如先學數字4和7,會顯著提升數字9的識別正確率。

類人連續學習及情境依賴學習研究取得進展


OWM算法在ImageNet和中文手寫體漢字識別的連續學習任務上體現出優良的性能

類人連續學習及情境依賴學習研究取得進展


OWM實現漢字識別的小樣本連續學習

類人連續學習及情境依賴學習研究取得進展


類前額葉的CDP模塊的結構設計。左上角是其工作原理示意圖。

類人連續學習及情境依賴學習研究取得進展


同一個分類器對於同樣的輸入,連續學習40種不同人臉屬性的分類任務(藍色數據點),正確率與用40個分類器的系統(橙色線)幾乎一致。


"

相關推薦

推薦中...