'從Nature 封面文章“天機”芯片看腦科學與AI的融合'

人工智能 文章 數學 電腦 歷史 哲學 巡洋艦 CNN 人工智能學家 2019-08-04
"

原創: 許鐵 混沌巡洋艦

7月31日Nature雜誌封面刊登了清華類腦計算團隊的最新成果:天機芯片以及由其操控的自行車。

Towards artificial general intelligence with hybrid Tianjic chip architecture

這則信息在一天之內在AI圈子引起了熱議,而大部分吃瓜群眾的狀態則是雲裡霧裡。這篇文章從腦與人工智能結合的潛力與背景, 看這系列最新工作的意義。

我們說這個新工作的核心是能夠同時在芯片上高效實現人工神經網絡ANN和脈衝神經網絡SNN, 所謂的ANN和SNN, 事實上是神經網絡發展過程的兩個分支。欲瞭解其背景先了解其歷史。

  1. 神經網絡家族的分合故事。


神經網絡的故事從模擬單個神經元開始:神經元是神經網絡信息傳輸的“原子”。通過一定的方法連接這些原子,就可以得到具有智能的系統, 這算是整個人工智能“連接主義”流派的哲學根基。

那麼如何構建這個認知的“原子” ?我們來看看最早的把連接主義引入機器學習的嘗試。最早的模擬大腦的單個神經元的嘗試, 是Warren McCulloch 和 Walter Pitts 在1943 提出而來神經元的模型。這個模型類似於某種二極管或邏輯門電路。一定的輸入進來,被神經元彙集加和, 如何這個和的總量大於一個閾值,神經元就放電, 小於一個閾值,神經元就不放電。這個東西就好像某個微小的決策裝置, 把很多因素加載在一起, 做一個最終的決策。我們想象無數的二極管可以構成一個計算機,那麼無數這這樣的神經元不就可以構成一個具有計算功能的大腦嗎?這就是感知器的概念。

這個高度簡化的神經元事實上就是後來的人工神經網絡ANN的基礎, 簡化得到的神經元事實上每一個的數學形式等價於一個加入了非線性過濾的線性迴歸。

"

原創: 許鐵 混沌巡洋艦

7月31日Nature雜誌封面刊登了清華類腦計算團隊的最新成果:天機芯片以及由其操控的自行車。

Towards artificial general intelligence with hybrid Tianjic chip architecture

這則信息在一天之內在AI圈子引起了熱議,而大部分吃瓜群眾的狀態則是雲裡霧裡。這篇文章從腦與人工智能結合的潛力與背景, 看這系列最新工作的意義。

我們說這個新工作的核心是能夠同時在芯片上高效實現人工神經網絡ANN和脈衝神經網絡SNN, 所謂的ANN和SNN, 事實上是神經網絡發展過程的兩個分支。欲瞭解其背景先了解其歷史。

  1. 神經網絡家族的分合故事。


神經網絡的故事從模擬單個神經元開始:神經元是神經網絡信息傳輸的“原子”。通過一定的方法連接這些原子,就可以得到具有智能的系統, 這算是整個人工智能“連接主義”流派的哲學根基。

那麼如何構建這個認知的“原子” ?我們來看看最早的把連接主義引入機器學習的嘗試。最早的模擬大腦的單個神經元的嘗試, 是Warren McCulloch 和 Walter Pitts 在1943 提出而來神經元的模型。這個模型類似於某種二極管或邏輯門電路。一定的輸入進來,被神經元彙集加和, 如何這個和的總量大於一個閾值,神經元就放電, 小於一個閾值,神經元就不放電。這個東西就好像某個微小的決策裝置, 把很多因素加載在一起, 做一個最終的決策。我們想象無數的二極管可以構成一個計算機,那麼無數這這樣的神經元不就可以構成一個具有計算功能的大腦嗎?這就是感知器的概念。

這個高度簡化的神經元事實上就是後來的人工神經網絡ANN的基礎, 簡化得到的神經元事實上每一個的數學形式等價於一個加入了非線性過濾的線性迴歸。

從Nature 封面文章“天機”芯片看腦科學與AI的融合

如果把無數這樣的神經元連接起來, 就構成了所謂的人工神經網絡(ANN)。

當下的深度學習工具, 無論是CNN還是RNN, 都是在這個方程基礎上把更多的神經元連接起來加入不同的限制條件得來的。

然而事實上, 這個架構與真正的生物神經網絡相差極遠, 這個差距首要集中在單個神經元模型上。剛剛的方程是一個把原來的生化過程簡化到不能再簡的結果。這裡面最致命的區別在於, spike。通過觀察上述方程我們可以看出, 神經網絡輸出y是一個實數。而事實上, 真實的生物神經元輸出, 更加基接近的是一個0,1過程, 當神經元經歷的電壓超過一個數值, 它就放電。那是不是說明這個spiking反而更簡單?其實不是, 這裡麵人們忽略掉的一個信息就是spike timing以及背後的電壓變化。真實神經元的放電過程由一組微分方程(Hodykin Huxley equations 1952)表達 :

"

原創: 許鐵 混沌巡洋艦

7月31日Nature雜誌封面刊登了清華類腦計算團隊的最新成果:天機芯片以及由其操控的自行車。

Towards artificial general intelligence with hybrid Tianjic chip architecture

這則信息在一天之內在AI圈子引起了熱議,而大部分吃瓜群眾的狀態則是雲裡霧裡。這篇文章從腦與人工智能結合的潛力與背景, 看這系列最新工作的意義。

我們說這個新工作的核心是能夠同時在芯片上高效實現人工神經網絡ANN和脈衝神經網絡SNN, 所謂的ANN和SNN, 事實上是神經網絡發展過程的兩個分支。欲瞭解其背景先了解其歷史。

  1. 神經網絡家族的分合故事。


神經網絡的故事從模擬單個神經元開始:神經元是神經網絡信息傳輸的“原子”。通過一定的方法連接這些原子,就可以得到具有智能的系統, 這算是整個人工智能“連接主義”流派的哲學根基。

那麼如何構建這個認知的“原子” ?我們來看看最早的把連接主義引入機器學習的嘗試。最早的模擬大腦的單個神經元的嘗試, 是Warren McCulloch 和 Walter Pitts 在1943 提出而來神經元的模型。這個模型類似於某種二極管或邏輯門電路。一定的輸入進來,被神經元彙集加和, 如何這個和的總量大於一個閾值,神經元就放電, 小於一個閾值,神經元就不放電。這個東西就好像某個微小的決策裝置, 把很多因素加載在一起, 做一個最終的決策。我們想象無數的二極管可以構成一個計算機,那麼無數這這樣的神經元不就可以構成一個具有計算功能的大腦嗎?這就是感知器的概念。

這個高度簡化的神經元事實上就是後來的人工神經網絡ANN的基礎, 簡化得到的神經元事實上每一個的數學形式等價於一個加入了非線性過濾的線性迴歸。

從Nature 封面文章“天機”芯片看腦科學與AI的融合

如果把無數這樣的神經元連接起來, 就構成了所謂的人工神經網絡(ANN)。

當下的深度學習工具, 無論是CNN還是RNN, 都是在這個方程基礎上把更多的神經元連接起來加入不同的限制條件得來的。

然而事實上, 這個架構與真正的生物神經網絡相差極遠, 這個差距首要集中在單個神經元模型上。剛剛的方程是一個把原來的生化過程簡化到不能再簡的結果。這裡面最致命的區別在於, spike。通過觀察上述方程我們可以看出, 神經網絡輸出y是一個實數。而事實上, 真實的生物神經元輸出, 更加基接近的是一個0,1過程, 當神經元經歷的電壓超過一個數值, 它就放電。那是不是說明這個spiking反而更簡單?其實不是, 這裡麵人們忽略掉的一個信息就是spike timing以及背後的電壓變化。真實神經元的放電過程由一組微分方程(Hodykin Huxley equations 1952)表達 :

從Nature 封面文章“天機”芯片看腦科學與AI的融合

這組微分方程的解就是spiking的過程, 如下圖是電壓隨時間的變化, 當電壓積累達到一定閾值, 這個爆發的尖峰就是spike,通過spike , 神經元可以向其它神經元發射信號。我們所謂的腦電波, 無非是大量這樣的神經元的集體放電在顱外所檢測到的一組信號。

"

原創: 許鐵 混沌巡洋艦

7月31日Nature雜誌封面刊登了清華類腦計算團隊的最新成果:天機芯片以及由其操控的自行車。

Towards artificial general intelligence with hybrid Tianjic chip architecture

這則信息在一天之內在AI圈子引起了熱議,而大部分吃瓜群眾的狀態則是雲裡霧裡。這篇文章從腦與人工智能結合的潛力與背景, 看這系列最新工作的意義。

我們說這個新工作的核心是能夠同時在芯片上高效實現人工神經網絡ANN和脈衝神經網絡SNN, 所謂的ANN和SNN, 事實上是神經網絡發展過程的兩個分支。欲瞭解其背景先了解其歷史。

  1. 神經網絡家族的分合故事。


神經網絡的故事從模擬單個神經元開始:神經元是神經網絡信息傳輸的“原子”。通過一定的方法連接這些原子,就可以得到具有智能的系統, 這算是整個人工智能“連接主義”流派的哲學根基。

那麼如何構建這個認知的“原子” ?我們來看看最早的把連接主義引入機器學習的嘗試。最早的模擬大腦的單個神經元的嘗試, 是Warren McCulloch 和 Walter Pitts 在1943 提出而來神經元的模型。這個模型類似於某種二極管或邏輯門電路。一定的輸入進來,被神經元彙集加和, 如何這個和的總量大於一個閾值,神經元就放電, 小於一個閾值,神經元就不放電。這個東西就好像某個微小的決策裝置, 把很多因素加載在一起, 做一個最終的決策。我們想象無數的二極管可以構成一個計算機,那麼無數這這樣的神經元不就可以構成一個具有計算功能的大腦嗎?這就是感知器的概念。

這個高度簡化的神經元事實上就是後來的人工神經網絡ANN的基礎, 簡化得到的神經元事實上每一個的數學形式等價於一個加入了非線性過濾的線性迴歸。

從Nature 封面文章“天機”芯片看腦科學與AI的融合

如果把無數這樣的神經元連接起來, 就構成了所謂的人工神經網絡(ANN)。

當下的深度學習工具, 無論是CNN還是RNN, 都是在這個方程基礎上把更多的神經元連接起來加入不同的限制條件得來的。

然而事實上, 這個架構與真正的生物神經網絡相差極遠, 這個差距首要集中在單個神經元模型上。剛剛的方程是一個把原來的生化過程簡化到不能再簡的結果。這裡面最致命的區別在於, spike。通過觀察上述方程我們可以看出, 神經網絡輸出y是一個實數。而事實上, 真實的生物神經元輸出, 更加基接近的是一個0,1過程, 當神經元經歷的電壓超過一個數值, 它就放電。那是不是說明這個spiking反而更簡單?其實不是, 這裡麵人們忽略掉的一個信息就是spike timing以及背後的電壓變化。真實神經元的放電過程由一組微分方程(Hodykin Huxley equations 1952)表達 :

從Nature 封面文章“天機”芯片看腦科學與AI的融合

這組微分方程的解就是spiking的過程, 如下圖是電壓隨時間的變化, 當電壓積累達到一定閾值, 這個爆發的尖峰就是spike,通過spike , 神經元可以向其它神經元發射信號。我們所謂的腦電波, 無非是大量這樣的神經元的集體放電在顱外所檢測到的一組信號。

從Nature 封面文章“天機”芯片看腦科學與AI的融合


如果用上述這種包含了重要生物細節spiking的神經元連接成網絡, 我們就得到了SNN(脈衝神經網絡) 也就是受, 無論SNN還是ANN,本質都是對生物神經網絡的模擬, 但就其抽象程度且相差疏遠。

我們看到用SNN可以用神經脈衝表達信息, 如果用ANN表達一個類似的事情是什麼樣的呢?我們用一個數字Y來表達時間窗的spike個數(頻率), 而丟棄了所有其它信息, 比如波形,相位, 不同神經元之間spike和spike之間的同步等。這意味著什麼?兩種可能的解釋:

1, 波形,相位, 不同的神經元之間的同步是沒有意義的冗餘, 去掉它們整個神經網絡表達的信息沒有變化, 神經元的系統等於取定時間窗後的平均發放。

2, 波形,相位, 不同神經元之間的同步包含很多有用的信息, 去掉它們, 可能丟失了一些關鍵性的信息。然而在最粗粒化的信息處理階段, 這種保留是足夠的。

那麼哪一個更準確呢?普林斯頓的大牛Williams Bialek 的一系列作品都指出, 神經元spike間的同步(相關性)包含和神經編碼相關的關鍵性信息,也就是說除了平均值外, spike所包含的不同神經元之間的發放同步(或相關性)依然包含了大量的信息。

1, Weak pairwise correlations imply strongly correlated network states in a neural population 2006 Nauture [2]

2, Collective Behavior of Place and Non-place Neurons in the Hippocampal Network 2017 Neuron[3]

"

原創: 許鐵 混沌巡洋艦

7月31日Nature雜誌封面刊登了清華類腦計算團隊的最新成果:天機芯片以及由其操控的自行車。

Towards artificial general intelligence with hybrid Tianjic chip architecture

這則信息在一天之內在AI圈子引起了熱議,而大部分吃瓜群眾的狀態則是雲裡霧裡。這篇文章從腦與人工智能結合的潛力與背景, 看這系列最新工作的意義。

我們說這個新工作的核心是能夠同時在芯片上高效實現人工神經網絡ANN和脈衝神經網絡SNN, 所謂的ANN和SNN, 事實上是神經網絡發展過程的兩個分支。欲瞭解其背景先了解其歷史。

  1. 神經網絡家族的分合故事。


神經網絡的故事從模擬單個神經元開始:神經元是神經網絡信息傳輸的“原子”。通過一定的方法連接這些原子,就可以得到具有智能的系統, 這算是整個人工智能“連接主義”流派的哲學根基。

那麼如何構建這個認知的“原子” ?我們來看看最早的把連接主義引入機器學習的嘗試。最早的模擬大腦的單個神經元的嘗試, 是Warren McCulloch 和 Walter Pitts 在1943 提出而來神經元的模型。這個模型類似於某種二極管或邏輯門電路。一定的輸入進來,被神經元彙集加和, 如何這個和的總量大於一個閾值,神經元就放電, 小於一個閾值,神經元就不放電。這個東西就好像某個微小的決策裝置, 把很多因素加載在一起, 做一個最終的決策。我們想象無數的二極管可以構成一個計算機,那麼無數這這樣的神經元不就可以構成一個具有計算功能的大腦嗎?這就是感知器的概念。

這個高度簡化的神經元事實上就是後來的人工神經網絡ANN的基礎, 簡化得到的神經元事實上每一個的數學形式等價於一個加入了非線性過濾的線性迴歸。

從Nature 封面文章“天機”芯片看腦科學與AI的融合

如果把無數這樣的神經元連接起來, 就構成了所謂的人工神經網絡(ANN)。

當下的深度學習工具, 無論是CNN還是RNN, 都是在這個方程基礎上把更多的神經元連接起來加入不同的限制條件得來的。

然而事實上, 這個架構與真正的生物神經網絡相差極遠, 這個差距首要集中在單個神經元模型上。剛剛的方程是一個把原來的生化過程簡化到不能再簡的結果。這裡面最致命的區別在於, spike。通過觀察上述方程我們可以看出, 神經網絡輸出y是一個實數。而事實上, 真實的生物神經元輸出, 更加基接近的是一個0,1過程, 當神經元經歷的電壓超過一個數值, 它就放電。那是不是說明這個spiking反而更簡單?其實不是, 這裡麵人們忽略掉的一個信息就是spike timing以及背後的電壓變化。真實神經元的放電過程由一組微分方程(Hodykin Huxley equations 1952)表達 :

從Nature 封面文章“天機”芯片看腦科學與AI的融合

這組微分方程的解就是spiking的過程, 如下圖是電壓隨時間的變化, 當電壓積累達到一定閾值, 這個爆發的尖峰就是spike,通過spike , 神經元可以向其它神經元發射信號。我們所謂的腦電波, 無非是大量這樣的神經元的集體放電在顱外所檢測到的一組信號。

從Nature 封面文章“天機”芯片看腦科學與AI的融合


如果用上述這種包含了重要生物細節spiking的神經元連接成網絡, 我們就得到了SNN(脈衝神經網絡) 也就是受, 無論SNN還是ANN,本質都是對生物神經網絡的模擬, 但就其抽象程度且相差疏遠。

我們看到用SNN可以用神經脈衝表達信息, 如果用ANN表達一個類似的事情是什麼樣的呢?我們用一個數字Y來表達時間窗的spike個數(頻率), 而丟棄了所有其它信息, 比如波形,相位, 不同神經元之間spike和spike之間的同步等。這意味著什麼?兩種可能的解釋:

1, 波形,相位, 不同的神經元之間的同步是沒有意義的冗餘, 去掉它們整個神經網絡表達的信息沒有變化, 神經元的系統等於取定時間窗後的平均發放。

2, 波形,相位, 不同神經元之間的同步包含很多有用的信息, 去掉它們, 可能丟失了一些關鍵性的信息。然而在最粗粒化的信息處理階段, 這種保留是足夠的。

那麼哪一個更準確呢?普林斯頓的大牛Williams Bialek 的一系列作品都指出, 神經元spike間的同步(相關性)包含和神經編碼相關的關鍵性信息,也就是說除了平均值外, spike所包含的不同神經元之間的發放同步(或相關性)依然包含了大量的信息。

1, Weak pairwise correlations imply strongly correlated network states in a neural population 2006 Nauture [2]

2, Collective Behavior of Place and Non-place Neurons in the Hippocampal Network 2017 Neuron[3]

從Nature 封面文章“天機”芯片看腦科學與AI的融合

Weak pairwise correlations imply strongly correlated network states in a neural population 2006 Nauture, 這張圖說明了如果用0,1事件表達spike, 那麼一個(視網膜網絡)裡的神經元的同步放電頻率遠高於用高斯獨立假設得到的頻率, 也就是說spike之間的同步不可忽略, 構成一種潛在編碼

這兩篇論文的共同特點是說, 神經元spike發放之間的spike correlation可以編碼大量的信息, 如果記錄這些spike之間的pairwise correlation, 那麼我們就可以恢復出神經活動裡的大部分有用信息。

這意味著什麼?假如神經元spike間的同步可以編碼信息, 那麼我們就可能用更少的spike編碼更多的信息, 而這無疑對用最少的神經元放電得到更多的信息(稀疏性)大有幫助。除此之外, 通過在spiking神經元的那組微分方程里加入更多的核膜常數(代表不同時間尺度的信息, 因為spike方程本身是一個包含大量不同時間尺度的非線性方程),我們可以得到大量局部存儲的不同時間尺度的記憶(此處聯想“憶阻器”), 我們甚至可以得到某些類似LSTM非線性門的特性。這些, 都代表著Spiking Neural Network(SNN)相比當下ANN的優勢。

用一個不恰當的比喻, ANN的神經元用實數表達每個神經元的狀態, 而SNN好比進入到了複數域,有了相位。在物理領域,實數到複數支撐了從經典力學到量子力學的升級。據此看, 把SNN看成下一代的神經網絡技術不言而喻。當然如果SNN這麼好為什麼現在工業沒有用呢?難點在於SNN依賴於對微分方程的模擬, 對於當下的馮諾伊曼結構的計算機, 這是一個成本消耗非常大的運算。也就是說計算機為了模擬本來節省能量的生物計算可能更加耗能,同時也更加不好訓練。解決這個問題的方法, 顯然是從基本硬件基礎出發,去改良硬件的架構, 這也是神經擬態芯片的意義之所在。我們把樹突和軸突直接用芯片來刻畫, 無形之間, 就得到了一個長在硬件上的脈衝神經網絡(SNN),它的能耗效率要比普通芯片高12-10000倍。

當然ANN也有一類專門的芯片來提高當下深度學習運行的效率,這就是深度學習芯片, 例如大家都瞭解得寒武紀等。

清華的這個天機芯片在於, 把神經擬態芯片和深度學習芯片得優勢結合起來, 可以同時提高這兩類神經網絡ANN和SNN的效率。我個人背景不是芯片, 所以此處不在深談, 我們多從算法角度談談兩者結合得意義。

"

原創: 許鐵 混沌巡洋艦

7月31日Nature雜誌封面刊登了清華類腦計算團隊的最新成果:天機芯片以及由其操控的自行車。

Towards artificial general intelligence with hybrid Tianjic chip architecture

這則信息在一天之內在AI圈子引起了熱議,而大部分吃瓜群眾的狀態則是雲裡霧裡。這篇文章從腦與人工智能結合的潛力與背景, 看這系列最新工作的意義。

我們說這個新工作的核心是能夠同時在芯片上高效實現人工神經網絡ANN和脈衝神經網絡SNN, 所謂的ANN和SNN, 事實上是神經網絡發展過程的兩個分支。欲瞭解其背景先了解其歷史。

  1. 神經網絡家族的分合故事。


神經網絡的故事從模擬單個神經元開始:神經元是神經網絡信息傳輸的“原子”。通過一定的方法連接這些原子,就可以得到具有智能的系統, 這算是整個人工智能“連接主義”流派的哲學根基。

那麼如何構建這個認知的“原子” ?我們來看看最早的把連接主義引入機器學習的嘗試。最早的模擬大腦的單個神經元的嘗試, 是Warren McCulloch 和 Walter Pitts 在1943 提出而來神經元的模型。這個模型類似於某種二極管或邏輯門電路。一定的輸入進來,被神經元彙集加和, 如何這個和的總量大於一個閾值,神經元就放電, 小於一個閾值,神經元就不放電。這個東西就好像某個微小的決策裝置, 把很多因素加載在一起, 做一個最終的決策。我們想象無數的二極管可以構成一個計算機,那麼無數這這樣的神經元不就可以構成一個具有計算功能的大腦嗎?這就是感知器的概念。

這個高度簡化的神經元事實上就是後來的人工神經網絡ANN的基礎, 簡化得到的神經元事實上每一個的數學形式等價於一個加入了非線性過濾的線性迴歸。

從Nature 封面文章“天機”芯片看腦科學與AI的融合

如果把無數這樣的神經元連接起來, 就構成了所謂的人工神經網絡(ANN)。

當下的深度學習工具, 無論是CNN還是RNN, 都是在這個方程基礎上把更多的神經元連接起來加入不同的限制條件得來的。

然而事實上, 這個架構與真正的生物神經網絡相差極遠, 這個差距首要集中在單個神經元模型上。剛剛的方程是一個把原來的生化過程簡化到不能再簡的結果。這裡面最致命的區別在於, spike。通過觀察上述方程我們可以看出, 神經網絡輸出y是一個實數。而事實上, 真實的生物神經元輸出, 更加基接近的是一個0,1過程, 當神經元經歷的電壓超過一個數值, 它就放電。那是不是說明這個spiking反而更簡單?其實不是, 這裡麵人們忽略掉的一個信息就是spike timing以及背後的電壓變化。真實神經元的放電過程由一組微分方程(Hodykin Huxley equations 1952)表達 :

從Nature 封面文章“天機”芯片看腦科學與AI的融合

這組微分方程的解就是spiking的過程, 如下圖是電壓隨時間的變化, 當電壓積累達到一定閾值, 這個爆發的尖峰就是spike,通過spike , 神經元可以向其它神經元發射信號。我們所謂的腦電波, 無非是大量這樣的神經元的集體放電在顱外所檢測到的一組信號。

從Nature 封面文章“天機”芯片看腦科學與AI的融合


如果用上述這種包含了重要生物細節spiking的神經元連接成網絡, 我們就得到了SNN(脈衝神經網絡) 也就是受, 無論SNN還是ANN,本質都是對生物神經網絡的模擬, 但就其抽象程度且相差疏遠。

我們看到用SNN可以用神經脈衝表達信息, 如果用ANN表達一個類似的事情是什麼樣的呢?我們用一個數字Y來表達時間窗的spike個數(頻率), 而丟棄了所有其它信息, 比如波形,相位, 不同神經元之間spike和spike之間的同步等。這意味著什麼?兩種可能的解釋:

1, 波形,相位, 不同的神經元之間的同步是沒有意義的冗餘, 去掉它們整個神經網絡表達的信息沒有變化, 神經元的系統等於取定時間窗後的平均發放。

2, 波形,相位, 不同神經元之間的同步包含很多有用的信息, 去掉它們, 可能丟失了一些關鍵性的信息。然而在最粗粒化的信息處理階段, 這種保留是足夠的。

那麼哪一個更準確呢?普林斯頓的大牛Williams Bialek 的一系列作品都指出, 神經元spike間的同步(相關性)包含和神經編碼相關的關鍵性信息,也就是說除了平均值外, spike所包含的不同神經元之間的發放同步(或相關性)依然包含了大量的信息。

1, Weak pairwise correlations imply strongly correlated network states in a neural population 2006 Nauture [2]

2, Collective Behavior of Place and Non-place Neurons in the Hippocampal Network 2017 Neuron[3]

從Nature 封面文章“天機”芯片看腦科學與AI的融合

Weak pairwise correlations imply strongly correlated network states in a neural population 2006 Nauture, 這張圖說明了如果用0,1事件表達spike, 那麼一個(視網膜網絡)裡的神經元的同步放電頻率遠高於用高斯獨立假設得到的頻率, 也就是說spike之間的同步不可忽略, 構成一種潛在編碼

這兩篇論文的共同特點是說, 神經元spike發放之間的spike correlation可以編碼大量的信息, 如果記錄這些spike之間的pairwise correlation, 那麼我們就可以恢復出神經活動裡的大部分有用信息。

這意味著什麼?假如神經元spike間的同步可以編碼信息, 那麼我們就可能用更少的spike編碼更多的信息, 而這無疑對用最少的神經元放電得到更多的信息(稀疏性)大有幫助。除此之外, 通過在spiking神經元的那組微分方程里加入更多的核膜常數(代表不同時間尺度的信息, 因為spike方程本身是一個包含大量不同時間尺度的非線性方程),我們可以得到大量局部存儲的不同時間尺度的記憶(此處聯想“憶阻器”), 我們甚至可以得到某些類似LSTM非線性門的特性。這些, 都代表著Spiking Neural Network(SNN)相比當下ANN的優勢。

用一個不恰當的比喻, ANN的神經元用實數表達每個神經元的狀態, 而SNN好比進入到了複數域,有了相位。在物理領域,實數到複數支撐了從經典力學到量子力學的升級。據此看, 把SNN看成下一代的神經網絡技術不言而喻。當然如果SNN這麼好為什麼現在工業沒有用呢?難點在於SNN依賴於對微分方程的模擬, 對於當下的馮諾伊曼結構的計算機, 這是一個成本消耗非常大的運算。也就是說計算機為了模擬本來節省能量的生物計算可能更加耗能,同時也更加不好訓練。解決這個問題的方法, 顯然是從基本硬件基礎出發,去改良硬件的架構, 這也是神經擬態芯片的意義之所在。我們把樹突和軸突直接用芯片來刻畫, 無形之間, 就得到了一個長在硬件上的脈衝神經網絡(SNN),它的能耗效率要比普通芯片高12-10000倍。

當然ANN也有一類專門的芯片來提高當下深度學習運行的效率,這就是深度學習芯片, 例如大家都瞭解得寒武紀等。

清華的這個天機芯片在於, 把神經擬態芯片和深度學習芯片得優勢結合起來, 可以同時提高這兩類神經網絡ANN和SNN的效率。我個人背景不是芯片, 所以此處不在深談, 我們多從算法角度談談兩者結合得意義。

從Nature 封面文章“天機”芯片看腦科學與AI的融合

Towards artificial general intelligence with hybrid Tianjic chip architecture

這一次Nature文章裡的例子是自動駕駛自行車, 當然這個例子被很多人詬病,認為這個不就是一個簡單的平衡遊戲嗎。大家可以去github搜索cart pooling或者雙足行走,這一類的toy model還不少嗎?

然而我認為思考一個新發現的意義不在於它所幹的那個任務low不low , 而是看它是如何完成的。最初的火車甚至跑不過馬車,但是它的架構決定了它的上限和馬車不可同日而語, 通過數年時間迭代,兩者已是雲泥之別。

那麼我們來看一下讓ANN和SNN同時在一個芯片上運行, 帶來的潛力是什麼。一言以蔽之,當下的深度學習模型,可以和大量沒有被好好利用起來的計算神經科學模型, 天衣無縫的嫁接在一起。這從無人駕駛自行車的網絡架構可以略知一二。

"

原創: 許鐵 混沌巡洋艦

7月31日Nature雜誌封面刊登了清華類腦計算團隊的最新成果:天機芯片以及由其操控的自行車。

Towards artificial general intelligence with hybrid Tianjic chip architecture

這則信息在一天之內在AI圈子引起了熱議,而大部分吃瓜群眾的狀態則是雲裡霧裡。這篇文章從腦與人工智能結合的潛力與背景, 看這系列最新工作的意義。

我們說這個新工作的核心是能夠同時在芯片上高效實現人工神經網絡ANN和脈衝神經網絡SNN, 所謂的ANN和SNN, 事實上是神經網絡發展過程的兩個分支。欲瞭解其背景先了解其歷史。

  1. 神經網絡家族的分合故事。


神經網絡的故事從模擬單個神經元開始:神經元是神經網絡信息傳輸的“原子”。通過一定的方法連接這些原子,就可以得到具有智能的系統, 這算是整個人工智能“連接主義”流派的哲學根基。

那麼如何構建這個認知的“原子” ?我們來看看最早的把連接主義引入機器學習的嘗試。最早的模擬大腦的單個神經元的嘗試, 是Warren McCulloch 和 Walter Pitts 在1943 提出而來神經元的模型。這個模型類似於某種二極管或邏輯門電路。一定的輸入進來,被神經元彙集加和, 如何這個和的總量大於一個閾值,神經元就放電, 小於一個閾值,神經元就不放電。這個東西就好像某個微小的決策裝置, 把很多因素加載在一起, 做一個最終的決策。我們想象無數的二極管可以構成一個計算機,那麼無數這這樣的神經元不就可以構成一個具有計算功能的大腦嗎?這就是感知器的概念。

這個高度簡化的神經元事實上就是後來的人工神經網絡ANN的基礎, 簡化得到的神經元事實上每一個的數學形式等價於一個加入了非線性過濾的線性迴歸。

從Nature 封面文章“天機”芯片看腦科學與AI的融合

如果把無數這樣的神經元連接起來, 就構成了所謂的人工神經網絡(ANN)。

當下的深度學習工具, 無論是CNN還是RNN, 都是在這個方程基礎上把更多的神經元連接起來加入不同的限制條件得來的。

然而事實上, 這個架構與真正的生物神經網絡相差極遠, 這個差距首要集中在單個神經元模型上。剛剛的方程是一個把原來的生化過程簡化到不能再簡的結果。這裡面最致命的區別在於, spike。通過觀察上述方程我們可以看出, 神經網絡輸出y是一個實數。而事實上, 真實的生物神經元輸出, 更加基接近的是一個0,1過程, 當神經元經歷的電壓超過一個數值, 它就放電。那是不是說明這個spiking反而更簡單?其實不是, 這裡麵人們忽略掉的一個信息就是spike timing以及背後的電壓變化。真實神經元的放電過程由一組微分方程(Hodykin Huxley equations 1952)表達 :

從Nature 封面文章“天機”芯片看腦科學與AI的融合

這組微分方程的解就是spiking的過程, 如下圖是電壓隨時間的變化, 當電壓積累達到一定閾值, 這個爆發的尖峰就是spike,通過spike , 神經元可以向其它神經元發射信號。我們所謂的腦電波, 無非是大量這樣的神經元的集體放電在顱外所檢測到的一組信號。

從Nature 封面文章“天機”芯片看腦科學與AI的融合


如果用上述這種包含了重要生物細節spiking的神經元連接成網絡, 我們就得到了SNN(脈衝神經網絡) 也就是受, 無論SNN還是ANN,本質都是對生物神經網絡的模擬, 但就其抽象程度且相差疏遠。

我們看到用SNN可以用神經脈衝表達信息, 如果用ANN表達一個類似的事情是什麼樣的呢?我們用一個數字Y來表達時間窗的spike個數(頻率), 而丟棄了所有其它信息, 比如波形,相位, 不同神經元之間spike和spike之間的同步等。這意味著什麼?兩種可能的解釋:

1, 波形,相位, 不同的神經元之間的同步是沒有意義的冗餘, 去掉它們整個神經網絡表達的信息沒有變化, 神經元的系統等於取定時間窗後的平均發放。

2, 波形,相位, 不同神經元之間的同步包含很多有用的信息, 去掉它們, 可能丟失了一些關鍵性的信息。然而在最粗粒化的信息處理階段, 這種保留是足夠的。

那麼哪一個更準確呢?普林斯頓的大牛Williams Bialek 的一系列作品都指出, 神經元spike間的同步(相關性)包含和神經編碼相關的關鍵性信息,也就是說除了平均值外, spike所包含的不同神經元之間的發放同步(或相關性)依然包含了大量的信息。

1, Weak pairwise correlations imply strongly correlated network states in a neural population 2006 Nauture [2]

2, Collective Behavior of Place and Non-place Neurons in the Hippocampal Network 2017 Neuron[3]

從Nature 封面文章“天機”芯片看腦科學與AI的融合

Weak pairwise correlations imply strongly correlated network states in a neural population 2006 Nauture, 這張圖說明了如果用0,1事件表達spike, 那麼一個(視網膜網絡)裡的神經元的同步放電頻率遠高於用高斯獨立假設得到的頻率, 也就是說spike之間的同步不可忽略, 構成一種潛在編碼

這兩篇論文的共同特點是說, 神經元spike發放之間的spike correlation可以編碼大量的信息, 如果記錄這些spike之間的pairwise correlation, 那麼我們就可以恢復出神經活動裡的大部分有用信息。

這意味著什麼?假如神經元spike間的同步可以編碼信息, 那麼我們就可能用更少的spike編碼更多的信息, 而這無疑對用最少的神經元放電得到更多的信息(稀疏性)大有幫助。除此之外, 通過在spiking神經元的那組微分方程里加入更多的核膜常數(代表不同時間尺度的信息, 因為spike方程本身是一個包含大量不同時間尺度的非線性方程),我們可以得到大量局部存儲的不同時間尺度的記憶(此處聯想“憶阻器”), 我們甚至可以得到某些類似LSTM非線性門的特性。這些, 都代表著Spiking Neural Network(SNN)相比當下ANN的優勢。

用一個不恰當的比喻, ANN的神經元用實數表達每個神經元的狀態, 而SNN好比進入到了複數域,有了相位。在物理領域,實數到複數支撐了從經典力學到量子力學的升級。據此看, 把SNN看成下一代的神經網絡技術不言而喻。當然如果SNN這麼好為什麼現在工業沒有用呢?難點在於SNN依賴於對微分方程的模擬, 對於當下的馮諾伊曼結構的計算機, 這是一個成本消耗非常大的運算。也就是說計算機為了模擬本來節省能量的生物計算可能更加耗能,同時也更加不好訓練。解決這個問題的方法, 顯然是從基本硬件基礎出發,去改良硬件的架構, 這也是神經擬態芯片的意義之所在。我們把樹突和軸突直接用芯片來刻畫, 無形之間, 就得到了一個長在硬件上的脈衝神經網絡(SNN),它的能耗效率要比普通芯片高12-10000倍。

當然ANN也有一類專門的芯片來提高當下深度學習運行的效率,這就是深度學習芯片, 例如大家都瞭解得寒武紀等。

清華的這個天機芯片在於, 把神經擬態芯片和深度學習芯片得優勢結合起來, 可以同時提高這兩類神經網絡ANN和SNN的效率。我個人背景不是芯片, 所以此處不在深談, 我們多從算法角度談談兩者結合得意義。

從Nature 封面文章“天機”芯片看腦科學與AI的融合

Towards artificial general intelligence with hybrid Tianjic chip architecture

這一次Nature文章裡的例子是自動駕駛自行車, 當然這個例子被很多人詬病,認為這個不就是一個簡單的平衡遊戲嗎。大家可以去github搜索cart pooling或者雙足行走,這一類的toy model還不少嗎?

然而我認為思考一個新發現的意義不在於它所幹的那個任務low不low , 而是看它是如何完成的。最初的火車甚至跑不過馬車,但是它的架構決定了它的上限和馬車不可同日而語, 通過數年時間迭代,兩者已是雲泥之別。

那麼我們來看一下讓ANN和SNN同時在一個芯片上運行, 帶來的潛力是什麼。一言以蔽之,當下的深度學習模型,可以和大量沒有被好好利用起來的計算神經科學模型, 天衣無縫的嫁接在一起。這從無人駕駛自行車的網絡架構可以略知一二。

從Nature 封面文章“天機”芯片看腦科學與AI的融合

Towards artificial general intelligence with hybrid Tianjic chip architecture

我們來理解一下這個流程圖, 首先, 這個架構可以把多模態信息融合。比如視覺, 聽覺。我們注意到, 處理聽覺的是脈衝神經網絡SNN(更多時間相關信息)。處理視覺信號的網絡是經典的CNN卷積神經網絡,屬於人工神經網絡ANN家族。然而故事還沒有結束, 在CNN的下面, 有一個主管視覺追蹤的CANN網絡, 雖然只有一個字母之差, 這可不是卷積神經網絡, 這四個字母的含義是continous attractor neural networks - 連續吸引子網絡。

所謂空間吸引子, 說的是一種特化了的循環神經網絡, 網絡的動力學導致一系列可以根據外界信號連續變化的吸引子構成, 人們通常認為,海馬體內的位置細胞就是由這種連續吸引子產生的, 它們可以天然的和速度信號進行耦合, 形成對空間的神經表示, 這個CANN,就是一種連續吸引子網絡, 它直接把視覺物體(人)轉化為一個可以追蹤的空間目標(之後可以用於躲避行人)。大家注意, 這是一個典型的脫胎於計算神經科學的網絡架構,矩陣的連接還用到了樹突計算。

然後我們來看中間的那個模塊, neural state machine:神經狀態機。這個網絡把連續的聽覺和視覺信號轉化為離散的事件, 這些事件構成一個有限狀態的機器,也就是我們通常說的馬爾可夫鏈。這一步大家已經可以看到和決策有關的網絡的聯繫,因為一旦把連續變化的信號抽象成了這種離散的馬爾可夫鏈, 下一步就可以交給決策網絡來決策了, 這裡的決策主動是動作輸出, 可以控制自行車在保持平衡的同時躲避障礙, 並對周圍物體發出警戒信號。這個網絡也是由一個脈衝神經網絡SNN構成。

在這裡, 我們不難看出這是一個典型的人工設計與機器學習結合的模塊化網絡, 不能不讓我們想起這類工作的先行之作:Science(Eliasmith, Chris, et al. "A large-scale model of the functioning brain."science338.6111 (2012): 1202-1205.) 在這個工作裡, 研究人員構建了一個叫spaun的模塊化網絡, 可以進行多任務學習。

Spaun的每個部分都是一個人工神經網絡, 且可以與真實的腦區對應上, 比如視覺輸入對應V1-V4 視皮層,它把真實的視覺信息壓縮成一種低維度的編碼(每個圖像稱為這一空間的一個點, 被稱為pointer)。這種低維的信息表示形式很容易放入到工作記憶模塊裡(working memory), 最終由解碼網絡轉換(decoding), 被動作輸出網絡執行(motor)。

神經網絡整體狀態的調控由模擬basal ganglia的網絡完成(Action Selection),它可以根據當下的任務整體調節信息的流動(如同一個綜控系統, 調節每個網絡之前的輸入閥門), 從而讓大腦在不同的工作狀態間靈活轉換。這也體現了功能大腦的概念, 我們不必拘泥於某個腦區的名稱, 而是記住每個腦區對應信息處理的功能。最終我們通過監督學習或強化學習來讓這個系統掌握8種截然不同的任務, 包括:1, 抄寫數字 2, 圖像識別 3, 獎勵學習, 4, 多個數字的工作記憶 5, 數數 6, 回答問題 7 簡單的數學推理。

"

原創: 許鐵 混沌巡洋艦

7月31日Nature雜誌封面刊登了清華類腦計算團隊的最新成果:天機芯片以及由其操控的自行車。

Towards artificial general intelligence with hybrid Tianjic chip architecture

這則信息在一天之內在AI圈子引起了熱議,而大部分吃瓜群眾的狀態則是雲裡霧裡。這篇文章從腦與人工智能結合的潛力與背景, 看這系列最新工作的意義。

我們說這個新工作的核心是能夠同時在芯片上高效實現人工神經網絡ANN和脈衝神經網絡SNN, 所謂的ANN和SNN, 事實上是神經網絡發展過程的兩個分支。欲瞭解其背景先了解其歷史。

  1. 神經網絡家族的分合故事。


神經網絡的故事從模擬單個神經元開始:神經元是神經網絡信息傳輸的“原子”。通過一定的方法連接這些原子,就可以得到具有智能的系統, 這算是整個人工智能“連接主義”流派的哲學根基。

那麼如何構建這個認知的“原子” ?我們來看看最早的把連接主義引入機器學習的嘗試。最早的模擬大腦的單個神經元的嘗試, 是Warren McCulloch 和 Walter Pitts 在1943 提出而來神經元的模型。這個模型類似於某種二極管或邏輯門電路。一定的輸入進來,被神經元彙集加和, 如何這個和的總量大於一個閾值,神經元就放電, 小於一個閾值,神經元就不放電。這個東西就好像某個微小的決策裝置, 把很多因素加載在一起, 做一個最終的決策。我們想象無數的二極管可以構成一個計算機,那麼無數這這樣的神經元不就可以構成一個具有計算功能的大腦嗎?這就是感知器的概念。

這個高度簡化的神經元事實上就是後來的人工神經網絡ANN的基礎, 簡化得到的神經元事實上每一個的數學形式等價於一個加入了非線性過濾的線性迴歸。

從Nature 封面文章“天機”芯片看腦科學與AI的融合

如果把無數這樣的神經元連接起來, 就構成了所謂的人工神經網絡(ANN)。

當下的深度學習工具, 無論是CNN還是RNN, 都是在這個方程基礎上把更多的神經元連接起來加入不同的限制條件得來的。

然而事實上, 這個架構與真正的生物神經網絡相差極遠, 這個差距首要集中在單個神經元模型上。剛剛的方程是一個把原來的生化過程簡化到不能再簡的結果。這裡面最致命的區別在於, spike。通過觀察上述方程我們可以看出, 神經網絡輸出y是一個實數。而事實上, 真實的生物神經元輸出, 更加基接近的是一個0,1過程, 當神經元經歷的電壓超過一個數值, 它就放電。那是不是說明這個spiking反而更簡單?其實不是, 這裡麵人們忽略掉的一個信息就是spike timing以及背後的電壓變化。真實神經元的放電過程由一組微分方程(Hodykin Huxley equations 1952)表達 :

從Nature 封面文章“天機”芯片看腦科學與AI的融合

這組微分方程的解就是spiking的過程, 如下圖是電壓隨時間的變化, 當電壓積累達到一定閾值, 這個爆發的尖峰就是spike,通過spike , 神經元可以向其它神經元發射信號。我們所謂的腦電波, 無非是大量這樣的神經元的集體放電在顱外所檢測到的一組信號。

從Nature 封面文章“天機”芯片看腦科學與AI的融合


如果用上述這種包含了重要生物細節spiking的神經元連接成網絡, 我們就得到了SNN(脈衝神經網絡) 也就是受, 無論SNN還是ANN,本質都是對生物神經網絡的模擬, 但就其抽象程度且相差疏遠。

我們看到用SNN可以用神經脈衝表達信息, 如果用ANN表達一個類似的事情是什麼樣的呢?我們用一個數字Y來表達時間窗的spike個數(頻率), 而丟棄了所有其它信息, 比如波形,相位, 不同神經元之間spike和spike之間的同步等。這意味著什麼?兩種可能的解釋:

1, 波形,相位, 不同的神經元之間的同步是沒有意義的冗餘, 去掉它們整個神經網絡表達的信息沒有變化, 神經元的系統等於取定時間窗後的平均發放。

2, 波形,相位, 不同神經元之間的同步包含很多有用的信息, 去掉它們, 可能丟失了一些關鍵性的信息。然而在最粗粒化的信息處理階段, 這種保留是足夠的。

那麼哪一個更準確呢?普林斯頓的大牛Williams Bialek 的一系列作品都指出, 神經元spike間的同步(相關性)包含和神經編碼相關的關鍵性信息,也就是說除了平均值外, spike所包含的不同神經元之間的發放同步(或相關性)依然包含了大量的信息。

1, Weak pairwise correlations imply strongly correlated network states in a neural population 2006 Nauture [2]

2, Collective Behavior of Place and Non-place Neurons in the Hippocampal Network 2017 Neuron[3]

從Nature 封面文章“天機”芯片看腦科學與AI的融合

Weak pairwise correlations imply strongly correlated network states in a neural population 2006 Nauture, 這張圖說明了如果用0,1事件表達spike, 那麼一個(視網膜網絡)裡的神經元的同步放電頻率遠高於用高斯獨立假設得到的頻率, 也就是說spike之間的同步不可忽略, 構成一種潛在編碼

這兩篇論文的共同特點是說, 神經元spike發放之間的spike correlation可以編碼大量的信息, 如果記錄這些spike之間的pairwise correlation, 那麼我們就可以恢復出神經活動裡的大部分有用信息。

這意味著什麼?假如神經元spike間的同步可以編碼信息, 那麼我們就可能用更少的spike編碼更多的信息, 而這無疑對用最少的神經元放電得到更多的信息(稀疏性)大有幫助。除此之外, 通過在spiking神經元的那組微分方程里加入更多的核膜常數(代表不同時間尺度的信息, 因為spike方程本身是一個包含大量不同時間尺度的非線性方程),我們可以得到大量局部存儲的不同時間尺度的記憶(此處聯想“憶阻器”), 我們甚至可以得到某些類似LSTM非線性門的特性。這些, 都代表著Spiking Neural Network(SNN)相比當下ANN的優勢。

用一個不恰當的比喻, ANN的神經元用實數表達每個神經元的狀態, 而SNN好比進入到了複數域,有了相位。在物理領域,實數到複數支撐了從經典力學到量子力學的升級。據此看, 把SNN看成下一代的神經網絡技術不言而喻。當然如果SNN這麼好為什麼現在工業沒有用呢?難點在於SNN依賴於對微分方程的模擬, 對於當下的馮諾伊曼結構的計算機, 這是一個成本消耗非常大的運算。也就是說計算機為了模擬本來節省能量的生物計算可能更加耗能,同時也更加不好訓練。解決這個問題的方法, 顯然是從基本硬件基礎出發,去改良硬件的架構, 這也是神經擬態芯片的意義之所在。我們把樹突和軸突直接用芯片來刻畫, 無形之間, 就得到了一個長在硬件上的脈衝神經網絡(SNN),它的能耗效率要比普通芯片高12-10000倍。

當然ANN也有一類專門的芯片來提高當下深度學習運行的效率,這就是深度學習芯片, 例如大家都瞭解得寒武紀等。

清華的這個天機芯片在於, 把神經擬態芯片和深度學習芯片得優勢結合起來, 可以同時提高這兩類神經網絡ANN和SNN的效率。我個人背景不是芯片, 所以此處不在深談, 我們多從算法角度談談兩者結合得意義。

從Nature 封面文章“天機”芯片看腦科學與AI的融合

Towards artificial general intelligence with hybrid Tianjic chip architecture

這一次Nature文章裡的例子是自動駕駛自行車, 當然這個例子被很多人詬病,認為這個不就是一個簡單的平衡遊戲嗎。大家可以去github搜索cart pooling或者雙足行走,這一類的toy model還不少嗎?

然而我認為思考一個新發現的意義不在於它所幹的那個任務low不low , 而是看它是如何完成的。最初的火車甚至跑不過馬車,但是它的架構決定了它的上限和馬車不可同日而語, 通過數年時間迭代,兩者已是雲泥之別。

那麼我們來看一下讓ANN和SNN同時在一個芯片上運行, 帶來的潛力是什麼。一言以蔽之,當下的深度學習模型,可以和大量沒有被好好利用起來的計算神經科學模型, 天衣無縫的嫁接在一起。這從無人駕駛自行車的網絡架構可以略知一二。

從Nature 封面文章“天機”芯片看腦科學與AI的融合

Towards artificial general intelligence with hybrid Tianjic chip architecture

我們來理解一下這個流程圖, 首先, 這個架構可以把多模態信息融合。比如視覺, 聽覺。我們注意到, 處理聽覺的是脈衝神經網絡SNN(更多時間相關信息)。處理視覺信號的網絡是經典的CNN卷積神經網絡,屬於人工神經網絡ANN家族。然而故事還沒有結束, 在CNN的下面, 有一個主管視覺追蹤的CANN網絡, 雖然只有一個字母之差, 這可不是卷積神經網絡, 這四個字母的含義是continous attractor neural networks - 連續吸引子網絡。

所謂空間吸引子, 說的是一種特化了的循環神經網絡, 網絡的動力學導致一系列可以根據外界信號連續變化的吸引子構成, 人們通常認為,海馬體內的位置細胞就是由這種連續吸引子產生的, 它們可以天然的和速度信號進行耦合, 形成對空間的神經表示, 這個CANN,就是一種連續吸引子網絡, 它直接把視覺物體(人)轉化為一個可以追蹤的空間目標(之後可以用於躲避行人)。大家注意, 這是一個典型的脫胎於計算神經科學的網絡架構,矩陣的連接還用到了樹突計算。

然後我們來看中間的那個模塊, neural state machine:神經狀態機。這個網絡把連續的聽覺和視覺信號轉化為離散的事件, 這些事件構成一個有限狀態的機器,也就是我們通常說的馬爾可夫鏈。這一步大家已經可以看到和決策有關的網絡的聯繫,因為一旦把連續變化的信號抽象成了這種離散的馬爾可夫鏈, 下一步就可以交給決策網絡來決策了, 這裡的決策主動是動作輸出, 可以控制自行車在保持平衡的同時躲避障礙, 並對周圍物體發出警戒信號。這個網絡也是由一個脈衝神經網絡SNN構成。

在這裡, 我們不難看出這是一個典型的人工設計與機器學習結合的模塊化網絡, 不能不讓我們想起這類工作的先行之作:Science(Eliasmith, Chris, et al. "A large-scale model of the functioning brain."science338.6111 (2012): 1202-1205.) 在這個工作裡, 研究人員構建了一個叫spaun的模塊化網絡, 可以進行多任務學習。

Spaun的每個部分都是一個人工神經網絡, 且可以與真實的腦區對應上, 比如視覺輸入對應V1-V4 視皮層,它把真實的視覺信息壓縮成一種低維度的編碼(每個圖像稱為這一空間的一個點, 被稱為pointer)。這種低維的信息表示形式很容易放入到工作記憶模塊裡(working memory), 最終由解碼網絡轉換(decoding), 被動作輸出網絡執行(motor)。

神經網絡整體狀態的調控由模擬basal ganglia的網絡完成(Action Selection),它可以根據當下的任務整體調節信息的流動(如同一個綜控系統, 調節每個網絡之前的輸入閥門), 從而讓大腦在不同的工作狀態間靈活轉換。這也體現了功能大腦的概念, 我們不必拘泥於某個腦區的名稱, 而是記住每個腦區對應信息處理的功能。最終我們通過監督學習或強化學習來讓這個系統掌握8種截然不同的任務, 包括:1, 抄寫數字 2, 圖像識別 3, 獎勵學習, 4, 多個數字的工作記憶 5, 數數 6, 回答問題 7 簡單的數學推理。

從Nature 封面文章“天機”芯片看腦科學與AI的融合

A large-scale model of the functioning brain

而當下清華的工作, 正是打造了適合這一類執行多任務的“虛擬”生物的硬件系統, 在之上, 你可以自由的搭建無論是經典的深度學習模型, 還是那些超前了的計算神經科學模型, 把他們一起組成模塊化的網絡, 執行多種多樣的功能

這個潛力也就不只侷限在自行車了, 可以是流水線的機器人, 陪護老人的機器人,隨便你去發揮想象力,無論上述那個機器人, 都需要進行多模塊的信息整合以及多任務執行。假如這種建立在神經網絡芯片上的模塊化的網絡系統可以以較低能耗長時間在真實環境裡運作, 那麼它帶來的好處顯然是特別巨大的, 這相當於引入了一個實時不間斷的訓練數據, 如果結合無監督學習, 強化學習,甚至神經進化等算法實時對網絡進行優化,其潛力是無可限量的

事實上, 類腦計算和AI的結合之潛力此處僅是冰山一角, 在巡洋艦之前的一些文章裡,進行了更詳盡的論述:

2019計算與系統神經科學大會Cosyne 前沿研究彙總

模擬人類大腦 :人工智能的救贖之路 ?


《重磅新書》

"

原創: 許鐵 混沌巡洋艦

7月31日Nature雜誌封面刊登了清華類腦計算團隊的最新成果:天機芯片以及由其操控的自行車。

Towards artificial general intelligence with hybrid Tianjic chip architecture

這則信息在一天之內在AI圈子引起了熱議,而大部分吃瓜群眾的狀態則是雲裡霧裡。這篇文章從腦與人工智能結合的潛力與背景, 看這系列最新工作的意義。

我們說這個新工作的核心是能夠同時在芯片上高效實現人工神經網絡ANN和脈衝神經網絡SNN, 所謂的ANN和SNN, 事實上是神經網絡發展過程的兩個分支。欲瞭解其背景先了解其歷史。

  1. 神經網絡家族的分合故事。


神經網絡的故事從模擬單個神經元開始:神經元是神經網絡信息傳輸的“原子”。通過一定的方法連接這些原子,就可以得到具有智能的系統, 這算是整個人工智能“連接主義”流派的哲學根基。

那麼如何構建這個認知的“原子” ?我們來看看最早的把連接主義引入機器學習的嘗試。最早的模擬大腦的單個神經元的嘗試, 是Warren McCulloch 和 Walter Pitts 在1943 提出而來神經元的模型。這個模型類似於某種二極管或邏輯門電路。一定的輸入進來,被神經元彙集加和, 如何這個和的總量大於一個閾值,神經元就放電, 小於一個閾值,神經元就不放電。這個東西就好像某個微小的決策裝置, 把很多因素加載在一起, 做一個最終的決策。我們想象無數的二極管可以構成一個計算機,那麼無數這這樣的神經元不就可以構成一個具有計算功能的大腦嗎?這就是感知器的概念。

這個高度簡化的神經元事實上就是後來的人工神經網絡ANN的基礎, 簡化得到的神經元事實上每一個的數學形式等價於一個加入了非線性過濾的線性迴歸。

從Nature 封面文章“天機”芯片看腦科學與AI的融合

如果把無數這樣的神經元連接起來, 就構成了所謂的人工神經網絡(ANN)。

當下的深度學習工具, 無論是CNN還是RNN, 都是在這個方程基礎上把更多的神經元連接起來加入不同的限制條件得來的。

然而事實上, 這個架構與真正的生物神經網絡相差極遠, 這個差距首要集中在單個神經元模型上。剛剛的方程是一個把原來的生化過程簡化到不能再簡的結果。這裡面最致命的區別在於, spike。通過觀察上述方程我們可以看出, 神經網絡輸出y是一個實數。而事實上, 真實的生物神經元輸出, 更加基接近的是一個0,1過程, 當神經元經歷的電壓超過一個數值, 它就放電。那是不是說明這個spiking反而更簡單?其實不是, 這裡麵人們忽略掉的一個信息就是spike timing以及背後的電壓變化。真實神經元的放電過程由一組微分方程(Hodykin Huxley equations 1952)表達 :

從Nature 封面文章“天機”芯片看腦科學與AI的融合

這組微分方程的解就是spiking的過程, 如下圖是電壓隨時間的變化, 當電壓積累達到一定閾值, 這個爆發的尖峰就是spike,通過spike , 神經元可以向其它神經元發射信號。我們所謂的腦電波, 無非是大量這樣的神經元的集體放電在顱外所檢測到的一組信號。

從Nature 封面文章“天機”芯片看腦科學與AI的融合


如果用上述這種包含了重要生物細節spiking的神經元連接成網絡, 我們就得到了SNN(脈衝神經網絡) 也就是受, 無論SNN還是ANN,本質都是對生物神經網絡的模擬, 但就其抽象程度且相差疏遠。

我們看到用SNN可以用神經脈衝表達信息, 如果用ANN表達一個類似的事情是什麼樣的呢?我們用一個數字Y來表達時間窗的spike個數(頻率), 而丟棄了所有其它信息, 比如波形,相位, 不同神經元之間spike和spike之間的同步等。這意味著什麼?兩種可能的解釋:

1, 波形,相位, 不同的神經元之間的同步是沒有意義的冗餘, 去掉它們整個神經網絡表達的信息沒有變化, 神經元的系統等於取定時間窗後的平均發放。

2, 波形,相位, 不同神經元之間的同步包含很多有用的信息, 去掉它們, 可能丟失了一些關鍵性的信息。然而在最粗粒化的信息處理階段, 這種保留是足夠的。

那麼哪一個更準確呢?普林斯頓的大牛Williams Bialek 的一系列作品都指出, 神經元spike間的同步(相關性)包含和神經編碼相關的關鍵性信息,也就是說除了平均值外, spike所包含的不同神經元之間的發放同步(或相關性)依然包含了大量的信息。

1, Weak pairwise correlations imply strongly correlated network states in a neural population 2006 Nauture [2]

2, Collective Behavior of Place and Non-place Neurons in the Hippocampal Network 2017 Neuron[3]

從Nature 封面文章“天機”芯片看腦科學與AI的融合

Weak pairwise correlations imply strongly correlated network states in a neural population 2006 Nauture, 這張圖說明了如果用0,1事件表達spike, 那麼一個(視網膜網絡)裡的神經元的同步放電頻率遠高於用高斯獨立假設得到的頻率, 也就是說spike之間的同步不可忽略, 構成一種潛在編碼

這兩篇論文的共同特點是說, 神經元spike發放之間的spike correlation可以編碼大量的信息, 如果記錄這些spike之間的pairwise correlation, 那麼我們就可以恢復出神經活動裡的大部分有用信息。

這意味著什麼?假如神經元spike間的同步可以編碼信息, 那麼我們就可能用更少的spike編碼更多的信息, 而這無疑對用最少的神經元放電得到更多的信息(稀疏性)大有幫助。除此之外, 通過在spiking神經元的那組微分方程里加入更多的核膜常數(代表不同時間尺度的信息, 因為spike方程本身是一個包含大量不同時間尺度的非線性方程),我們可以得到大量局部存儲的不同時間尺度的記憶(此處聯想“憶阻器”), 我們甚至可以得到某些類似LSTM非線性門的特性。這些, 都代表著Spiking Neural Network(SNN)相比當下ANN的優勢。

用一個不恰當的比喻, ANN的神經元用實數表達每個神經元的狀態, 而SNN好比進入到了複數域,有了相位。在物理領域,實數到複數支撐了從經典力學到量子力學的升級。據此看, 把SNN看成下一代的神經網絡技術不言而喻。當然如果SNN這麼好為什麼現在工業沒有用呢?難點在於SNN依賴於對微分方程的模擬, 對於當下的馮諾伊曼結構的計算機, 這是一個成本消耗非常大的運算。也就是說計算機為了模擬本來節省能量的生物計算可能更加耗能,同時也更加不好訓練。解決這個問題的方法, 顯然是從基本硬件基礎出發,去改良硬件的架構, 這也是神經擬態芯片的意義之所在。我們把樹突和軸突直接用芯片來刻畫, 無形之間, 就得到了一個長在硬件上的脈衝神經網絡(SNN),它的能耗效率要比普通芯片高12-10000倍。

當然ANN也有一類專門的芯片來提高當下深度學習運行的效率,這就是深度學習芯片, 例如大家都瞭解得寒武紀等。

清華的這個天機芯片在於, 把神經擬態芯片和深度學習芯片得優勢結合起來, 可以同時提高這兩類神經網絡ANN和SNN的效率。我個人背景不是芯片, 所以此處不在深談, 我們多從算法角度談談兩者結合得意義。

從Nature 封面文章“天機”芯片看腦科學與AI的融合

Towards artificial general intelligence with hybrid Tianjic chip architecture

這一次Nature文章裡的例子是自動駕駛自行車, 當然這個例子被很多人詬病,認為這個不就是一個簡單的平衡遊戲嗎。大家可以去github搜索cart pooling或者雙足行走,這一類的toy model還不少嗎?

然而我認為思考一個新發現的意義不在於它所幹的那個任務low不low , 而是看它是如何完成的。最初的火車甚至跑不過馬車,但是它的架構決定了它的上限和馬車不可同日而語, 通過數年時間迭代,兩者已是雲泥之別。

那麼我們來看一下讓ANN和SNN同時在一個芯片上運行, 帶來的潛力是什麼。一言以蔽之,當下的深度學習模型,可以和大量沒有被好好利用起來的計算神經科學模型, 天衣無縫的嫁接在一起。這從無人駕駛自行車的網絡架構可以略知一二。

從Nature 封面文章“天機”芯片看腦科學與AI的融合

Towards artificial general intelligence with hybrid Tianjic chip architecture

我們來理解一下這個流程圖, 首先, 這個架構可以把多模態信息融合。比如視覺, 聽覺。我們注意到, 處理聽覺的是脈衝神經網絡SNN(更多時間相關信息)。處理視覺信號的網絡是經典的CNN卷積神經網絡,屬於人工神經網絡ANN家族。然而故事還沒有結束, 在CNN的下面, 有一個主管視覺追蹤的CANN網絡, 雖然只有一個字母之差, 這可不是卷積神經網絡, 這四個字母的含義是continous attractor neural networks - 連續吸引子網絡。

所謂空間吸引子, 說的是一種特化了的循環神經網絡, 網絡的動力學導致一系列可以根據外界信號連續變化的吸引子構成, 人們通常認為,海馬體內的位置細胞就是由這種連續吸引子產生的, 它們可以天然的和速度信號進行耦合, 形成對空間的神經表示, 這個CANN,就是一種連續吸引子網絡, 它直接把視覺物體(人)轉化為一個可以追蹤的空間目標(之後可以用於躲避行人)。大家注意, 這是一個典型的脫胎於計算神經科學的網絡架構,矩陣的連接還用到了樹突計算。

然後我們來看中間的那個模塊, neural state machine:神經狀態機。這個網絡把連續的聽覺和視覺信號轉化為離散的事件, 這些事件構成一個有限狀態的機器,也就是我們通常說的馬爾可夫鏈。這一步大家已經可以看到和決策有關的網絡的聯繫,因為一旦把連續變化的信號抽象成了這種離散的馬爾可夫鏈, 下一步就可以交給決策網絡來決策了, 這裡的決策主動是動作輸出, 可以控制自行車在保持平衡的同時躲避障礙, 並對周圍物體發出警戒信號。這個網絡也是由一個脈衝神經網絡SNN構成。

在這裡, 我們不難看出這是一個典型的人工設計與機器學習結合的模塊化網絡, 不能不讓我們想起這類工作的先行之作:Science(Eliasmith, Chris, et al. "A large-scale model of the functioning brain."science338.6111 (2012): 1202-1205.) 在這個工作裡, 研究人員構建了一個叫spaun的模塊化網絡, 可以進行多任務學習。

Spaun的每個部分都是一個人工神經網絡, 且可以與真實的腦區對應上, 比如視覺輸入對應V1-V4 視皮層,它把真實的視覺信息壓縮成一種低維度的編碼(每個圖像稱為這一空間的一個點, 被稱為pointer)。這種低維的信息表示形式很容易放入到工作記憶模塊裡(working memory), 最終由解碼網絡轉換(decoding), 被動作輸出網絡執行(motor)。

神經網絡整體狀態的調控由模擬basal ganglia的網絡完成(Action Selection),它可以根據當下的任務整體調節信息的流動(如同一個綜控系統, 調節每個網絡之前的輸入閥門), 從而讓大腦在不同的工作狀態間靈活轉換。這也體現了功能大腦的概念, 我們不必拘泥於某個腦區的名稱, 而是記住每個腦區對應信息處理的功能。最終我們通過監督學習或強化學習來讓這個系統掌握8種截然不同的任務, 包括:1, 抄寫數字 2, 圖像識別 3, 獎勵學習, 4, 多個數字的工作記憶 5, 數數 6, 回答問題 7 簡單的數學推理。

從Nature 封面文章“天機”芯片看腦科學與AI的融合

A large-scale model of the functioning brain

而當下清華的工作, 正是打造了適合這一類執行多任務的“虛擬”生物的硬件系統, 在之上, 你可以自由的搭建無論是經典的深度學習模型, 還是那些超前了的計算神經科學模型, 把他們一起組成模塊化的網絡, 執行多種多樣的功能

這個潛力也就不只侷限在自行車了, 可以是流水線的機器人, 陪護老人的機器人,隨便你去發揮想象力,無論上述那個機器人, 都需要進行多模塊的信息整合以及多任務執行。假如這種建立在神經網絡芯片上的模塊化的網絡系統可以以較低能耗長時間在真實環境裡運作, 那麼它帶來的好處顯然是特別巨大的, 這相當於引入了一個實時不間斷的訓練數據, 如果結合無監督學習, 強化學習,甚至神經進化等算法實時對網絡進行優化,其潛力是無可限量的

事實上, 類腦計算和AI的結合之潛力此處僅是冰山一角, 在巡洋艦之前的一些文章裡,進行了更詳盡的論述:

2019計算與系統神經科學大會Cosyne 前沿研究彙總

模擬人類大腦 :人工智能的救贖之路 ?


《重磅新書》

從Nature 封面文章“天機”芯片看腦科學與AI的融合

劉慈欣、周鴻禕、張亞勤、王飛躍、約翰.翰茲聯合推薦

《崛起的超級智能;互聯網大腦如何影響科技未來》2019年7月中信出版社出版。劉鋒著,這是一部力圖破解21世紀前沿科技大爆發背後的規律與祕密,深度解讀數十億群體智慧與數百億機器智能如何經過50年形成互聯網大腦模型,詳細闡述互聯網大腦為代表的超級智能如何深刻影響人類社會、產業與科技未來的最新著作。

瞭解或訂購這本著作請訪問:https://item.jd.com/12636980.html

"

相關推薦

推薦中...