'窺探當今AI芯片中的類腦模型'
來源:腦人言
撰文丨鄧 磊(加州大學-聖塔芭芭拉分校UCSB 博士後)
責編丨高茂森 Soma
排版丨夏獺
科學研究的動機,並非僅僅是出於能看到多酷炫的應用,而是因為我們尚有諸多未知世界需要探尋,這是一切應用的前提。
來源:腦人言
撰文丨鄧 磊(加州大學-聖塔芭芭拉分校UCSB 博士後)
責編丨高茂森 Soma
排版丨夏獺
科學研究的動機,並非僅僅是出於能看到多酷炫的應用,而是因為我們尚有諸多未知世界需要探尋,這是一切應用的前提。
AI芯片如火如荼
AI芯片是當今人工智能熱潮中不可或缺的一個名詞,且受國際局勢影響愈加受到重視。摩爾定律難以為繼,通用處理器的性能提升速度大為減緩,在晶體管物理微縮和計算體系架構改進帶來的收益之爭中,後者漸處上風。
在此背景下,學術界和工業界紛紛將視野轉向針對特定領域設計高性能的專用芯片,擬將架構設計發揮到極致。
AI芯片作為最為典型的領域專用芯片代表,受到國內外研發單位的高度關注。國外有谷歌、蘋果、英特爾、IBM、英偉達等巨頭領銜,國內也有寒武紀、地平線、深鑑、華為、阿里等公司響應,最近清華大學的天機芯更是登上了Nature雜誌的封面[1],其形勢可謂如日中天。
來源:腦人言
撰文丨鄧 磊(加州大學-聖塔芭芭拉分校UCSB 博士後)
責編丨高茂森 Soma
排版丨夏獺
科學研究的動機,並非僅僅是出於能看到多酷炫的應用,而是因為我們尚有諸多未知世界需要探尋,這是一切應用的前提。
AI芯片如火如荼
AI芯片是當今人工智能熱潮中不可或缺的一個名詞,且受國際局勢影響愈加受到重視。摩爾定律難以為繼,通用處理器的性能提升速度大為減緩,在晶體管物理微縮和計算體系架構改進帶來的收益之爭中,後者漸處上風。
在此背景下,學術界和工業界紛紛將視野轉向針對特定領域設計高性能的專用芯片,擬將架構設計發揮到極致。
AI芯片作為最為典型的領域專用芯片代表,受到國內外研發單位的高度關注。國外有谷歌、蘋果、英特爾、IBM、英偉達等巨頭領銜,國內也有寒武紀、地平線、深鑑、華為、阿里等公司響應,最近清華大學的天機芯更是登上了Nature雜誌的封面[1],其形勢可謂如日中天。
然而,AI芯片中所謂的“智能”究竟源自於哪些模型,又和我們的大腦有何關係,他們的過去和未來將會怎樣,本文帶你一探究竟。
人工神經網絡
基本模型
機器學習是目前人工智能模型中最卓有成效的一個分支,而深度學習又是當今機器學習的寵兒,其以人工神經網絡(Artificial Neural Network, ANN)為主要模型。
ANN由大量神經元(Neuron)通過突觸(synapse)連接而成,從輸入到輸出呈現層級結構,當層數較多時則被稱為深度神經網絡(Deep Neural Networks)。
來源:腦人言
撰文丨鄧 磊(加州大學-聖塔芭芭拉分校UCSB 博士後)
責編丨高茂森 Soma
排版丨夏獺
科學研究的動機,並非僅僅是出於能看到多酷炫的應用,而是因為我們尚有諸多未知世界需要探尋,這是一切應用的前提。
AI芯片如火如荼
AI芯片是當今人工智能熱潮中不可或缺的一個名詞,且受國際局勢影響愈加受到重視。摩爾定律難以為繼,通用處理器的性能提升速度大為減緩,在晶體管物理微縮和計算體系架構改進帶來的收益之爭中,後者漸處上風。
在此背景下,學術界和工業界紛紛將視野轉向針對特定領域設計高性能的專用芯片,擬將架構設計發揮到極致。
AI芯片作為最為典型的領域專用芯片代表,受到國內外研發單位的高度關注。國外有谷歌、蘋果、英特爾、IBM、英偉達等巨頭領銜,國內也有寒武紀、地平線、深鑑、華為、阿里等公司響應,最近清華大學的天機芯更是登上了Nature雜誌的封面[1],其形勢可謂如日中天。
然而,AI芯片中所謂的“智能”究竟源自於哪些模型,又和我們的大腦有何關係,他們的過去和未來將會怎樣,本文帶你一探究竟。
人工神經網絡
基本模型
機器學習是目前人工智能模型中最卓有成效的一個分支,而深度學習又是當今機器學習的寵兒,其以人工神經網絡(Artificial Neural Network, ANN)為主要模型。
ANN由大量神經元(Neuron)通過突觸(synapse)連接而成,從輸入到輸出呈現層級結構,當層數較多時則被稱為深度神經網絡(Deep Neural Networks)。
圖1 人工神經元示意圖
每個神經元的基本結構如圖1所示,而基本的計算原理為
來源:腦人言
撰文丨鄧 磊(加州大學-聖塔芭芭拉分校UCSB 博士後)
責編丨高茂森 Soma
排版丨夏獺
科學研究的動機,並非僅僅是出於能看到多酷炫的應用,而是因為我們尚有諸多未知世界需要探尋,這是一切應用的前提。
AI芯片如火如荼
AI芯片是當今人工智能熱潮中不可或缺的一個名詞,且受國際局勢影響愈加受到重視。摩爾定律難以為繼,通用處理器的性能提升速度大為減緩,在晶體管物理微縮和計算體系架構改進帶來的收益之爭中,後者漸處上風。
在此背景下,學術界和工業界紛紛將視野轉向針對特定領域設計高性能的專用芯片,擬將架構設計發揮到極致。
AI芯片作為最為典型的領域專用芯片代表,受到國內外研發單位的高度關注。國外有谷歌、蘋果、英特爾、IBM、英偉達等巨頭領銜,國內也有寒武紀、地平線、深鑑、華為、阿里等公司響應,最近清華大學的天機芯更是登上了Nature雜誌的封面[1],其形勢可謂如日中天。
然而,AI芯片中所謂的“智能”究竟源自於哪些模型,又和我們的大腦有何關係,他們的過去和未來將會怎樣,本文帶你一探究竟。
人工神經網絡
基本模型
機器學習是目前人工智能模型中最卓有成效的一個分支,而深度學習又是當今機器學習的寵兒,其以人工神經網絡(Artificial Neural Network, ANN)為主要模型。
ANN由大量神經元(Neuron)通過突觸(synapse)連接而成,從輸入到輸出呈現層級結構,當層數較多時則被稱為深度神經網絡(Deep Neural Networks)。
圖1 人工神經元示意圖
每個神經元的基本結構如圖1所示,而基本的計算原理為
來源:腦人言
撰文丨鄧 磊(加州大學-聖塔芭芭拉分校UCSB 博士後)
責編丨高茂森 Soma
排版丨夏獺
科學研究的動機,並非僅僅是出於能看到多酷炫的應用,而是因為我們尚有諸多未知世界需要探尋,這是一切應用的前提。
AI芯片如火如荼
AI芯片是當今人工智能熱潮中不可或缺的一個名詞,且受國際局勢影響愈加受到重視。摩爾定律難以為繼,通用處理器的性能提升速度大為減緩,在晶體管物理微縮和計算體系架構改進帶來的收益之爭中,後者漸處上風。
在此背景下,學術界和工業界紛紛將視野轉向針對特定領域設計高性能的專用芯片,擬將架構設計發揮到極致。
AI芯片作為最為典型的領域專用芯片代表,受到國內外研發單位的高度關注。國外有谷歌、蘋果、英特爾、IBM、英偉達等巨頭領銜,國內也有寒武紀、地平線、深鑑、華為、阿里等公司響應,最近清華大學的天機芯更是登上了Nature雜誌的封面[1],其形勢可謂如日中天。
然而,AI芯片中所謂的“智能”究竟源自於哪些模型,又和我們的大腦有何關係,他們的過去和未來將會怎樣,本文帶你一探究竟。
人工神經網絡
基本模型
機器學習是目前人工智能模型中最卓有成效的一個分支,而深度學習又是當今機器學習的寵兒,其以人工神經網絡(Artificial Neural Network, ANN)為主要模型。
ANN由大量神經元(Neuron)通過突觸(synapse)連接而成,從輸入到輸出呈現層級結構,當層數較多時則被稱為深度神經網絡(Deep Neural Networks)。
圖1 人工神經元示意圖
每個神經元的基本結構如圖1所示,而基本的計算原理為
,其中x
來源:腦人言
撰文丨鄧 磊(加州大學-聖塔芭芭拉分校UCSB 博士後)
責編丨高茂森 Soma
排版丨夏獺
科學研究的動機,並非僅僅是出於能看到多酷炫的應用,而是因為我們尚有諸多未知世界需要探尋,這是一切應用的前提。
AI芯片如火如荼
AI芯片是當今人工智能熱潮中不可或缺的一個名詞,且受國際局勢影響愈加受到重視。摩爾定律難以為繼,通用處理器的性能提升速度大為減緩,在晶體管物理微縮和計算體系架構改進帶來的收益之爭中,後者漸處上風。
在此背景下,學術界和工業界紛紛將視野轉向針對特定領域設計高性能的專用芯片,擬將架構設計發揮到極致。
AI芯片作為最為典型的領域專用芯片代表,受到國內外研發單位的高度關注。國外有谷歌、蘋果、英特爾、IBM、英偉達等巨頭領銜,國內也有寒武紀、地平線、深鑑、華為、阿里等公司響應,最近清華大學的天機芯更是登上了Nature雜誌的封面[1],其形勢可謂如日中天。
然而,AI芯片中所謂的“智能”究竟源自於哪些模型,又和我們的大腦有何關係,他們的過去和未來將會怎樣,本文帶你一探究竟。
人工神經網絡
基本模型
機器學習是目前人工智能模型中最卓有成效的一個分支,而深度學習又是當今機器學習的寵兒,其以人工神經網絡(Artificial Neural Network, ANN)為主要模型。
ANN由大量神經元(Neuron)通過突觸(synapse)連接而成,從輸入到輸出呈現層級結構,當層數較多時則被稱為深度神經網絡(Deep Neural Networks)。
圖1 人工神經元示意圖
每個神經元的基本結構如圖1所示,而基本的計算原理為
,其中x
和y
來源:腦人言
撰文丨鄧 磊(加州大學-聖塔芭芭拉分校UCSB 博士後)
責編丨高茂森 Soma
排版丨夏獺
科學研究的動機,並非僅僅是出於能看到多酷炫的應用,而是因為我們尚有諸多未知世界需要探尋,這是一切應用的前提。
AI芯片如火如荼
AI芯片是當今人工智能熱潮中不可或缺的一個名詞,且受國際局勢影響愈加受到重視。摩爾定律難以為繼,通用處理器的性能提升速度大為減緩,在晶體管物理微縮和計算體系架構改進帶來的收益之爭中,後者漸處上風。
在此背景下,學術界和工業界紛紛將視野轉向針對特定領域設計高性能的專用芯片,擬將架構設計發揮到極致。
AI芯片作為最為典型的領域專用芯片代表,受到國內外研發單位的高度關注。國外有谷歌、蘋果、英特爾、IBM、英偉達等巨頭領銜,國內也有寒武紀、地平線、深鑑、華為、阿里等公司響應,最近清華大學的天機芯更是登上了Nature雜誌的封面[1],其形勢可謂如日中天。
然而,AI芯片中所謂的“智能”究竟源自於哪些模型,又和我們的大腦有何關係,他們的過去和未來將會怎樣,本文帶你一探究竟。
人工神經網絡
基本模型
機器學習是目前人工智能模型中最卓有成效的一個分支,而深度學習又是當今機器學習的寵兒,其以人工神經網絡(Artificial Neural Network, ANN)為主要模型。
ANN由大量神經元(Neuron)通過突觸(synapse)連接而成,從輸入到輸出呈現層級結構,當層數較多時則被稱為深度神經網絡(Deep Neural Networks)。
圖1 人工神經元示意圖
每個神經元的基本結構如圖1所示,而基本的計算原理為
,其中x
和y
分別為輸入和輸出激活值、
來源:腦人言
撰文丨鄧 磊(加州大學-聖塔芭芭拉分校UCSB 博士後)
責編丨高茂森 Soma
排版丨夏獺
科學研究的動機,並非僅僅是出於能看到多酷炫的應用,而是因為我們尚有諸多未知世界需要探尋,這是一切應用的前提。
AI芯片如火如荼
AI芯片是當今人工智能熱潮中不可或缺的一個名詞,且受國際局勢影響愈加受到重視。摩爾定律難以為繼,通用處理器的性能提升速度大為減緩,在晶體管物理微縮和計算體系架構改進帶來的收益之爭中,後者漸處上風。
在此背景下,學術界和工業界紛紛將視野轉向針對特定領域設計高性能的專用芯片,擬將架構設計發揮到極致。
AI芯片作為最為典型的領域專用芯片代表,受到國內外研發單位的高度關注。國外有谷歌、蘋果、英特爾、IBM、英偉達等巨頭領銜,國內也有寒武紀、地平線、深鑑、華為、阿里等公司響應,最近清華大學的天機芯更是登上了Nature雜誌的封面[1],其形勢可謂如日中天。
然而,AI芯片中所謂的“智能”究竟源自於哪些模型,又和我們的大腦有何關係,他們的過去和未來將會怎樣,本文帶你一探究竟。
人工神經網絡
基本模型
機器學習是目前人工智能模型中最卓有成效的一個分支,而深度學習又是當今機器學習的寵兒,其以人工神經網絡(Artificial Neural Network, ANN)為主要模型。
ANN由大量神經元(Neuron)通過突觸(synapse)連接而成,從輸入到輸出呈現層級結構,當層數較多時則被稱為深度神經網絡(Deep Neural Networks)。
圖1 人工神經元示意圖
每個神經元的基本結構如圖1所示,而基本的計算原理為
,其中x
和y
分別為輸入和輸出激活值、
來源:腦人言
撰文丨鄧 磊(加州大學-聖塔芭芭拉分校UCSB 博士後)
責編丨高茂森 Soma
排版丨夏獺
科學研究的動機,並非僅僅是出於能看到多酷炫的應用,而是因為我們尚有諸多未知世界需要探尋,這是一切應用的前提。
AI芯片如火如荼
AI芯片是當今人工智能熱潮中不可或缺的一個名詞,且受國際局勢影響愈加受到重視。摩爾定律難以為繼,通用處理器的性能提升速度大為減緩,在晶體管物理微縮和計算體系架構改進帶來的收益之爭中,後者漸處上風。
在此背景下,學術界和工業界紛紛將視野轉向針對特定領域設計高性能的專用芯片,擬將架構設計發揮到極致。
AI芯片作為最為典型的領域專用芯片代表,受到國內外研發單位的高度關注。國外有谷歌、蘋果、英特爾、IBM、英偉達等巨頭領銜,國內也有寒武紀、地平線、深鑑、華為、阿里等公司響應,最近清華大學的天機芯更是登上了Nature雜誌的封面[1],其形勢可謂如日中天。
然而,AI芯片中所謂的“智能”究竟源自於哪些模型,又和我們的大腦有何關係,他們的過去和未來將會怎樣,本文帶你一探究竟。
人工神經網絡
基本模型
機器學習是目前人工智能模型中最卓有成效的一個分支,而深度學習又是當今機器學習的寵兒,其以人工神經網絡(Artificial Neural Network, ANN)為主要模型。
ANN由大量神經元(Neuron)通過突觸(synapse)連接而成,從輸入到輸出呈現層級結構,當層數較多時則被稱為深度神經網絡(Deep Neural Networks)。
圖1 人工神經元示意圖
每個神經元的基本結構如圖1所示,而基本的計算原理為
,其中x
和y
分別為輸入和輸出激活值、
w為突觸連接的權重值、
來源:腦人言
撰文丨鄧 磊(加州大學-聖塔芭芭拉分校UCSB 博士後)
責編丨高茂森 Soma
排版丨夏獺
科學研究的動機,並非僅僅是出於能看到多酷炫的應用,而是因為我們尚有諸多未知世界需要探尋,這是一切應用的前提。
AI芯片如火如荼
AI芯片是當今人工智能熱潮中不可或缺的一個名詞,且受國際局勢影響愈加受到重視。摩爾定律難以為繼,通用處理器的性能提升速度大為減緩,在晶體管物理微縮和計算體系架構改進帶來的收益之爭中,後者漸處上風。
在此背景下,學術界和工業界紛紛將視野轉向針對特定領域設計高性能的專用芯片,擬將架構設計發揮到極致。
AI芯片作為最為典型的領域專用芯片代表,受到國內外研發單位的高度關注。國外有谷歌、蘋果、英特爾、IBM、英偉達等巨頭領銜,國內也有寒武紀、地平線、深鑑、華為、阿里等公司響應,最近清華大學的天機芯更是登上了Nature雜誌的封面[1],其形勢可謂如日中天。
然而,AI芯片中所謂的“智能”究竟源自於哪些模型,又和我們的大腦有何關係,他們的過去和未來將會怎樣,本文帶你一探究竟。
人工神經網絡
基本模型
機器學習是目前人工智能模型中最卓有成效的一個分支,而深度學習又是當今機器學習的寵兒,其以人工神經網絡(Artificial Neural Network, ANN)為主要模型。
ANN由大量神經元(Neuron)通過突觸(synapse)連接而成,從輸入到輸出呈現層級結構,當層數較多時則被稱為深度神經網絡(Deep Neural Networks)。
圖1 人工神經元示意圖
每個神經元的基本結構如圖1所示,而基本的計算原理為
,其中x
和y
分別為輸入和輸出激活值、
w為突觸連接的權重值、
b為偏置值、
來源:腦人言
撰文丨鄧 磊(加州大學-聖塔芭芭拉分校UCSB 博士後)
責編丨高茂森 Soma
排版丨夏獺
科學研究的動機,並非僅僅是出於能看到多酷炫的應用,而是因為我們尚有諸多未知世界需要探尋,這是一切應用的前提。
AI芯片如火如荼
AI芯片是當今人工智能熱潮中不可或缺的一個名詞,且受國際局勢影響愈加受到重視。摩爾定律難以為繼,通用處理器的性能提升速度大為減緩,在晶體管物理微縮和計算體系架構改進帶來的收益之爭中,後者漸處上風。
在此背景下,學術界和工業界紛紛將視野轉向針對特定領域設計高性能的專用芯片,擬將架構設計發揮到極致。
AI芯片作為最為典型的領域專用芯片代表,受到國內外研發單位的高度關注。國外有谷歌、蘋果、英特爾、IBM、英偉達等巨頭領銜,國內也有寒武紀、地平線、深鑑、華為、阿里等公司響應,最近清華大學的天機芯更是登上了Nature雜誌的封面[1],其形勢可謂如日中天。
然而,AI芯片中所謂的“智能”究竟源自於哪些模型,又和我們的大腦有何關係,他們的過去和未來將會怎樣,本文帶你一探究竟。
人工神經網絡
基本模型
機器學習是目前人工智能模型中最卓有成效的一個分支,而深度學習又是當今機器學習的寵兒,其以人工神經網絡(Artificial Neural Network, ANN)為主要模型。
ANN由大量神經元(Neuron)通過突觸(synapse)連接而成,從輸入到輸出呈現層級結構,當層數較多時則被稱為深度神經網絡(Deep Neural Networks)。
圖1 人工神經元示意圖
每個神經元的基本結構如圖1所示,而基本的計算原理為
,其中x
和y
分別為輸入和輸出激活值、
w為突觸連接的權重值、
b為偏置值、
φ為非線性激活函數。
來源:腦人言
撰文丨鄧 磊(加州大學-聖塔芭芭拉分校UCSB 博士後)
責編丨高茂森 Soma
排版丨夏獺
科學研究的動機,並非僅僅是出於能看到多酷炫的應用,而是因為我們尚有諸多未知世界需要探尋,這是一切應用的前提。
AI芯片如火如荼
AI芯片是當今人工智能熱潮中不可或缺的一個名詞,且受國際局勢影響愈加受到重視。摩爾定律難以為繼,通用處理器的性能提升速度大為減緩,在晶體管物理微縮和計算體系架構改進帶來的收益之爭中,後者漸處上風。
在此背景下,學術界和工業界紛紛將視野轉向針對特定領域設計高性能的專用芯片,擬將架構設計發揮到極致。
AI芯片作為最為典型的領域專用芯片代表,受到國內外研發單位的高度關注。國外有谷歌、蘋果、英特爾、IBM、英偉達等巨頭領銜,國內也有寒武紀、地平線、深鑑、華為、阿里等公司響應,最近清華大學的天機芯更是登上了Nature雜誌的封面[1],其形勢可謂如日中天。
然而,AI芯片中所謂的“智能”究竟源自於哪些模型,又和我們的大腦有何關係,他們的過去和未來將會怎樣,本文帶你一探究竟。
人工神經網絡
基本模型
機器學習是目前人工智能模型中最卓有成效的一個分支,而深度學習又是當今機器學習的寵兒,其以人工神經網絡(Artificial Neural Network, ANN)為主要模型。
ANN由大量神經元(Neuron)通過突觸(synapse)連接而成,從輸入到輸出呈現層級結構,當層數較多時則被稱為深度神經網絡(Deep Neural Networks)。
圖1 人工神經元示意圖
每個神經元的基本結構如圖1所示,而基本的計算原理為
,其中x
和y
分別為輸入和輸出激活值、
w為突觸連接的權重值、
b為偏置值、
φ為非線性激活函數。
來源:腦人言
撰文丨鄧 磊(加州大學-聖塔芭芭拉分校UCSB 博士後)
責編丨高茂森 Soma
排版丨夏獺
科學研究的動機,並非僅僅是出於能看到多酷炫的應用,而是因為我們尚有諸多未知世界需要探尋,這是一切應用的前提。
AI芯片如火如荼
AI芯片是當今人工智能熱潮中不可或缺的一個名詞,且受國際局勢影響愈加受到重視。摩爾定律難以為繼,通用處理器的性能提升速度大為減緩,在晶體管物理微縮和計算體系架構改進帶來的收益之爭中,後者漸處上風。
在此背景下,學術界和工業界紛紛將視野轉向針對特定領域設計高性能的專用芯片,擬將架構設計發揮到極致。
AI芯片作為最為典型的領域專用芯片代表,受到國內外研發單位的高度關注。國外有谷歌、蘋果、英特爾、IBM、英偉達等巨頭領銜,國內也有寒武紀、地平線、深鑑、華為、阿里等公司響應,最近清華大學的天機芯更是登上了Nature雜誌的封面[1],其形勢可謂如日中天。
然而,AI芯片中所謂的“智能”究竟源自於哪些模型,又和我們的大腦有何關係,他們的過去和未來將會怎樣,本文帶你一探究竟。
人工神經網絡
基本模型
機器學習是目前人工智能模型中最卓有成效的一個分支,而深度學習又是當今機器學習的寵兒,其以人工神經網絡(Artificial Neural Network, ANN)為主要模型。
ANN由大量神經元(Neuron)通過突觸(synapse)連接而成,從輸入到輸出呈現層級結構,當層數較多時則被稱為深度神經網絡(Deep Neural Networks)。
圖1 人工神經元示意圖
每個神經元的基本結構如圖1所示,而基本的計算原理為
,其中x
和y
分別為輸入和輸出激活值、
w為突觸連接的權重值、
b為偏置值、
φ為非線性激活函數。
圖2 不同網絡連接拓撲
(a) 全連接神經網絡;(b) 反饋神經網絡;(c)卷積神經網絡。
根據神經元的連接拓撲可以分為全連接神經網絡、卷積神經網絡、反饋神經網絡等,如圖2所示。
相比於全連接神經網絡,卷積神經網絡通過引入二維特徵圖與突觸核的卷積操作獲得了強大的局部特徵提取能力,被廣泛用於圖像處理領域。
而反饋神經網絡通過引入反饋連接,建立時序動力學模型,被廣泛用於處理語音文本等時序數據。
其實,ANNs模型的建立也是在不同時期中分別借鑑了神經科學的知識:
來源:腦人言
撰文丨鄧 磊(加州大學-聖塔芭芭拉分校UCSB 博士後)
責編丨高茂森 Soma
排版丨夏獺
科學研究的動機,並非僅僅是出於能看到多酷炫的應用,而是因為我們尚有諸多未知世界需要探尋,這是一切應用的前提。
AI芯片如火如荼
AI芯片是當今人工智能熱潮中不可或缺的一個名詞,且受國際局勢影響愈加受到重視。摩爾定律難以為繼,通用處理器的性能提升速度大為減緩,在晶體管物理微縮和計算體系架構改進帶來的收益之爭中,後者漸處上風。
在此背景下,學術界和工業界紛紛將視野轉向針對特定領域設計高性能的專用芯片,擬將架構設計發揮到極致。
AI芯片作為最為典型的領域專用芯片代表,受到國內外研發單位的高度關注。國外有谷歌、蘋果、英特爾、IBM、英偉達等巨頭領銜,國內也有寒武紀、地平線、深鑑、華為、阿里等公司響應,最近清華大學的天機芯更是登上了Nature雜誌的封面[1],其形勢可謂如日中天。
然而,AI芯片中所謂的“智能”究竟源自於哪些模型,又和我們的大腦有何關係,他們的過去和未來將會怎樣,本文帶你一探究竟。
人工神經網絡
基本模型
機器學習是目前人工智能模型中最卓有成效的一個分支,而深度學習又是當今機器學習的寵兒,其以人工神經網絡(Artificial Neural Network, ANN)為主要模型。
ANN由大量神經元(Neuron)通過突觸(synapse)連接而成,從輸入到輸出呈現層級結構,當層數較多時則被稱為深度神經網絡(Deep Neural Networks)。
圖1 人工神經元示意圖
每個神經元的基本結構如圖1所示,而基本的計算原理為
,其中x
和y
分別為輸入和輸出激活值、
w為突觸連接的權重值、
b為偏置值、
φ為非線性激活函數。
圖2 不同網絡連接拓撲
(a) 全連接神經網絡;(b) 反饋神經網絡;(c)卷積神經網絡。
根據神經元的連接拓撲可以分為全連接神經網絡、卷積神經網絡、反饋神經網絡等,如圖2所示。
相比於全連接神經網絡,卷積神經網絡通過引入二維特徵圖與突觸核的卷積操作獲得了強大的局部特徵提取能力,被廣泛用於圖像處理領域。
而反饋神經網絡通過引入反饋連接,建立時序動力學模型,被廣泛用於處理語音文本等時序數據。
其實,ANNs模型的建立也是在不同時期中分別借鑑了神經科學的知識:
人工神經網絡的概念以及基本神經元模型於1943年就已提出[2],這正是試圖模擬腦皮層以神經元網絡形式進行信息處理的體現。
卷積神經網絡的局部感受野是受到大腦視覺系統的啟發。
深度神經網絡的層級構建是源於腦皮層的分層通路。
只不過在深度學習的後續發展中,研究者更加偏重把神經網絡視為一個黑匣,用於擬合從輸入到輸出的複雜映射關係:
來源:腦人言
撰文丨鄧 磊(加州大學-聖塔芭芭拉分校UCSB 博士後)
責編丨高茂森 Soma
排版丨夏獺
科學研究的動機,並非僅僅是出於能看到多酷炫的應用,而是因為我們尚有諸多未知世界需要探尋,這是一切應用的前提。
AI芯片如火如荼
AI芯片是當今人工智能熱潮中不可或缺的一個名詞,且受國際局勢影響愈加受到重視。摩爾定律難以為繼,通用處理器的性能提升速度大為減緩,在晶體管物理微縮和計算體系架構改進帶來的收益之爭中,後者漸處上風。
在此背景下,學術界和工業界紛紛將視野轉向針對特定領域設計高性能的專用芯片,擬將架構設計發揮到極致。
AI芯片作為最為典型的領域專用芯片代表,受到國內外研發單位的高度關注。國外有谷歌、蘋果、英特爾、IBM、英偉達等巨頭領銜,國內也有寒武紀、地平線、深鑑、華為、阿里等公司響應,最近清華大學的天機芯更是登上了Nature雜誌的封面[1],其形勢可謂如日中天。
然而,AI芯片中所謂的“智能”究竟源自於哪些模型,又和我們的大腦有何關係,他們的過去和未來將會怎樣,本文帶你一探究竟。
人工神經網絡
基本模型
機器學習是目前人工智能模型中最卓有成效的一個分支,而深度學習又是當今機器學習的寵兒,其以人工神經網絡(Artificial Neural Network, ANN)為主要模型。
ANN由大量神經元(Neuron)通過突觸(synapse)連接而成,從輸入到輸出呈現層級結構,當層數較多時則被稱為深度神經網絡(Deep Neural Networks)。
圖1 人工神經元示意圖
每個神經元的基本結構如圖1所示,而基本的計算原理為
,其中x
和y
分別為輸入和輸出激活值、
w為突觸連接的權重值、
b為偏置值、
φ為非線性激活函數。
圖2 不同網絡連接拓撲
(a) 全連接神經網絡;(b) 反饋神經網絡;(c)卷積神經網絡。
根據神經元的連接拓撲可以分為全連接神經網絡、卷積神經網絡、反饋神經網絡等,如圖2所示。
相比於全連接神經網絡,卷積神經網絡通過引入二維特徵圖與突觸核的卷積操作獲得了強大的局部特徵提取能力,被廣泛用於圖像處理領域。
而反饋神經網絡通過引入反饋連接,建立時序動力學模型,被廣泛用於處理語音文本等時序數據。
其實,ANNs模型的建立也是在不同時期中分別借鑑了神經科學的知識:
人工神經網絡的概念以及基本神經元模型於1943年就已提出[2],這正是試圖模擬腦皮層以神經元網絡形式進行信息處理的體現。
卷積神經網絡的局部感受野是受到大腦視覺系統的啟發。
深度神經網絡的層級構建是源於腦皮層的分層通路。
只不過在深度學習的後續發展中,研究者更加偏重把神經網絡視為一個黑匣,用於擬合從輸入到輸出的複雜映射關係:
只需要給網絡的輸出定義一個收斂目標(目標函數,比如每張圖像的輸出對應到正確的類別)並描述為一個優化問題,然後用梯度下降的方式去更新系統參數主要是突觸權重,使得輸出逐漸逼近想要的結果。
原則上網絡越大,特徵提取的能力就會越強,也就需要越多的數據來訓練網絡更新參數使網絡收斂,因此計算量也大幅增加。
故而,深度學習也被稱為數據和算力驅動的智能。雖然深度學習以解決實際應用為目標而與神經科學漸行漸遠,但近兩年也有科學家試圖在大腦中找到梯度下降的證據和吸收新的腦科學成果[3-8]。
深度學習的騰飛之路
深度學習的崛起也並非一蹴而就,是諸多因素相互促進的結晶。20世紀末到21世紀初很長一段時間內神經網絡方法不被多數人看好,其表現也不如傳統機器學習模型,多虧圖靈獎得主Hinton、LeCun和Bengio三位前輩的堅持,才有了今天的成就。
深度學習的飛速發展主要歸功於大型數據庫的誕生(如ImageNet)、高性能計算平臺(如GPUs)的出現、友好開發軟件的耕耘(如Tensorflow/Pytorch等)和神經網絡模型的改進(如卷積神經網中的VGG/Inception/ResNet/DenseNet),缺一不可。
由於成熟的算法、工具和應用場景,深度學習受到學術界和工業界的一致認可。深度學習加速器也現身各大學術頂會,並受到巨頭公司和創業公司的青睞,這其中就包括研發TPU的谷歌、手機內置神經引擎的蘋果以及國內的寒武紀、地平線、深鑑科技、華為、阿里等,當前主要熱門方向為研製運行ANNs模型的高性能雲計算平臺和低功耗終端器件。
來源:腦人言
撰文丨鄧 磊(加州大學-聖塔芭芭拉分校UCSB 博士後)
責編丨高茂森 Soma
排版丨夏獺
科學研究的動機,並非僅僅是出於能看到多酷炫的應用,而是因為我們尚有諸多未知世界需要探尋,這是一切應用的前提。
AI芯片如火如荼
AI芯片是當今人工智能熱潮中不可或缺的一個名詞,且受國際局勢影響愈加受到重視。摩爾定律難以為繼,通用處理器的性能提升速度大為減緩,在晶體管物理微縮和計算體系架構改進帶來的收益之爭中,後者漸處上風。
在此背景下,學術界和工業界紛紛將視野轉向針對特定領域設計高性能的專用芯片,擬將架構設計發揮到極致。
AI芯片作為最為典型的領域專用芯片代表,受到國內外研發單位的高度關注。國外有谷歌、蘋果、英特爾、IBM、英偉達等巨頭領銜,國內也有寒武紀、地平線、深鑑、華為、阿里等公司響應,最近清華大學的天機芯更是登上了Nature雜誌的封面[1],其形勢可謂如日中天。
然而,AI芯片中所謂的“智能”究竟源自於哪些模型,又和我們的大腦有何關係,他們的過去和未來將會怎樣,本文帶你一探究竟。
人工神經網絡
基本模型
機器學習是目前人工智能模型中最卓有成效的一個分支,而深度學習又是當今機器學習的寵兒,其以人工神經網絡(Artificial Neural Network, ANN)為主要模型。
ANN由大量神經元(Neuron)通過突觸(synapse)連接而成,從輸入到輸出呈現層級結構,當層數較多時則被稱為深度神經網絡(Deep Neural Networks)。
圖1 人工神經元示意圖
每個神經元的基本結構如圖1所示,而基本的計算原理為
,其中x
和y
分別為輸入和輸出激活值、
w為突觸連接的權重值、
b為偏置值、
φ為非線性激活函數。
圖2 不同網絡連接拓撲
(a) 全連接神經網絡;(b) 反饋神經網絡;(c)卷積神經網絡。
根據神經元的連接拓撲可以分為全連接神經網絡、卷積神經網絡、反饋神經網絡等,如圖2所示。
相比於全連接神經網絡,卷積神經網絡通過引入二維特徵圖與突觸核的卷積操作獲得了強大的局部特徵提取能力,被廣泛用於圖像處理領域。
而反饋神經網絡通過引入反饋連接,建立時序動力學模型,被廣泛用於處理語音文本等時序數據。
其實,ANNs模型的建立也是在不同時期中分別借鑑了神經科學的知識:
人工神經網絡的概念以及基本神經元模型於1943年就已提出[2],這正是試圖模擬腦皮層以神經元網絡形式進行信息處理的體現。
卷積神經網絡的局部感受野是受到大腦視覺系統的啟發。
深度神經網絡的層級構建是源於腦皮層的分層通路。
只不過在深度學習的後續發展中,研究者更加偏重把神經網絡視為一個黑匣,用於擬合從輸入到輸出的複雜映射關係:
只需要給網絡的輸出定義一個收斂目標(目標函數,比如每張圖像的輸出對應到正確的類別)並描述為一個優化問題,然後用梯度下降的方式去更新系統參數主要是突觸權重,使得輸出逐漸逼近想要的結果。
原則上網絡越大,特徵提取的能力就會越強,也就需要越多的數據來訓練網絡更新參數使網絡收斂,因此計算量也大幅增加。
故而,深度學習也被稱為數據和算力驅動的智能。雖然深度學習以解決實際應用為目標而與神經科學漸行漸遠,但近兩年也有科學家試圖在大腦中找到梯度下降的證據和吸收新的腦科學成果[3-8]。
深度學習的騰飛之路
深度學習的崛起也並非一蹴而就,是諸多因素相互促進的結晶。20世紀末到21世紀初很長一段時間內神經網絡方法不被多數人看好,其表現也不如傳統機器學習模型,多虧圖靈獎得主Hinton、LeCun和Bengio三位前輩的堅持,才有了今天的成就。
深度學習的飛速發展主要歸功於大型數據庫的誕生(如ImageNet)、高性能計算平臺(如GPUs)的出現、友好開發軟件的耕耘(如Tensorflow/Pytorch等)和神經網絡模型的改進(如卷積神經網中的VGG/Inception/ResNet/DenseNet),缺一不可。
由於成熟的算法、工具和應用場景,深度學習受到學術界和工業界的一致認可。深度學習加速器也現身各大學術頂會,並受到巨頭公司和創業公司的青睞,這其中就包括研發TPU的谷歌、手機內置神經引擎的蘋果以及國內的寒武紀、地平線、深鑑科技、華為、阿里等,當前主要熱門方向為研製運行ANNs模型的高性能雲計算平臺和低功耗終端器件。
脈衝神經網絡
基本模型
與深度學習不同,神經形態計算(neuromorphic computing)是目前智能模型中的又一大主要分支,它更加註重模擬大腦回路的行為,這裡給大家介紹兩類神經形態模型:脈衝神經網絡(Spiking Neural Network, SNN)和神經動力學網絡(Neural Dynamic Network)。
SNN與ANN主要有兩大不同,其一是採用脈衝編碼—spike code(0/1),其二是具有豐富的時間動力學。SNN神經元如圖3所示,其模型可簡單描述為:
來源:腦人言
撰文丨鄧 磊(加州大學-聖塔芭芭拉分校UCSB 博士後)
責編丨高茂森 Soma
排版丨夏獺
科學研究的動機,並非僅僅是出於能看到多酷炫的應用,而是因為我們尚有諸多未知世界需要探尋,這是一切應用的前提。
AI芯片如火如荼
AI芯片是當今人工智能熱潮中不可或缺的一個名詞,且受國際局勢影響愈加受到重視。摩爾定律難以為繼,通用處理器的性能提升速度大為減緩,在晶體管物理微縮和計算體系架構改進帶來的收益之爭中,後者漸處上風。
在此背景下,學術界和工業界紛紛將視野轉向針對特定領域設計高性能的專用芯片,擬將架構設計發揮到極致。
AI芯片作為最為典型的領域專用芯片代表,受到國內外研發單位的高度關注。國外有谷歌、蘋果、英特爾、IBM、英偉達等巨頭領銜,國內也有寒武紀、地平線、深鑑、華為、阿里等公司響應,最近清華大學的天機芯更是登上了Nature雜誌的封面[1],其形勢可謂如日中天。
然而,AI芯片中所謂的“智能”究竟源自於哪些模型,又和我們的大腦有何關係,他們的過去和未來將會怎樣,本文帶你一探究竟。
人工神經網絡
基本模型
機器學習是目前人工智能模型中最卓有成效的一個分支,而深度學習又是當今機器學習的寵兒,其以人工神經網絡(Artificial Neural Network, ANN)為主要模型。
ANN由大量神經元(Neuron)通過突觸(synapse)連接而成,從輸入到輸出呈現層級結構,當層數較多時則被稱為深度神經網絡(Deep Neural Networks)。
圖1 人工神經元示意圖
每個神經元的基本結構如圖1所示,而基本的計算原理為
,其中x
和y
分別為輸入和輸出激活值、
w為突觸連接的權重值、
b為偏置值、
φ為非線性激活函數。
圖2 不同網絡連接拓撲
(a) 全連接神經網絡;(b) 反饋神經網絡;(c)卷積神經網絡。
根據神經元的連接拓撲可以分為全連接神經網絡、卷積神經網絡、反饋神經網絡等,如圖2所示。
相比於全連接神經網絡,卷積神經網絡通過引入二維特徵圖與突觸核的卷積操作獲得了強大的局部特徵提取能力,被廣泛用於圖像處理領域。
而反饋神經網絡通過引入反饋連接,建立時序動力學模型,被廣泛用於處理語音文本等時序數據。
其實,ANNs模型的建立也是在不同時期中分別借鑑了神經科學的知識:
人工神經網絡的概念以及基本神經元模型於1943年就已提出[2],這正是試圖模擬腦皮層以神經元網絡形式進行信息處理的體現。
卷積神經網絡的局部感受野是受到大腦視覺系統的啟發。
深度神經網絡的層級構建是源於腦皮層的分層通路。
只不過在深度學習的後續發展中,研究者更加偏重把神經網絡視為一個黑匣,用於擬合從輸入到輸出的複雜映射關係:
只需要給網絡的輸出定義一個收斂目標(目標函數,比如每張圖像的輸出對應到正確的類別)並描述為一個優化問題,然後用梯度下降的方式去更新系統參數主要是突觸權重,使得輸出逐漸逼近想要的結果。
原則上網絡越大,特徵提取的能力就會越強,也就需要越多的數據來訓練網絡更新參數使網絡收斂,因此計算量也大幅增加。
故而,深度學習也被稱為數據和算力驅動的智能。雖然深度學習以解決實際應用為目標而與神經科學漸行漸遠,但近兩年也有科學家試圖在大腦中找到梯度下降的證據和吸收新的腦科學成果[3-8]。
深度學習的騰飛之路
深度學習的崛起也並非一蹴而就,是諸多因素相互促進的結晶。20世紀末到21世紀初很長一段時間內神經網絡方法不被多數人看好,其表現也不如傳統機器學習模型,多虧圖靈獎得主Hinton、LeCun和Bengio三位前輩的堅持,才有了今天的成就。
深度學習的飛速發展主要歸功於大型數據庫的誕生(如ImageNet)、高性能計算平臺(如GPUs)的出現、友好開發軟件的耕耘(如Tensorflow/Pytorch等)和神經網絡模型的改進(如卷積神經網中的VGG/Inception/ResNet/DenseNet),缺一不可。
由於成熟的算法、工具和應用場景,深度學習受到學術界和工業界的一致認可。深度學習加速器也現身各大學術頂會,並受到巨頭公司和創業公司的青睞,這其中就包括研發TPU的谷歌、手機內置神經引擎的蘋果以及國內的寒武紀、地平線、深鑑科技、華為、阿里等,當前主要熱門方向為研製運行ANNs模型的高性能雲計算平臺和低功耗終端器件。
脈衝神經網絡
基本模型
與深度學習不同,神經形態計算(neuromorphic computing)是目前智能模型中的又一大主要分支,它更加註重模擬大腦回路的行為,這裡給大家介紹兩類神經形態模型:脈衝神經網絡(Spiking Neural Network, SNN)和神經動力學網絡(Neural Dynamic Network)。
SNN與ANN主要有兩大不同,其一是採用脈衝編碼—spike code(0/1),其二是具有豐富的時間動力學。SNN神經元如圖3所示,其模型可簡單描述為:
來源:腦人言
撰文丨鄧 磊(加州大學-聖塔芭芭拉分校UCSB 博士後)
責編丨高茂森 Soma
排版丨夏獺
科學研究的動機,並非僅僅是出於能看到多酷炫的應用,而是因為我們尚有諸多未知世界需要探尋,這是一切應用的前提。
AI芯片如火如荼
AI芯片是當今人工智能熱潮中不可或缺的一個名詞,且受國際局勢影響愈加受到重視。摩爾定律難以為繼,通用處理器的性能提升速度大為減緩,在晶體管物理微縮和計算體系架構改進帶來的收益之爭中,後者漸處上風。
在此背景下,學術界和工業界紛紛將視野轉向針對特定領域設計高性能的專用芯片,擬將架構設計發揮到極致。
AI芯片作為最為典型的領域專用芯片代表,受到國內外研發單位的高度關注。國外有谷歌、蘋果、英特爾、IBM、英偉達等巨頭領銜,國內也有寒武紀、地平線、深鑑、華為、阿里等公司響應,最近清華大學的天機芯更是登上了Nature雜誌的封面[1],其形勢可謂如日中天。
然而,AI芯片中所謂的“智能”究竟源自於哪些模型,又和我們的大腦有何關係,他們的過去和未來將會怎樣,本文帶你一探究竟。
人工神經網絡
基本模型
機器學習是目前人工智能模型中最卓有成效的一個分支,而深度學習又是當今機器學習的寵兒,其以人工神經網絡(Artificial Neural Network, ANN)為主要模型。
ANN由大量神經元(Neuron)通過突觸(synapse)連接而成,從輸入到輸出呈現層級結構,當層數較多時則被稱為深度神經網絡(Deep Neural Networks)。
圖1 人工神經元示意圖
每個神經元的基本結構如圖1所示,而基本的計算原理為
,其中x
和y
分別為輸入和輸出激活值、
w為突觸連接的權重值、
b為偏置值、
φ為非線性激活函數。
圖2 不同網絡連接拓撲
(a) 全連接神經網絡;(b) 反饋神經網絡;(c)卷積神經網絡。
根據神經元的連接拓撲可以分為全連接神經網絡、卷積神經網絡、反饋神經網絡等,如圖2所示。
相比於全連接神經網絡,卷積神經網絡通過引入二維特徵圖與突觸核的卷積操作獲得了強大的局部特徵提取能力,被廣泛用於圖像處理領域。
而反饋神經網絡通過引入反饋連接,建立時序動力學模型,被廣泛用於處理語音文本等時序數據。
其實,ANNs模型的建立也是在不同時期中分別借鑑了神經科學的知識:
人工神經網絡的概念以及基本神經元模型於1943年就已提出[2],這正是試圖模擬腦皮層以神經元網絡形式進行信息處理的體現。
卷積神經網絡的局部感受野是受到大腦視覺系統的啟發。
深度神經網絡的層級構建是源於腦皮層的分層通路。
只不過在深度學習的後續發展中,研究者更加偏重把神經網絡視為一個黑匣,用於擬合從輸入到輸出的複雜映射關係:
只需要給網絡的輸出定義一個收斂目標(目標函數,比如每張圖像的輸出對應到正確的類別)並描述為一個優化問題,然後用梯度下降的方式去更新系統參數主要是突觸權重,使得輸出逐漸逼近想要的結果。
原則上網絡越大,特徵提取的能力就會越強,也就需要越多的數據來訓練網絡更新參數使網絡收斂,因此計算量也大幅增加。
故而,深度學習也被稱為數據和算力驅動的智能。雖然深度學習以解決實際應用為目標而與神經科學漸行漸遠,但近兩年也有科學家試圖在大腦中找到梯度下降的證據和吸收新的腦科學成果[3-8]。
深度學習的騰飛之路
深度學習的崛起也並非一蹴而就,是諸多因素相互促進的結晶。20世紀末到21世紀初很長一段時間內神經網絡方法不被多數人看好,其表現也不如傳統機器學習模型,多虧圖靈獎得主Hinton、LeCun和Bengio三位前輩的堅持,才有了今天的成就。
深度學習的飛速發展主要歸功於大型數據庫的誕生(如ImageNet)、高性能計算平臺(如GPUs)的出現、友好開發軟件的耕耘(如Tensorflow/Pytorch等)和神經網絡模型的改進(如卷積神經網中的VGG/Inception/ResNet/DenseNet),缺一不可。
由於成熟的算法、工具和應用場景,深度學習受到學術界和工業界的一致認可。深度學習加速器也現身各大學術頂會,並受到巨頭公司和創業公司的青睞,這其中就包括研發TPU的谷歌、手機內置神經引擎的蘋果以及國內的寒武紀、地平線、深鑑科技、華為、阿里等,當前主要熱門方向為研製運行ANNs模型的高性能雲計算平臺和低功耗終端器件。
脈衝神經網絡
基本模型
與深度學習不同,神經形態計算(neuromorphic computing)是目前智能模型中的又一大主要分支,它更加註重模擬大腦回路的行為,這裡給大家介紹兩類神經形態模型:脈衝神經網絡(Spiking Neural Network, SNN)和神經動力學網絡(Neural Dynamic Network)。
SNN與ANN主要有兩大不同,其一是採用脈衝編碼—spike code(0/1),其二是具有豐富的時間動力學。SNN神經元如圖3所示,其模型可簡單描述為:
其中,
來源:腦人言
撰文丨鄧 磊(加州大學-聖塔芭芭拉分校UCSB 博士後)
責編丨高茂森 Soma
排版丨夏獺
科學研究的動機,並非僅僅是出於能看到多酷炫的應用,而是因為我們尚有諸多未知世界需要探尋,這是一切應用的前提。
AI芯片如火如荼
AI芯片是當今人工智能熱潮中不可或缺的一個名詞,且受國際局勢影響愈加受到重視。摩爾定律難以為繼,通用處理器的性能提升速度大為減緩,在晶體管物理微縮和計算體系架構改進帶來的收益之爭中,後者漸處上風。
在此背景下,學術界和工業界紛紛將視野轉向針對特定領域設計高性能的專用芯片,擬將架構設計發揮到極致。
AI芯片作為最為典型的領域專用芯片代表,受到國內外研發單位的高度關注。國外有谷歌、蘋果、英特爾、IBM、英偉達等巨頭領銜,國內也有寒武紀、地平線、深鑑、華為、阿里等公司響應,最近清華大學的天機芯更是登上了Nature雜誌的封面[1],其形勢可謂如日中天。
然而,AI芯片中所謂的“智能”究竟源自於哪些模型,又和我們的大腦有何關係,他們的過去和未來將會怎樣,本文帶你一探究竟。
人工神經網絡
基本模型
機器學習是目前人工智能模型中最卓有成效的一個分支,而深度學習又是當今機器學習的寵兒,其以人工神經網絡(Artificial Neural Network, ANN)為主要模型。
ANN由大量神經元(Neuron)通過突觸(synapse)連接而成,從輸入到輸出呈現層級結構,當層數較多時則被稱為深度神經網絡(Deep Neural Networks)。
圖1 人工神經元示意圖
每個神經元的基本結構如圖1所示,而基本的計算原理為
,其中x
和y
分別為輸入和輸出激活值、
w為突觸連接的權重值、
b為偏置值、
φ為非線性激活函數。
圖2 不同網絡連接拓撲
(a) 全連接神經網絡;(b) 反饋神經網絡;(c)卷積神經網絡。
根據神經元的連接拓撲可以分為全連接神經網絡、卷積神經網絡、反饋神經網絡等,如圖2所示。
相比於全連接神經網絡,卷積神經網絡通過引入二維特徵圖與突觸核的卷積操作獲得了強大的局部特徵提取能力,被廣泛用於圖像處理領域。
而反饋神經網絡通過引入反饋連接,建立時序動力學模型,被廣泛用於處理語音文本等時序數據。
其實,ANNs模型的建立也是在不同時期中分別借鑑了神經科學的知識:
人工神經網絡的概念以及基本神經元模型於1943年就已提出[2],這正是試圖模擬腦皮層以神經元網絡形式進行信息處理的體現。
卷積神經網絡的局部感受野是受到大腦視覺系統的啟發。
深度神經網絡的層級構建是源於腦皮層的分層通路。
只不過在深度學習的後續發展中,研究者更加偏重把神經網絡視為一個黑匣,用於擬合從輸入到輸出的複雜映射關係:
只需要給網絡的輸出定義一個收斂目標(目標函數,比如每張圖像的輸出對應到正確的類別)並描述為一個優化問題,然後用梯度下降的方式去更新系統參數主要是突觸權重,使得輸出逐漸逼近想要的結果。
原則上網絡越大,特徵提取的能力就會越強,也就需要越多的數據來訓練網絡更新參數使網絡收斂,因此計算量也大幅增加。
故而,深度學習也被稱為數據和算力驅動的智能。雖然深度學習以解決實際應用為目標而與神經科學漸行漸遠,但近兩年也有科學家試圖在大腦中找到梯度下降的證據和吸收新的腦科學成果[3-8]。
深度學習的騰飛之路
深度學習的崛起也並非一蹴而就,是諸多因素相互促進的結晶。20世紀末到21世紀初很長一段時間內神經網絡方法不被多數人看好,其表現也不如傳統機器學習模型,多虧圖靈獎得主Hinton、LeCun和Bengio三位前輩的堅持,才有了今天的成就。
深度學習的飛速發展主要歸功於大型數據庫的誕生(如ImageNet)、高性能計算平臺(如GPUs)的出現、友好開發軟件的耕耘(如Tensorflow/Pytorch等)和神經網絡模型的改進(如卷積神經網中的VGG/Inception/ResNet/DenseNet),缺一不可。
由於成熟的算法、工具和應用場景,深度學習受到學術界和工業界的一致認可。深度學習加速器也現身各大學術頂會,並受到巨頭公司和創業公司的青睞,這其中就包括研發TPU的谷歌、手機內置神經引擎的蘋果以及國內的寒武紀、地平線、深鑑科技、華為、阿里等,當前主要熱門方向為研製運行ANNs模型的高性能雲計算平臺和低功耗終端器件。
脈衝神經網絡
基本模型
與深度學習不同,神經形態計算(neuromorphic computing)是目前智能模型中的又一大主要分支,它更加註重模擬大腦回路的行為,這裡給大家介紹兩類神經形態模型:脈衝神經網絡(Spiking Neural Network, SNN)和神經動力學網絡(Neural Dynamic Network)。
SNN與ANN主要有兩大不同,其一是採用脈衝編碼—spike code(0/1),其二是具有豐富的時間動力學。SNN神經元如圖3所示,其模型可簡單描述為:
其中,
(t)為時間步,t
來源:腦人言
撰文丨鄧 磊(加州大學-聖塔芭芭拉分校UCSB 博士後)
責編丨高茂森 Soma
排版丨夏獺
科學研究的動機,並非僅僅是出於能看到多酷炫的應用,而是因為我們尚有諸多未知世界需要探尋,這是一切應用的前提。
AI芯片如火如荼
AI芯片是當今人工智能熱潮中不可或缺的一個名詞,且受國際局勢影響愈加受到重視。摩爾定律難以為繼,通用處理器的性能提升速度大為減緩,在晶體管物理微縮和計算體系架構改進帶來的收益之爭中,後者漸處上風。
在此背景下,學術界和工業界紛紛將視野轉向針對特定領域設計高性能的專用芯片,擬將架構設計發揮到極致。
AI芯片作為最為典型的領域專用芯片代表,受到國內外研發單位的高度關注。國外有谷歌、蘋果、英特爾、IBM、英偉達等巨頭領銜,國內也有寒武紀、地平線、深鑑、華為、阿里等公司響應,最近清華大學的天機芯更是登上了Nature雜誌的封面[1],其形勢可謂如日中天。
然而,AI芯片中所謂的“智能”究竟源自於哪些模型,又和我們的大腦有何關係,他們的過去和未來將會怎樣,本文帶你一探究竟。
人工神經網絡
基本模型
機器學習是目前人工智能模型中最卓有成效的一個分支,而深度學習又是當今機器學習的寵兒,其以人工神經網絡(Artificial Neural Network, ANN)為主要模型。
ANN由大量神經元(Neuron)通過突觸(synapse)連接而成,從輸入到輸出呈現層級結構,當層數較多時則被稱為深度神經網絡(Deep Neural Networks)。
圖1 人工神經元示意圖
每個神經元的基本結構如圖1所示,而基本的計算原理為
,其中x
和y
分別為輸入和輸出激活值、
w為突觸連接的權重值、
b為偏置值、
φ為非線性激活函數。
圖2 不同網絡連接拓撲
(a) 全連接神經網絡;(b) 反饋神經網絡;(c)卷積神經網絡。
根據神經元的連接拓撲可以分為全連接神經網絡、卷積神經網絡、反饋神經網絡等,如圖2所示。
相比於全連接神經網絡,卷積神經網絡通過引入二維特徵圖與突觸核的卷積操作獲得了強大的局部特徵提取能力,被廣泛用於圖像處理領域。
而反饋神經網絡通過引入反饋連接,建立時序動力學模型,被廣泛用於處理語音文本等時序數據。
其實,ANNs模型的建立也是在不同時期中分別借鑑了神經科學的知識:
人工神經網絡的概念以及基本神經元模型於1943年就已提出[2],這正是試圖模擬腦皮層以神經元網絡形式進行信息處理的體現。
卷積神經網絡的局部感受野是受到大腦視覺系統的啟發。
深度神經網絡的層級構建是源於腦皮層的分層通路。
只不過在深度學習的後續發展中,研究者更加偏重把神經網絡視為一個黑匣,用於擬合從輸入到輸出的複雜映射關係:
只需要給網絡的輸出定義一個收斂目標(目標函數,比如每張圖像的輸出對應到正確的類別)並描述為一個優化問題,然後用梯度下降的方式去更新系統參數主要是突觸權重,使得輸出逐漸逼近想要的結果。
原則上網絡越大,特徵提取的能力就會越強,也就需要越多的數據來訓練網絡更新參數使網絡收斂,因此計算量也大幅增加。
故而,深度學習也被稱為數據和算力驅動的智能。雖然深度學習以解決實際應用為目標而與神經科學漸行漸遠,但近兩年也有科學家試圖在大腦中找到梯度下降的證據和吸收新的腦科學成果[3-8]。
深度學習的騰飛之路
深度學習的崛起也並非一蹴而就,是諸多因素相互促進的結晶。20世紀末到21世紀初很長一段時間內神經網絡方法不被多數人看好,其表現也不如傳統機器學習模型,多虧圖靈獎得主Hinton、LeCun和Bengio三位前輩的堅持,才有了今天的成就。
深度學習的飛速發展主要歸功於大型數據庫的誕生(如ImageNet)、高性能計算平臺(如GPUs)的出現、友好開發軟件的耕耘(如Tensorflow/Pytorch等)和神經網絡模型的改進(如卷積神經網中的VGG/Inception/ResNet/DenseNet),缺一不可。
由於成熟的算法、工具和應用場景,深度學習受到學術界和工業界的一致認可。深度學習加速器也現身各大學術頂會,並受到巨頭公司和創業公司的青睞,這其中就包括研發TPU的谷歌、手機內置神經引擎的蘋果以及國內的寒武紀、地平線、深鑑科技、華為、阿里等,當前主要熱門方向為研製運行ANNs模型的高性能雲計算平臺和低功耗終端器件。
脈衝神經網絡
基本模型
與深度學習不同,神經形態計算(neuromorphic computing)是目前智能模型中的又一大主要分支,它更加註重模擬大腦回路的行為,這裡給大家介紹兩類神經形態模型:脈衝神經網絡(Spiking Neural Network, SNN)和神經動力學網絡(Neural Dynamic Network)。
SNN與ANN主要有兩大不同,其一是採用脈衝編碼—spike code(0/1),其二是具有豐富的時間動力學。SNN神經元如圖3所示,其模型可簡單描述為:
其中,
(t)為時間步,t
是時間常數,
來源:腦人言
撰文丨鄧 磊(加州大學-聖塔芭芭拉分校UCSB 博士後)
責編丨高茂森 Soma
排版丨夏獺
科學研究的動機,並非僅僅是出於能看到多酷炫的應用,而是因為我們尚有諸多未知世界需要探尋,這是一切應用的前提。
AI芯片如火如荼
AI芯片是當今人工智能熱潮中不可或缺的一個名詞,且受國際局勢影響愈加受到重視。摩爾定律難以為繼,通用處理器的性能提升速度大為減緩,在晶體管物理微縮和計算體系架構改進帶來的收益之爭中,後者漸處上風。
在此背景下,學術界和工業界紛紛將視野轉向針對特定領域設計高性能的專用芯片,擬將架構設計發揮到極致。
AI芯片作為最為典型的領域專用芯片代表,受到國內外研發單位的高度關注。國外有谷歌、蘋果、英特爾、IBM、英偉達等巨頭領銜,國內也有寒武紀、地平線、深鑑、華為、阿里等公司響應,最近清華大學的天機芯更是登上了Nature雜誌的封面[1],其形勢可謂如日中天。
然而,AI芯片中所謂的“智能”究竟源自於哪些模型,又和我們的大腦有何關係,他們的過去和未來將會怎樣,本文帶你一探究竟。
人工神經網絡
基本模型
機器學習是目前人工智能模型中最卓有成效的一個分支,而深度學習又是當今機器學習的寵兒,其以人工神經網絡(Artificial Neural Network, ANN)為主要模型。
ANN由大量神經元(Neuron)通過突觸(synapse)連接而成,從輸入到輸出呈現層級結構,當層數較多時則被稱為深度神經網絡(Deep Neural Networks)。
圖1 人工神經元示意圖
每個神經元的基本結構如圖1所示,而基本的計算原理為
,其中x
和y
分別為輸入和輸出激活值、
w為突觸連接的權重值、
b為偏置值、
φ為非線性激活函數。
圖2 不同網絡連接拓撲
(a) 全連接神經網絡;(b) 反饋神經網絡;(c)卷積神經網絡。
根據神經元的連接拓撲可以分為全連接神經網絡、卷積神經網絡、反饋神經網絡等,如圖2所示。
相比於全連接神經網絡,卷積神經網絡通過引入二維特徵圖與突觸核的卷積操作獲得了強大的局部特徵提取能力,被廣泛用於圖像處理領域。
而反饋神經網絡通過引入反饋連接,建立時序動力學模型,被廣泛用於處理語音文本等時序數據。
其實,ANNs模型的建立也是在不同時期中分別借鑑了神經科學的知識:
人工神經網絡的概念以及基本神經元模型於1943年就已提出[2],這正是試圖模擬腦皮層以神經元網絡形式進行信息處理的體現。
卷積神經網絡的局部感受野是受到大腦視覺系統的啟發。
深度神經網絡的層級構建是源於腦皮層的分層通路。
只不過在深度學習的後續發展中,研究者更加偏重把神經網絡視為一個黑匣,用於擬合從輸入到輸出的複雜映射關係:
只需要給網絡的輸出定義一個收斂目標(目標函數,比如每張圖像的輸出對應到正確的類別)並描述為一個優化問題,然後用梯度下降的方式去更新系統參數主要是突觸權重,使得輸出逐漸逼近想要的結果。
原則上網絡越大,特徵提取的能力就會越強,也就需要越多的數據來訓練網絡更新參數使網絡收斂,因此計算量也大幅增加。
故而,深度學習也被稱為數據和算力驅動的智能。雖然深度學習以解決實際應用為目標而與神經科學漸行漸遠,但近兩年也有科學家試圖在大腦中找到梯度下降的證據和吸收新的腦科學成果[3-8]。
深度學習的騰飛之路
深度學習的崛起也並非一蹴而就,是諸多因素相互促進的結晶。20世紀末到21世紀初很長一段時間內神經網絡方法不被多數人看好,其表現也不如傳統機器學習模型,多虧圖靈獎得主Hinton、LeCun和Bengio三位前輩的堅持,才有了今天的成就。
深度學習的飛速發展主要歸功於大型數據庫的誕生(如ImageNet)、高性能計算平臺(如GPUs)的出現、友好開發軟件的耕耘(如Tensorflow/Pytorch等)和神經網絡模型的改進(如卷積神經網中的VGG/Inception/ResNet/DenseNet),缺一不可。
由於成熟的算法、工具和應用場景,深度學習受到學術界和工業界的一致認可。深度學習加速器也現身各大學術頂會,並受到巨頭公司和創業公司的青睞,這其中就包括研發TPU的谷歌、手機內置神經引擎的蘋果以及國內的寒武紀、地平線、深鑑科技、華為、阿里等,當前主要熱門方向為研製運行ANNs模型的高性能雲計算平臺和低功耗終端器件。
脈衝神經網絡
基本模型
與深度學習不同,神經形態計算(neuromorphic computing)是目前智能模型中的又一大主要分支,它更加註重模擬大腦回路的行為,這裡給大家介紹兩類神經形態模型:脈衝神經網絡(Spiking Neural Network, SNN)和神經動力學網絡(Neural Dynamic Network)。
SNN與ANN主要有兩大不同,其一是採用脈衝編碼—spike code(0/1),其二是具有豐富的時間動力學。SNN神經元如圖3所示,其模型可簡單描述為:
其中,
(t)為時間步,t
是時間常數,
u為神經元膜電位,
來源:腦人言
撰文丨鄧 磊(加州大學-聖塔芭芭拉分校UCSB 博士後)
責編丨高茂森 Soma
排版丨夏獺
科學研究的動機,並非僅僅是出於能看到多酷炫的應用,而是因為我們尚有諸多未知世界需要探尋,這是一切應用的前提。
AI芯片如火如荼
AI芯片是當今人工智能熱潮中不可或缺的一個名詞,且受國際局勢影響愈加受到重視。摩爾定律難以為繼,通用處理器的性能提升速度大為減緩,在晶體管物理微縮和計算體系架構改進帶來的收益之爭中,後者漸處上風。
在此背景下,學術界和工業界紛紛將視野轉向針對特定領域設計高性能的專用芯片,擬將架構設計發揮到極致。
AI芯片作為最為典型的領域專用芯片代表,受到國內外研發單位的高度關注。國外有谷歌、蘋果、英特爾、IBM、英偉達等巨頭領銜,國內也有寒武紀、地平線、深鑑、華為、阿里等公司響應,最近清華大學的天機芯更是登上了Nature雜誌的封面[1],其形勢可謂如日中天。
然而,AI芯片中所謂的“智能”究竟源自於哪些模型,又和我們的大腦有何關係,他們的過去和未來將會怎樣,本文帶你一探究竟。
人工神經網絡
基本模型
機器學習是目前人工智能模型中最卓有成效的一個分支,而深度學習又是當今機器學習的寵兒,其以人工神經網絡(Artificial Neural Network, ANN)為主要模型。
ANN由大量神經元(Neuron)通過突觸(synapse)連接而成,從輸入到輸出呈現層級結構,當層數較多時則被稱為深度神經網絡(Deep Neural Networks)。
圖1 人工神經元示意圖
每個神經元的基本結構如圖1所示,而基本的計算原理為
,其中x
和y
分別為輸入和輸出激活值、
w為突觸連接的權重值、
b為偏置值、
φ為非線性激活函數。
圖2 不同網絡連接拓撲
(a) 全連接神經網絡;(b) 反饋神經網絡;(c)卷積神經網絡。
根據神經元的連接拓撲可以分為全連接神經網絡、卷積神經網絡、反饋神經網絡等,如圖2所示。
相比於全連接神經網絡,卷積神經網絡通過引入二維特徵圖與突觸核的卷積操作獲得了強大的局部特徵提取能力,被廣泛用於圖像處理領域。
而反饋神經網絡通過引入反饋連接,建立時序動力學模型,被廣泛用於處理語音文本等時序數據。
其實,ANNs模型的建立也是在不同時期中分別借鑑了神經科學的知識:
人工神經網絡的概念以及基本神經元模型於1943年就已提出[2],這正是試圖模擬腦皮層以神經元網絡形式進行信息處理的體現。
卷積神經網絡的局部感受野是受到大腦視覺系統的啟發。
深度神經網絡的層級構建是源於腦皮層的分層通路。
只不過在深度學習的後續發展中,研究者更加偏重把神經網絡視為一個黑匣,用於擬合從輸入到輸出的複雜映射關係:
只需要給網絡的輸出定義一個收斂目標(目標函數,比如每張圖像的輸出對應到正確的類別)並描述為一個優化問題,然後用梯度下降的方式去更新系統參數主要是突觸權重,使得輸出逐漸逼近想要的結果。
原則上網絡越大,特徵提取的能力就會越強,也就需要越多的數據來訓練網絡更新參數使網絡收斂,因此計算量也大幅增加。
故而,深度學習也被稱為數據和算力驅動的智能。雖然深度學習以解決實際應用為目標而與神經科學漸行漸遠,但近兩年也有科學家試圖在大腦中找到梯度下降的證據和吸收新的腦科學成果[3-8]。
深度學習的騰飛之路
深度學習的崛起也並非一蹴而就,是諸多因素相互促進的結晶。20世紀末到21世紀初很長一段時間內神經網絡方法不被多數人看好,其表現也不如傳統機器學習模型,多虧圖靈獎得主Hinton、LeCun和Bengio三位前輩的堅持,才有了今天的成就。
深度學習的飛速發展主要歸功於大型數據庫的誕生(如ImageNet)、高性能計算平臺(如GPUs)的出現、友好開發軟件的耕耘(如Tensorflow/Pytorch等)和神經網絡模型的改進(如卷積神經網中的VGG/Inception/ResNet/DenseNet),缺一不可。
由於成熟的算法、工具和應用場景,深度學習受到學術界和工業界的一致認可。深度學習加速器也現身各大學術頂會,並受到巨頭公司和創業公司的青睞,這其中就包括研發TPU的谷歌、手機內置神經引擎的蘋果以及國內的寒武紀、地平線、深鑑科技、華為、阿里等,當前主要熱門方向為研製運行ANNs模型的高性能雲計算平臺和低功耗終端器件。
脈衝神經網絡
基本模型
與深度學習不同,神經形態計算(neuromorphic computing)是目前智能模型中的又一大主要分支,它更加註重模擬大腦回路的行為,這裡給大家介紹兩類神經形態模型:脈衝神經網絡(Spiking Neural Network, SNN)和神經動力學網絡(Neural Dynamic Network)。
SNN與ANN主要有兩大不同,其一是採用脈衝編碼—spike code(0/1),其二是具有豐富的時間動力學。SNN神經元如圖3所示,其模型可簡單描述為:
其中,
(t)為時間步,t
是時間常數,
u為神經元膜電位,
s為神經元的脈衝輸出,
來源:腦人言
撰文丨鄧 磊(加州大學-聖塔芭芭拉分校UCSB 博士後)
責編丨高茂森 Soma
排版丨夏獺
科學研究的動機,並非僅僅是出於能看到多酷炫的應用,而是因為我們尚有諸多未知世界需要探尋,這是一切應用的前提。
AI芯片如火如荼
AI芯片是當今人工智能熱潮中不可或缺的一個名詞,且受國際局勢影響愈加受到重視。摩爾定律難以為繼,通用處理器的性能提升速度大為減緩,在晶體管物理微縮和計算體系架構改進帶來的收益之爭中,後者漸處上風。
在此背景下,學術界和工業界紛紛將視野轉向針對特定領域設計高性能的專用芯片,擬將架構設計發揮到極致。
AI芯片作為最為典型的領域專用芯片代表,受到國內外研發單位的高度關注。國外有谷歌、蘋果、英特爾、IBM、英偉達等巨頭領銜,國內也有寒武紀、地平線、深鑑、華為、阿里等公司響應,最近清華大學的天機芯更是登上了Nature雜誌的封面[1],其形勢可謂如日中天。
然而,AI芯片中所謂的“智能”究竟源自於哪些模型,又和我們的大腦有何關係,他們的過去和未來將會怎樣,本文帶你一探究竟。
人工神經網絡
基本模型
機器學習是目前人工智能模型中最卓有成效的一個分支,而深度學習又是當今機器學習的寵兒,其以人工神經網絡(Artificial Neural Network, ANN)為主要模型。
ANN由大量神經元(Neuron)通過突觸(synapse)連接而成,從輸入到輸出呈現層級結構,當層數較多時則被稱為深度神經網絡(Deep Neural Networks)。
圖1 人工神經元示意圖
每個神經元的基本結構如圖1所示,而基本的計算原理為
,其中x
和y
分別為輸入和輸出激活值、
w為突觸連接的權重值、
b為偏置值、
φ為非線性激活函數。
圖2 不同網絡連接拓撲
(a) 全連接神經網絡;(b) 反饋神經網絡;(c)卷積神經網絡。
根據神經元的連接拓撲可以分為全連接神經網絡、卷積神經網絡、反饋神經網絡等,如圖2所示。
相比於全連接神經網絡,卷積神經網絡通過引入二維特徵圖與突觸核的卷積操作獲得了強大的局部特徵提取能力,被廣泛用於圖像處理領域。
而反饋神經網絡通過引入反饋連接,建立時序動力學模型,被廣泛用於處理語音文本等時序數據。
其實,ANNs模型的建立也是在不同時期中分別借鑑了神經科學的知識:
人工神經網絡的概念以及基本神經元模型於1943年就已提出[2],這正是試圖模擬腦皮層以神經元網絡形式進行信息處理的體現。
卷積神經網絡的局部感受野是受到大腦視覺系統的啟發。
深度神經網絡的層級構建是源於腦皮層的分層通路。
只不過在深度學習的後續發展中,研究者更加偏重把神經網絡視為一個黑匣,用於擬合從輸入到輸出的複雜映射關係:
只需要給網絡的輸出定義一個收斂目標(目標函數,比如每張圖像的輸出對應到正確的類別)並描述為一個優化問題,然後用梯度下降的方式去更新系統參數主要是突觸權重,使得輸出逐漸逼近想要的結果。
原則上網絡越大,特徵提取的能力就會越強,也就需要越多的數據來訓練網絡更新參數使網絡收斂,因此計算量也大幅增加。
故而,深度學習也被稱為數據和算力驅動的智能。雖然深度學習以解決實際應用為目標而與神經科學漸行漸遠,但近兩年也有科學家試圖在大腦中找到梯度下降的證據和吸收新的腦科學成果[3-8]。
深度學習的騰飛之路
深度學習的崛起也並非一蹴而就,是諸多因素相互促進的結晶。20世紀末到21世紀初很長一段時間內神經網絡方法不被多數人看好,其表現也不如傳統機器學習模型,多虧圖靈獎得主Hinton、LeCun和Bengio三位前輩的堅持,才有了今天的成就。
深度學習的飛速發展主要歸功於大型數據庫的誕生(如ImageNet)、高性能計算平臺(如GPUs)的出現、友好開發軟件的耕耘(如Tensorflow/Pytorch等)和神經網絡模型的改進(如卷積神經網中的VGG/Inception/ResNet/DenseNet),缺一不可。
由於成熟的算法、工具和應用場景,深度學習受到學術界和工業界的一致認可。深度學習加速器也現身各大學術頂會,並受到巨頭公司和創業公司的青睞,這其中就包括研發TPU的谷歌、手機內置神經引擎的蘋果以及國內的寒武紀、地平線、深鑑科技、華為、阿里等,當前主要熱門方向為研製運行ANNs模型的高性能雲計算平臺和低功耗終端器件。
脈衝神經網絡
基本模型
與深度學習不同,神經形態計算(neuromorphic computing)是目前智能模型中的又一大主要分支,它更加註重模擬大腦回路的行為,這裡給大家介紹兩類神經形態模型:脈衝神經網絡(Spiking Neural Network, SNN)和神經動力學網絡(Neural Dynamic Network)。
SNN與ANN主要有兩大不同,其一是採用脈衝編碼—spike code(0/1),其二是具有豐富的時間動力學。SNN神經元如圖3所示,其模型可簡單描述為:
其中,
(t)為時間步,t
是時間常數,
u為神經元膜電位,
s為神經元的脈衝輸出,
來源:腦人言
撰文丨鄧 磊(加州大學-聖塔芭芭拉分校UCSB 博士後)
責編丨高茂森 Soma
排版丨夏獺
科學研究的動機,並非僅僅是出於能看到多酷炫的應用,而是因為我們尚有諸多未知世界需要探尋,這是一切應用的前提。
AI芯片如火如荼
AI芯片是當今人工智能熱潮中不可或缺的一個名詞,且受國際局勢影響愈加受到重視。摩爾定律難以為繼,通用處理器的性能提升速度大為減緩,在晶體管物理微縮和計算體系架構改進帶來的收益之爭中,後者漸處上風。
在此背景下,學術界和工業界紛紛將視野轉向針對特定領域設計高性能的專用芯片,擬將架構設計發揮到極致。
AI芯片作為最為典型的領域專用芯片代表,受到國內外研發單位的高度關注。國外有谷歌、蘋果、英特爾、IBM、英偉達等巨頭領銜,國內也有寒武紀、地平線、深鑑、華為、阿里等公司響應,最近清華大學的天機芯更是登上了Nature雜誌的封面[1],其形勢可謂如日中天。
然而,AI芯片中所謂的“智能”究竟源自於哪些模型,又和我們的大腦有何關係,他們的過去和未來將會怎樣,本文帶你一探究竟。
人工神經網絡
基本模型
機器學習是目前人工智能模型中最卓有成效的一個分支,而深度學習又是當今機器學習的寵兒,其以人工神經網絡(Artificial Neural Network, ANN)為主要模型。
ANN由大量神經元(Neuron)通過突觸(synapse)連接而成,從輸入到輸出呈現層級結構,當層數較多時則被稱為深度神經網絡(Deep Neural Networks)。
圖1 人工神經元示意圖
每個神經元的基本結構如圖1所示,而基本的計算原理為
,其中x
和y
分別為輸入和輸出激活值、
w為突觸連接的權重值、
b為偏置值、
φ為非線性激活函數。
圖2 不同網絡連接拓撲
(a) 全連接神經網絡;(b) 反饋神經網絡;(c)卷積神經網絡。
根據神經元的連接拓撲可以分為全連接神經網絡、卷積神經網絡、反饋神經網絡等,如圖2所示。
相比於全連接神經網絡,卷積神經網絡通過引入二維特徵圖與突觸核的卷積操作獲得了強大的局部特徵提取能力,被廣泛用於圖像處理領域。
而反饋神經網絡通過引入反饋連接,建立時序動力學模型,被廣泛用於處理語音文本等時序數據。
其實,ANNs模型的建立也是在不同時期中分別借鑑了神經科學的知識:
人工神經網絡的概念以及基本神經元模型於1943年就已提出[2],這正是試圖模擬腦皮層以神經元網絡形式進行信息處理的體現。
卷積神經網絡的局部感受野是受到大腦視覺系統的啟發。
深度神經網絡的層級構建是源於腦皮層的分層通路。
只不過在深度學習的後續發展中,研究者更加偏重把神經網絡視為一個黑匣,用於擬合從輸入到輸出的複雜映射關係:
只需要給網絡的輸出定義一個收斂目標(目標函數,比如每張圖像的輸出對應到正確的類別)並描述為一個優化問題,然後用梯度下降的方式去更新系統參數主要是突觸權重,使得輸出逐漸逼近想要的結果。
原則上網絡越大,特徵提取的能力就會越強,也就需要越多的數據來訓練網絡更新參數使網絡收斂,因此計算量也大幅增加。
故而,深度學習也被稱為數據和算力驅動的智能。雖然深度學習以解決實際應用為目標而與神經科學漸行漸遠,但近兩年也有科學家試圖在大腦中找到梯度下降的證據和吸收新的腦科學成果[3-8]。
深度學習的騰飛之路
深度學習的崛起也並非一蹴而就,是諸多因素相互促進的結晶。20世紀末到21世紀初很長一段時間內神經網絡方法不被多數人看好,其表現也不如傳統機器學習模型,多虧圖靈獎得主Hinton、LeCun和Bengio三位前輩的堅持,才有了今天的成就。
深度學習的飛速發展主要歸功於大型數據庫的誕生(如ImageNet)、高性能計算平臺(如GPUs)的出現、友好開發軟件的耕耘(如Tensorflow/Pytorch等)和神經網絡模型的改進(如卷積神經網中的VGG/Inception/ResNet/DenseNet),缺一不可。
由於成熟的算法、工具和應用場景,深度學習受到學術界和工業界的一致認可。深度學習加速器也現身各大學術頂會,並受到巨頭公司和創業公司的青睞,這其中就包括研發TPU的谷歌、手機內置神經引擎的蘋果以及國內的寒武紀、地平線、深鑑科技、華為、阿里等,當前主要熱門方向為研製運行ANNs模型的高性能雲計算平臺和低功耗終端器件。
脈衝神經網絡
基本模型
與深度學習不同,神經形態計算(neuromorphic computing)是目前智能模型中的又一大主要分支,它更加註重模擬大腦回路的行為,這裡給大家介紹兩類神經形態模型:脈衝神經網絡(Spiking Neural Network, SNN)和神經動力學網絡(Neural Dynamic Network)。
SNN與ANN主要有兩大不同,其一是採用脈衝編碼—spike code(0/1),其二是具有豐富的時間動力學。SNN神經元如圖3所示,其模型可簡單描述為:
其中,
(t)為時間步,t
是時間常數,
u為神經元膜電位,
s為神經元的脈衝輸出,
和
來源:腦人言
撰文丨鄧 磊(加州大學-聖塔芭芭拉分校UCSB 博士後)
責編丨高茂森 Soma
排版丨夏獺
科學研究的動機,並非僅僅是出於能看到多酷炫的應用,而是因為我們尚有諸多未知世界需要探尋,這是一切應用的前提。
AI芯片如火如荼
AI芯片是當今人工智能熱潮中不可或缺的一個名詞,且受國際局勢影響愈加受到重視。摩爾定律難以為繼,通用處理器的性能提升速度大為減緩,在晶體管物理微縮和計算體系架構改進帶來的收益之爭中,後者漸處上風。
在此背景下,學術界和工業界紛紛將視野轉向針對特定領域設計高性能的專用芯片,擬將架構設計發揮到極致。
AI芯片作為最為典型的領域專用芯片代表,受到國內外研發單位的高度關注。國外有谷歌、蘋果、英特爾、IBM、英偉達等巨頭領銜,國內也有寒武紀、地平線、深鑑、華為、阿里等公司響應,最近清華大學的天機芯更是登上了Nature雜誌的封面[1],其形勢可謂如日中天。
然而,AI芯片中所謂的“智能”究竟源自於哪些模型,又和我們的大腦有何關係,他們的過去和未來將會怎樣,本文帶你一探究竟。
人工神經網絡
基本模型
機器學習是目前人工智能模型中最卓有成效的一個分支,而深度學習又是當今機器學習的寵兒,其以人工神經網絡(Artificial Neural Network, ANN)為主要模型。
ANN由大量神經元(Neuron)通過突觸(synapse)連接而成,從輸入到輸出呈現層級結構,當層數較多時則被稱為深度神經網絡(Deep Neural Networks)。
圖1 人工神經元示意圖
每個神經元的基本結構如圖1所示,而基本的計算原理為
,其中x
和y
分別為輸入和輸出激活值、
w為突觸連接的權重值、
b為偏置值、
φ為非線性激活函數。
圖2 不同網絡連接拓撲
(a) 全連接神經網絡;(b) 反饋神經網絡;(c)卷積神經網絡。
根據神經元的連接拓撲可以分為全連接神經網絡、卷積神經網絡、反饋神經網絡等,如圖2所示。
相比於全連接神經網絡,卷積神經網絡通過引入二維特徵圖與突觸核的卷積操作獲得了強大的局部特徵提取能力,被廣泛用於圖像處理領域。
而反饋神經網絡通過引入反饋連接,建立時序動力學模型,被廣泛用於處理語音文本等時序數據。
其實,ANNs模型的建立也是在不同時期中分別借鑑了神經科學的知識:
人工神經網絡的概念以及基本神經元模型於1943年就已提出[2],這正是試圖模擬腦皮層以神經元網絡形式進行信息處理的體現。
卷積神經網絡的局部感受野是受到大腦視覺系統的啟發。
深度神經網絡的層級構建是源於腦皮層的分層通路。
只不過在深度學習的後續發展中,研究者更加偏重把神經網絡視為一個黑匣,用於擬合從輸入到輸出的複雜映射關係:
只需要給網絡的輸出定義一個收斂目標(目標函數,比如每張圖像的輸出對應到正確的類別)並描述為一個優化問題,然後用梯度下降的方式去更新系統參數主要是突觸權重,使得輸出逐漸逼近想要的結果。
原則上網絡越大,特徵提取的能力就會越強,也就需要越多的數據來訓練網絡更新參數使網絡收斂,因此計算量也大幅增加。
故而,深度學習也被稱為數據和算力驅動的智能。雖然深度學習以解決實際應用為目標而與神經科學漸行漸遠,但近兩年也有科學家試圖在大腦中找到梯度下降的證據和吸收新的腦科學成果[3-8]。
深度學習的騰飛之路
深度學習的崛起也並非一蹴而就,是諸多因素相互促進的結晶。20世紀末到21世紀初很長一段時間內神經網絡方法不被多數人看好,其表現也不如傳統機器學習模型,多虧圖靈獎得主Hinton、LeCun和Bengio三位前輩的堅持,才有了今天的成就。
深度學習的飛速發展主要歸功於大型數據庫的誕生(如ImageNet)、高性能計算平臺(如GPUs)的出現、友好開發軟件的耕耘(如Tensorflow/Pytorch等)和神經網絡模型的改進(如卷積神經網中的VGG/Inception/ResNet/DenseNet),缺一不可。
由於成熟的算法、工具和應用場景,深度學習受到學術界和工業界的一致認可。深度學習加速器也現身各大學術頂會,並受到巨頭公司和創業公司的青睞,這其中就包括研發TPU的谷歌、手機內置神經引擎的蘋果以及國內的寒武紀、地平線、深鑑科技、華為、阿里等,當前主要熱門方向為研製運行ANNs模型的高性能雲計算平臺和低功耗終端器件。
脈衝神經網絡
基本模型
與深度學習不同,神經形態計算(neuromorphic computing)是目前智能模型中的又一大主要分支,它更加註重模擬大腦回路的行為,這裡給大家介紹兩類神經形態模型:脈衝神經網絡(Spiking Neural Network, SNN)和神經動力學網絡(Neural Dynamic Network)。
SNN與ANN主要有兩大不同,其一是採用脈衝編碼—spike code(0/1),其二是具有豐富的時間動力學。SNN神經元如圖3所示,其模型可簡單描述為:
其中,
(t)為時間步,t
是時間常數,
u為神經元膜電位,
s為神經元的脈衝輸出,
和
來源:腦人言
撰文丨鄧 磊(加州大學-聖塔芭芭拉分校UCSB 博士後)
責編丨高茂森 Soma
排版丨夏獺
科學研究的動機,並非僅僅是出於能看到多酷炫的應用,而是因為我們尚有諸多未知世界需要探尋,這是一切應用的前提。
AI芯片如火如荼
AI芯片是當今人工智能熱潮中不可或缺的一個名詞,且受國際局勢影響愈加受到重視。摩爾定律難以為繼,通用處理器的性能提升速度大為減緩,在晶體管物理微縮和計算體系架構改進帶來的收益之爭中,後者漸處上風。
在此背景下,學術界和工業界紛紛將視野轉向針對特定領域設計高性能的專用芯片,擬將架構設計發揮到極致。
AI芯片作為最為典型的領域專用芯片代表,受到國內外研發單位的高度關注。國外有谷歌、蘋果、英特爾、IBM、英偉達等巨頭領銜,國內也有寒武紀、地平線、深鑑、華為、阿里等公司響應,最近清華大學的天機芯更是登上了Nature雜誌的封面[1],其形勢可謂如日中天。
然而,AI芯片中所謂的“智能”究竟源自於哪些模型,又和我們的大腦有何關係,他們的過去和未來將會怎樣,本文帶你一探究竟。
人工神經網絡
基本模型
機器學習是目前人工智能模型中最卓有成效的一個分支,而深度學習又是當今機器學習的寵兒,其以人工神經網絡(Artificial Neural Network, ANN)為主要模型。
ANN由大量神經元(Neuron)通過突觸(synapse)連接而成,從輸入到輸出呈現層級結構,當層數較多時則被稱為深度神經網絡(Deep Neural Networks)。
圖1 人工神經元示意圖
每個神經元的基本結構如圖1所示,而基本的計算原理為
,其中x
和y
分別為輸入和輸出激活值、
w為突觸連接的權重值、
b為偏置值、
φ為非線性激活函數。
圖2 不同網絡連接拓撲
(a) 全連接神經網絡;(b) 反饋神經網絡;(c)卷積神經網絡。
根據神經元的連接拓撲可以分為全連接神經網絡、卷積神經網絡、反饋神經網絡等,如圖2所示。
相比於全連接神經網絡,卷積神經網絡通過引入二維特徵圖與突觸核的卷積操作獲得了強大的局部特徵提取能力,被廣泛用於圖像處理領域。
而反饋神經網絡通過引入反饋連接,建立時序動力學模型,被廣泛用於處理語音文本等時序數據。
其實,ANNs模型的建立也是在不同時期中分別借鑑了神經科學的知識:
人工神經網絡的概念以及基本神經元模型於1943年就已提出[2],這正是試圖模擬腦皮層以神經元網絡形式進行信息處理的體現。
卷積神經網絡的局部感受野是受到大腦視覺系統的啟發。
深度神經網絡的層級構建是源於腦皮層的分層通路。
只不過在深度學習的後續發展中,研究者更加偏重把神經網絡視為一個黑匣,用於擬合從輸入到輸出的複雜映射關係:
只需要給網絡的輸出定義一個收斂目標(目標函數,比如每張圖像的輸出對應到正確的類別)並描述為一個優化問題,然後用梯度下降的方式去更新系統參數主要是突觸權重,使得輸出逐漸逼近想要的結果。
原則上網絡越大,特徵提取的能力就會越強,也就需要越多的數據來訓練網絡更新參數使網絡收斂,因此計算量也大幅增加。
故而,深度學習也被稱為數據和算力驅動的智能。雖然深度學習以解決實際應用為目標而與神經科學漸行漸遠,但近兩年也有科學家試圖在大腦中找到梯度下降的證據和吸收新的腦科學成果[3-8]。
深度學習的騰飛之路
深度學習的崛起也並非一蹴而就,是諸多因素相互促進的結晶。20世紀末到21世紀初很長一段時間內神經網絡方法不被多數人看好,其表現也不如傳統機器學習模型,多虧圖靈獎得主Hinton、LeCun和Bengio三位前輩的堅持,才有了今天的成就。
深度學習的飛速發展主要歸功於大型數據庫的誕生(如ImageNet)、高性能計算平臺(如GPUs)的出現、友好開發軟件的耕耘(如Tensorflow/Pytorch等)和神經網絡模型的改進(如卷積神經網中的VGG/Inception/ResNet/DenseNet),缺一不可。
由於成熟的算法、工具和應用場景,深度學習受到學術界和工業界的一致認可。深度學習加速器也現身各大學術頂會,並受到巨頭公司和創業公司的青睞,這其中就包括研發TPU的谷歌、手機內置神經引擎的蘋果以及國內的寒武紀、地平線、深鑑科技、華為、阿里等,當前主要熱門方向為研製運行ANNs模型的高性能雲計算平臺和低功耗終端器件。
脈衝神經網絡
基本模型
與深度學習不同,神經形態計算(neuromorphic computing)是目前智能模型中的又一大主要分支,它更加註重模擬大腦回路的行為,這裡給大家介紹兩類神經形態模型:脈衝神經網絡(Spiking Neural Network, SNN)和神經動力學網絡(Neural Dynamic Network)。
SNN與ANN主要有兩大不同,其一是採用脈衝編碼—spike code(0/1),其二是具有豐富的時間動力學。SNN神經元如圖3所示,其模型可簡單描述為:
其中,
(t)為時間步,t
是時間常數,
u為神經元膜電位,
s為神經元的脈衝輸出,
和
分別為神經元靜息電位和重置電位,
來源:腦人言
撰文丨鄧 磊(加州大學-聖塔芭芭拉分校UCSB 博士後)
責編丨高茂森 Soma
排版丨夏獺
科學研究的動機,並非僅僅是出於能看到多酷炫的應用,而是因為我們尚有諸多未知世界需要探尋,這是一切應用的前提。
AI芯片如火如荼
AI芯片是當今人工智能熱潮中不可或缺的一個名詞,且受國際局勢影響愈加受到重視。摩爾定律難以為繼,通用處理器的性能提升速度大為減緩,在晶體管物理微縮和計算體系架構改進帶來的收益之爭中,後者漸處上風。
在此背景下,學術界和工業界紛紛將視野轉向針對特定領域設計高性能的專用芯片,擬將架構設計發揮到極致。
AI芯片作為最為典型的領域專用芯片代表,受到國內外研發單位的高度關注。國外有谷歌、蘋果、英特爾、IBM、英偉達等巨頭領銜,國內也有寒武紀、地平線、深鑑、華為、阿里等公司響應,最近清華大學的天機芯更是登上了Nature雜誌的封面[1],其形勢可謂如日中天。
然而,AI芯片中所謂的“智能”究竟源自於哪些模型,又和我們的大腦有何關係,他們的過去和未來將會怎樣,本文帶你一探究竟。
人工神經網絡
基本模型
機器學習是目前人工智能模型中最卓有成效的一個分支,而深度學習又是當今機器學習的寵兒,其以人工神經網絡(Artificial Neural Network, ANN)為主要模型。
ANN由大量神經元(Neuron)通過突觸(synapse)連接而成,從輸入到輸出呈現層級結構,當層數較多時則被稱為深度神經網絡(Deep Neural Networks)。
圖1 人工神經元示意圖
每個神經元的基本結構如圖1所示,而基本的計算原理為
,其中x
和y
分別為輸入和輸出激活值、
w為突觸連接的權重值、
b為偏置值、
φ為非線性激活函數。
圖2 不同網絡連接拓撲
(a) 全連接神經網絡;(b) 反饋神經網絡;(c)卷積神經網絡。
根據神經元的連接拓撲可以分為全連接神經網絡、卷積神經網絡、反饋神經網絡等,如圖2所示。
相比於全連接神經網絡,卷積神經網絡通過引入二維特徵圖與突觸核的卷積操作獲得了強大的局部特徵提取能力,被廣泛用於圖像處理領域。
而反饋神經網絡通過引入反饋連接,建立時序動力學模型,被廣泛用於處理語音文本等時序數據。
其實,ANNs模型的建立也是在不同時期中分別借鑑了神經科學的知識:
人工神經網絡的概念以及基本神經元模型於1943年就已提出[2],這正是試圖模擬腦皮層以神經元網絡形式進行信息處理的體現。
卷積神經網絡的局部感受野是受到大腦視覺系統的啟發。
深度神經網絡的層級構建是源於腦皮層的分層通路。
只不過在深度學習的後續發展中,研究者更加偏重把神經網絡視為一個黑匣,用於擬合從輸入到輸出的複雜映射關係:
只需要給網絡的輸出定義一個收斂目標(目標函數,比如每張圖像的輸出對應到正確的類別)並描述為一個優化問題,然後用梯度下降的方式去更新系統參數主要是突觸權重,使得輸出逐漸逼近想要的結果。
原則上網絡越大,特徵提取的能力就會越強,也就需要越多的數據來訓練網絡更新參數使網絡收斂,因此計算量也大幅增加。
故而,深度學習也被稱為數據和算力驅動的智能。雖然深度學習以解決實際應用為目標而與神經科學漸行漸遠,但近兩年也有科學家試圖在大腦中找到梯度下降的證據和吸收新的腦科學成果[3-8]。
深度學習的騰飛之路
深度學習的崛起也並非一蹴而就,是諸多因素相互促進的結晶。20世紀末到21世紀初很長一段時間內神經網絡方法不被多數人看好,其表現也不如傳統機器學習模型,多虧圖靈獎得主Hinton、LeCun和Bengio三位前輩的堅持,才有了今天的成就。
深度學習的飛速發展主要歸功於大型數據庫的誕生(如ImageNet)、高性能計算平臺(如GPUs)的出現、友好開發軟件的耕耘(如Tensorflow/Pytorch等)和神經網絡模型的改進(如卷積神經網中的VGG/Inception/ResNet/DenseNet),缺一不可。
由於成熟的算法、工具和應用場景,深度學習受到學術界和工業界的一致認可。深度學習加速器也現身各大學術頂會,並受到巨頭公司和創業公司的青睞,這其中就包括研發TPU的谷歌、手機內置神經引擎的蘋果以及國內的寒武紀、地平線、深鑑科技、華為、阿里等,當前主要熱門方向為研製運行ANNs模型的高性能雲計算平臺和低功耗終端器件。
脈衝神經網絡
基本模型
與深度學習不同,神經形態計算(neuromorphic computing)是目前智能模型中的又一大主要分支,它更加註重模擬大腦回路的行為,這裡給大家介紹兩類神經形態模型:脈衝神經網絡(Spiking Neural Network, SNN)和神經動力學網絡(Neural Dynamic Network)。
SNN與ANN主要有兩大不同,其一是採用脈衝編碼—spike code(0/1),其二是具有豐富的時間動力學。SNN神經元如圖3所示,其模型可簡單描述為:
其中,
(t)為時間步,t
是時間常數,
u為神經元膜電位,
s為神經元的脈衝輸出,
和
分別為神經元靜息電位和重置電位,
來源:腦人言
撰文丨鄧 磊(加州大學-聖塔芭芭拉分校UCSB 博士後)
責編丨高茂森 Soma
排版丨夏獺
科學研究的動機,並非僅僅是出於能看到多酷炫的應用,而是因為我們尚有諸多未知世界需要探尋,這是一切應用的前提。
AI芯片如火如荼
AI芯片是當今人工智能熱潮中不可或缺的一個名詞,且受國際局勢影響愈加受到重視。摩爾定律難以為繼,通用處理器的性能提升速度大為減緩,在晶體管物理微縮和計算體系架構改進帶來的收益之爭中,後者漸處上風。
在此背景下,學術界和工業界紛紛將視野轉向針對特定領域設計高性能的專用芯片,擬將架構設計發揮到極致。
AI芯片作為最為典型的領域專用芯片代表,受到國內外研發單位的高度關注。國外有谷歌、蘋果、英特爾、IBM、英偉達等巨頭領銜,國內也有寒武紀、地平線、深鑑、華為、阿里等公司響應,最近清華大學的天機芯更是登上了Nature雜誌的封面[1],其形勢可謂如日中天。
然而,AI芯片中所謂的“智能”究竟源自於哪些模型,又和我們的大腦有何關係,他們的過去和未來將會怎樣,本文帶你一探究竟。
人工神經網絡
基本模型
機器學習是目前人工智能模型中最卓有成效的一個分支,而深度學習又是當今機器學習的寵兒,其以人工神經網絡(Artificial Neural Network, ANN)為主要模型。
ANN由大量神經元(Neuron)通過突觸(synapse)連接而成,從輸入到輸出呈現層級結構,當層數較多時則被稱為深度神經網絡(Deep Neural Networks)。
圖1 人工神經元示意圖
每個神經元的基本結構如圖1所示,而基本的計算原理為
,其中x
和y
分別為輸入和輸出激活值、
w為突觸連接的權重值、
b為偏置值、
φ為非線性激活函數。
圖2 不同網絡連接拓撲
(a) 全連接神經網絡;(b) 反饋神經網絡;(c)卷積神經網絡。
根據神經元的連接拓撲可以分為全連接神經網絡、卷積神經網絡、反饋神經網絡等,如圖2所示。
相比於全連接神經網絡,卷積神經網絡通過引入二維特徵圖與突觸核的卷積操作獲得了強大的局部特徵提取能力,被廣泛用於圖像處理領域。
而反饋神經網絡通過引入反饋連接,建立時序動力學模型,被廣泛用於處理語音文本等時序數據。
其實,ANNs模型的建立也是在不同時期中分別借鑑了神經科學的知識:
人工神經網絡的概念以及基本神經元模型於1943年就已提出[2],這正是試圖模擬腦皮層以神經元網絡形式進行信息處理的體現。
卷積神經網絡的局部感受野是受到大腦視覺系統的啟發。
深度神經網絡的層級構建是源於腦皮層的分層通路。
只不過在深度學習的後續發展中,研究者更加偏重把神經網絡視為一個黑匣,用於擬合從輸入到輸出的複雜映射關係:
只需要給網絡的輸出定義一個收斂目標(目標函數,比如每張圖像的輸出對應到正確的類別)並描述為一個優化問題,然後用梯度下降的方式去更新系統參數主要是突觸權重,使得輸出逐漸逼近想要的結果。
原則上網絡越大,特徵提取的能力就會越強,也就需要越多的數據來訓練網絡更新參數使網絡收斂,因此計算量也大幅增加。
故而,深度學習也被稱為數據和算力驅動的智能。雖然深度學習以解決實際應用為目標而與神經科學漸行漸遠,但近兩年也有科學家試圖在大腦中找到梯度下降的證據和吸收新的腦科學成果[3-8]。
深度學習的騰飛之路
深度學習的崛起也並非一蹴而就,是諸多因素相互促進的結晶。20世紀末到21世紀初很長一段時間內神經網絡方法不被多數人看好,其表現也不如傳統機器學習模型,多虧圖靈獎得主Hinton、LeCun和Bengio三位前輩的堅持,才有了今天的成就。
深度學習的飛速發展主要歸功於大型數據庫的誕生(如ImageNet)、高性能計算平臺(如GPUs)的出現、友好開發軟件的耕耘(如Tensorflow/Pytorch等)和神經網絡模型的改進(如卷積神經網中的VGG/Inception/ResNet/DenseNet),缺一不可。
由於成熟的算法、工具和應用場景,深度學習受到學術界和工業界的一致認可。深度學習加速器也現身各大學術頂會,並受到巨頭公司和創業公司的青睞,這其中就包括研發TPU的谷歌、手機內置神經引擎的蘋果以及國內的寒武紀、地平線、深鑑科技、華為、阿里等,當前主要熱門方向為研製運行ANNs模型的高性能雲計算平臺和低功耗終端器件。
脈衝神經網絡
基本模型
與深度學習不同,神經形態計算(neuromorphic computing)是目前智能模型中的又一大主要分支,它更加註重模擬大腦回路的行為,這裡給大家介紹兩類神經形態模型:脈衝神經網絡(Spiking Neural Network, SNN)和神經動力學網絡(Neural Dynamic Network)。
SNN與ANN主要有兩大不同,其一是採用脈衝編碼—spike code(0/1),其二是具有豐富的時間動力學。SNN神經元如圖3所示,其模型可簡單描述為:
其中,
(t)為時間步,t
是時間常數,
u為神經元膜電位,
s為神經元的脈衝輸出,
和
分別為神經元靜息電位和重置電位,
為脈衝發放閾值,
來源:腦人言
撰文丨鄧 磊(加州大學-聖塔芭芭拉分校UCSB 博士後)
責編丨高茂森 Soma
排版丨夏獺
科學研究的動機,並非僅僅是出於能看到多酷炫的應用,而是因為我們尚有諸多未知世界需要探尋,這是一切應用的前提。
AI芯片如火如荼
AI芯片是當今人工智能熱潮中不可或缺的一個名詞,且受國際局勢影響愈加受到重視。摩爾定律難以為繼,通用處理器的性能提升速度大為減緩,在晶體管物理微縮和計算體系架構改進帶來的收益之爭中,後者漸處上風。
在此背景下,學術界和工業界紛紛將視野轉向針對特定領域設計高性能的專用芯片,擬將架構設計發揮到極致。
AI芯片作為最為典型的領域專用芯片代表,受到國內外研發單位的高度關注。國外有谷歌、蘋果、英特爾、IBM、英偉達等巨頭領銜,國內也有寒武紀、地平線、深鑑、華為、阿里等公司響應,最近清華大學的天機芯更是登上了Nature雜誌的封面[1],其形勢可謂如日中天。
然而,AI芯片中所謂的“智能”究竟源自於哪些模型,又和我們的大腦有何關係,他們的過去和未來將會怎樣,本文帶你一探究竟。
人工神經網絡
基本模型
機器學習是目前人工智能模型中最卓有成效的一個分支,而深度學習又是當今機器學習的寵兒,其以人工神經網絡(Artificial Neural Network, ANN)為主要模型。
ANN由大量神經元(Neuron)通過突觸(synapse)連接而成,從輸入到輸出呈現層級結構,當層數較多時則被稱為深度神經網絡(Deep Neural Networks)。
圖1 人工神經元示意圖
每個神經元的基本結構如圖1所示,而基本的計算原理為
,其中x
和y
分別為輸入和輸出激活值、
w為突觸連接的權重值、
b為偏置值、
φ為非線性激活函數。
圖2 不同網絡連接拓撲
(a) 全連接神經網絡;(b) 反饋神經網絡;(c)卷積神經網絡。
根據神經元的連接拓撲可以分為全連接神經網絡、卷積神經網絡、反饋神經網絡等,如圖2所示。
相比於全連接神經網絡,卷積神經網絡通過引入二維特徵圖與突觸核的卷積操作獲得了強大的局部特徵提取能力,被廣泛用於圖像處理領域。
而反饋神經網絡通過引入反饋連接,建立時序動力學模型,被廣泛用於處理語音文本等時序數據。
其實,ANNs模型的建立也是在不同時期中分別借鑑了神經科學的知識:
人工神經網絡的概念以及基本神經元模型於1943年就已提出[2],這正是試圖模擬腦皮層以神經元網絡形式進行信息處理的體現。
卷積神經網絡的局部感受野是受到大腦視覺系統的啟發。
深度神經網絡的層級構建是源於腦皮層的分層通路。
只不過在深度學習的後續發展中,研究者更加偏重把神經網絡視為一個黑匣,用於擬合從輸入到輸出的複雜映射關係:
只需要給網絡的輸出定義一個收斂目標(目標函數,比如每張圖像的輸出對應到正確的類別)並描述為一個優化問題,然後用梯度下降的方式去更新系統參數主要是突觸權重,使得輸出逐漸逼近想要的結果。
原則上網絡越大,特徵提取的能力就會越強,也就需要越多的數據來訓練網絡更新參數使網絡收斂,因此計算量也大幅增加。
故而,深度學習也被稱為數據和算力驅動的智能。雖然深度學習以解決實際應用為目標而與神經科學漸行漸遠,但近兩年也有科學家試圖在大腦中找到梯度下降的證據和吸收新的腦科學成果[3-8]。
深度學習的騰飛之路
深度學習的崛起也並非一蹴而就,是諸多因素相互促進的結晶。20世紀末到21世紀初很長一段時間內神經網絡方法不被多數人看好,其表現也不如傳統機器學習模型,多虧圖靈獎得主Hinton、LeCun和Bengio三位前輩的堅持,才有了今天的成就。
深度學習的飛速發展主要歸功於大型數據庫的誕生(如ImageNet)、高性能計算平臺(如GPUs)的出現、友好開發軟件的耕耘(如Tensorflow/Pytorch等)和神經網絡模型的改進(如卷積神經網中的VGG/Inception/ResNet/DenseNet),缺一不可。
由於成熟的算法、工具和應用場景,深度學習受到學術界和工業界的一致認可。深度學習加速器也現身各大學術頂會,並受到巨頭公司和創業公司的青睞,這其中就包括研發TPU的谷歌、手機內置神經引擎的蘋果以及國內的寒武紀、地平線、深鑑科技、華為、阿里等,當前主要熱門方向為研製運行ANNs模型的高性能雲計算平臺和低功耗終端器件。
脈衝神經網絡
基本模型
與深度學習不同,神經形態計算(neuromorphic computing)是目前智能模型中的又一大主要分支,它更加註重模擬大腦回路的行為,這裡給大家介紹兩類神經形態模型:脈衝神經網絡(Spiking Neural Network, SNN)和神經動力學網絡(Neural Dynamic Network)。
SNN與ANN主要有兩大不同,其一是採用脈衝編碼—spike code(0/1),其二是具有豐富的時間動力學。SNN神經元如圖3所示,其模型可簡單描述為:
其中,
(t)為時間步,t
是時間常數,
u為神經元膜電位,
s為神經元的脈衝輸出,
和
分別為神經元靜息電位和重置電位,
為脈衝發放閾值,
來源:腦人言
撰文丨鄧 磊(加州大學-聖塔芭芭拉分校UCSB 博士後)
責編丨高茂森 Soma
排版丨夏獺
科學研究的動機,並非僅僅是出於能看到多酷炫的應用,而是因為我們尚有諸多未知世界需要探尋,這是一切應用的前提。
AI芯片如火如荼
AI芯片是當今人工智能熱潮中不可或缺的一個名詞,且受國際局勢影響愈加受到重視。摩爾定律難以為繼,通用處理器的性能提升速度大為減緩,在晶體管物理微縮和計算體系架構改進帶來的收益之爭中,後者漸處上風。
在此背景下,學術界和工業界紛紛將視野轉向針對特定領域設計高性能的專用芯片,擬將架構設計發揮到極致。
AI芯片作為最為典型的領域專用芯片代表,受到國內外研發單位的高度關注。國外有谷歌、蘋果、英特爾、IBM、英偉達等巨頭領銜,國內也有寒武紀、地平線、深鑑、華為、阿里等公司響應,最近清華大學的天機芯更是登上了Nature雜誌的封面[1],其形勢可謂如日中天。
然而,AI芯片中所謂的“智能”究竟源自於哪些模型,又和我們的大腦有何關係,他們的過去和未來將會怎樣,本文帶你一探究竟。
人工神經網絡
基本模型
機器學習是目前人工智能模型中最卓有成效的一個分支,而深度學習又是當今機器學習的寵兒,其以人工神經網絡(Artificial Neural Network, ANN)為主要模型。
ANN由大量神經元(Neuron)通過突觸(synapse)連接而成,從輸入到輸出呈現層級結構,當層數較多時則被稱為深度神經網絡(Deep Neural Networks)。
圖1 人工神經元示意圖
每個神經元的基本結構如圖1所示,而基本的計算原理為
,其中x
和y
分別為輸入和輸出激活值、
w為突觸連接的權重值、
b為偏置值、
φ為非線性激活函數。
圖2 不同網絡連接拓撲
(a) 全連接神經網絡;(b) 反饋神經網絡;(c)卷積神經網絡。
根據神經元的連接拓撲可以分為全連接神經網絡、卷積神經網絡、反饋神經網絡等,如圖2所示。
相比於全連接神經網絡,卷積神經網絡通過引入二維特徵圖與突觸核的卷積操作獲得了強大的局部特徵提取能力,被廣泛用於圖像處理領域。
而反饋神經網絡通過引入反饋連接,建立時序動力學模型,被廣泛用於處理語音文本等時序數據。
其實,ANNs模型的建立也是在不同時期中分別借鑑了神經科學的知識:
人工神經網絡的概念以及基本神經元模型於1943年就已提出[2],這正是試圖模擬腦皮層以神經元網絡形式進行信息處理的體現。
卷積神經網絡的局部感受野是受到大腦視覺系統的啟發。
深度神經網絡的層級構建是源於腦皮層的分層通路。
只不過在深度學習的後續發展中,研究者更加偏重把神經網絡視為一個黑匣,用於擬合從輸入到輸出的複雜映射關係:
只需要給網絡的輸出定義一個收斂目標(目標函數,比如每張圖像的輸出對應到正確的類別)並描述為一個優化問題,然後用梯度下降的方式去更新系統參數主要是突觸權重,使得輸出逐漸逼近想要的結果。
原則上網絡越大,特徵提取的能力就會越強,也就需要越多的數據來訓練網絡更新參數使網絡收斂,因此計算量也大幅增加。
故而,深度學習也被稱為數據和算力驅動的智能。雖然深度學習以解決實際應用為目標而與神經科學漸行漸遠,但近兩年也有科學家試圖在大腦中找到梯度下降的證據和吸收新的腦科學成果[3-8]。
深度學習的騰飛之路
深度學習的崛起也並非一蹴而就,是諸多因素相互促進的結晶。20世紀末到21世紀初很長一段時間內神經網絡方法不被多數人看好,其表現也不如傳統機器學習模型,多虧圖靈獎得主Hinton、LeCun和Bengio三位前輩的堅持,才有了今天的成就。
深度學習的飛速發展主要歸功於大型數據庫的誕生(如ImageNet)、高性能計算平臺(如GPUs)的出現、友好開發軟件的耕耘(如Tensorflow/Pytorch等)和神經網絡模型的改進(如卷積神經網中的VGG/Inception/ResNet/DenseNet),缺一不可。
由於成熟的算法、工具和應用場景,深度學習受到學術界和工業界的一致認可。深度學習加速器也現身各大學術頂會,並受到巨頭公司和創業公司的青睞,這其中就包括研發TPU的谷歌、手機內置神經引擎的蘋果以及國內的寒武紀、地平線、深鑑科技、華為、阿里等,當前主要熱門方向為研製運行ANNs模型的高性能雲計算平臺和低功耗終端器件。
脈衝神經網絡
基本模型
與深度學習不同,神經形態計算(neuromorphic computing)是目前智能模型中的又一大主要分支,它更加註重模擬大腦回路的行為,這裡給大家介紹兩類神經形態模型:脈衝神經網絡(Spiking Neural Network, SNN)和神經動力學網絡(Neural Dynamic Network)。
SNN與ANN主要有兩大不同,其一是採用脈衝編碼—spike code(0/1),其二是具有豐富的時間動力學。SNN神經元如圖3所示,其模型可簡單描述為:
其中,
(t)為時間步,t
是時間常數,
u為神經元膜電位,
s為神經元的脈衝輸出,
和
分別為神經元靜息電位和重置電位,
為脈衝發放閾值,
表示每個神經元會累加對應突觸輸入脈衝序列中一定時間窗
來源:腦人言
撰文丨鄧 磊(加州大學-聖塔芭芭拉分校UCSB 博士後)
責編丨高茂森 Soma
排版丨夏獺
科學研究的動機,並非僅僅是出於能看到多酷炫的應用,而是因為我們尚有諸多未知世界需要探尋,這是一切應用的前提。
AI芯片如火如荼
AI芯片是當今人工智能熱潮中不可或缺的一個名詞,且受國際局勢影響愈加受到重視。摩爾定律難以為繼,通用處理器的性能提升速度大為減緩,在晶體管物理微縮和計算體系架構改進帶來的收益之爭中,後者漸處上風。
在此背景下,學術界和工業界紛紛將視野轉向針對特定領域設計高性能的專用芯片,擬將架構設計發揮到極致。
AI芯片作為最為典型的領域專用芯片代表,受到國內外研發單位的高度關注。國外有谷歌、蘋果、英特爾、IBM、英偉達等巨頭領銜,國內也有寒武紀、地平線、深鑑、華為、阿里等公司響應,最近清華大學的天機芯更是登上了Nature雜誌的封面[1],其形勢可謂如日中天。
然而,AI芯片中所謂的“智能”究竟源自於哪些模型,又和我們的大腦有何關係,他們的過去和未來將會怎樣,本文帶你一探究竟。
人工神經網絡
基本模型
機器學習是目前人工智能模型中最卓有成效的一個分支,而深度學習又是當今機器學習的寵兒,其以人工神經網絡(Artificial Neural Network, ANN)為主要模型。
ANN由大量神經元(Neuron)通過突觸(synapse)連接而成,從輸入到輸出呈現層級結構,當層數較多時則被稱為深度神經網絡(Deep Neural Networks)。
圖1 人工神經元示意圖
每個神經元的基本結構如圖1所示,而基本的計算原理為
,其中x
和y
分別為輸入和輸出激活值、
w為突觸連接的權重值、
b為偏置值、
φ為非線性激活函數。
圖2 不同網絡連接拓撲
(a) 全連接神經網絡;(b) 反饋神經網絡;(c)卷積神經網絡。
根據神經元的連接拓撲可以分為全連接神經網絡、卷積神經網絡、反饋神經網絡等,如圖2所示。
相比於全連接神經網絡,卷積神經網絡通過引入二維特徵圖與突觸核的卷積操作獲得了強大的局部特徵提取能力,被廣泛用於圖像處理領域。
而反饋神經網絡通過引入反饋連接,建立時序動力學模型,被廣泛用於處理語音文本等時序數據。
其實,ANNs模型的建立也是在不同時期中分別借鑑了神經科學的知識:
人工神經網絡的概念以及基本神經元模型於1943年就已提出[2],這正是試圖模擬腦皮層以神經元網絡形式進行信息處理的體現。
卷積神經網絡的局部感受野是受到大腦視覺系統的啟發。
深度神經網絡的層級構建是源於腦皮層的分層通路。
只不過在深度學習的後續發展中,研究者更加偏重把神經網絡視為一個黑匣,用於擬合從輸入到輸出的複雜映射關係:
只需要給網絡的輸出定義一個收斂目標(目標函數,比如每張圖像的輸出對應到正確的類別)並描述為一個優化問題,然後用梯度下降的方式去更新系統參數主要是突觸權重,使得輸出逐漸逼近想要的結果。
原則上網絡越大,特徵提取的能力就會越強,也就需要越多的數據來訓練網絡更新參數使網絡收斂,因此計算量也大幅增加。
故而,深度學習也被稱為數據和算力驅動的智能。雖然深度學習以解決實際應用為目標而與神經科學漸行漸遠,但近兩年也有科學家試圖在大腦中找到梯度下降的證據和吸收新的腦科學成果[3-8]。
深度學習的騰飛之路
深度學習的崛起也並非一蹴而就,是諸多因素相互促進的結晶。20世紀末到21世紀初很長一段時間內神經網絡方法不被多數人看好,其表現也不如傳統機器學習模型,多虧圖靈獎得主Hinton、LeCun和Bengio三位前輩的堅持,才有了今天的成就。
深度學習的飛速發展主要歸功於大型數據庫的誕生(如ImageNet)、高性能計算平臺(如GPUs)的出現、友好開發軟件的耕耘(如Tensorflow/Pytorch等)和神經網絡模型的改進(如卷積神經網中的VGG/Inception/ResNet/DenseNet),缺一不可。
由於成熟的算法、工具和應用場景,深度學習受到學術界和工業界的一致認可。深度學習加速器也現身各大學術頂會,並受到巨頭公司和創業公司的青睞,這其中就包括研發TPU的谷歌、手機內置神經引擎的蘋果以及國內的寒武紀、地平線、深鑑科技、華為、阿里等,當前主要熱門方向為研製運行ANNs模型的高性能雲計算平臺和低功耗終端器件。
脈衝神經網絡
基本模型
與深度學習不同,神經形態計算(neuromorphic computing)是目前智能模型中的又一大主要分支,它更加註重模擬大腦回路的行為,這裡給大家介紹兩類神經形態模型:脈衝神經網絡(Spiking Neural Network, SNN)和神經動力學網絡(Neural Dynamic Network)。
SNN與ANN主要有兩大不同,其一是採用脈衝編碼—spike code(0/1),其二是具有豐富的時間動力學。SNN神經元如圖3所示,其模型可簡單描述為:
其中,
(t)為時間步,t
是時間常數,
u為神經元膜電位,
s為神經元的脈衝輸出,
和
分別為神經元靜息電位和重置電位,
為脈衝發放閾值,
表示每個神經元會累加對應突觸輸入脈衝序列中一定時間窗
來源:腦人言
撰文丨鄧 磊(加州大學-聖塔芭芭拉分校UCSB 博士後)
責編丨高茂森 Soma
排版丨夏獺
科學研究的動機,並非僅僅是出於能看到多酷炫的應用,而是因為我們尚有諸多未知世界需要探尋,這是一切應用的前提。
AI芯片如火如荼
AI芯片是當今人工智能熱潮中不可或缺的一個名詞,且受國際局勢影響愈加受到重視。摩爾定律難以為繼,通用處理器的性能提升速度大為減緩,在晶體管物理微縮和計算體系架構改進帶來的收益之爭中,後者漸處上風。
在此背景下,學術界和工業界紛紛將視野轉向針對特定領域設計高性能的專用芯片,擬將架構設計發揮到極致。
AI芯片作為最為典型的領域專用芯片代表,受到國內外研發單位的高度關注。國外有谷歌、蘋果、英特爾、IBM、英偉達等巨頭領銜,國內也有寒武紀、地平線、深鑑、華為、阿里等公司響應,最近清華大學的天機芯更是登上了Nature雜誌的封面[1],其形勢可謂如日中天。
然而,AI芯片中所謂的“智能”究竟源自於哪些模型,又和我們的大腦有何關係,他們的過去和未來將會怎樣,本文帶你一探究竟。
人工神經網絡
基本模型
機器學習是目前人工智能模型中最卓有成效的一個分支,而深度學習又是當今機器學習的寵兒,其以人工神經網絡(Artificial Neural Network, ANN)為主要模型。
ANN由大量神經元(Neuron)通過突觸(synapse)連接而成,從輸入到輸出呈現層級結構,當層數較多時則被稱為深度神經網絡(Deep Neural Networks)。
圖1 人工神經元示意圖
每個神經元的基本結構如圖1所示,而基本的計算原理為
,其中x
和y
分別為輸入和輸出激活值、
w為突觸連接的權重值、
b為偏置值、
φ為非線性激活函數。
圖2 不同網絡連接拓撲
(a) 全連接神經網絡;(b) 反饋神經網絡;(c)卷積神經網絡。
根據神經元的連接拓撲可以分為全連接神經網絡、卷積神經網絡、反饋神經網絡等,如圖2所示。
相比於全連接神經網絡,卷積神經網絡通過引入二維特徵圖與突觸核的卷積操作獲得了強大的局部特徵提取能力,被廣泛用於圖像處理領域。
而反饋神經網絡通過引入反饋連接,建立時序動力學模型,被廣泛用於處理語音文本等時序數據。
其實,ANNs模型的建立也是在不同時期中分別借鑑了神經科學的知識:
人工神經網絡的概念以及基本神經元模型於1943年就已提出[2],這正是試圖模擬腦皮層以神經元網絡形式進行信息處理的體現。
卷積神經網絡的局部感受野是受到大腦視覺系統的啟發。
深度神經網絡的層級構建是源於腦皮層的分層通路。
只不過在深度學習的後續發展中,研究者更加偏重把神經網絡視為一個黑匣,用於擬合從輸入到輸出的複雜映射關係:
只需要給網絡的輸出定義一個收斂目標(目標函數,比如每張圖像的輸出對應到正確的類別)並描述為一個優化問題,然後用梯度下降的方式去更新系統參數主要是突觸權重,使得輸出逐漸逼近想要的結果。
原則上網絡越大,特徵提取的能力就會越強,也就需要越多的數據來訓練網絡更新參數使網絡收斂,因此計算量也大幅增加。
故而,深度學習也被稱為數據和算力驅動的智能。雖然深度學習以解決實際應用為目標而與神經科學漸行漸遠,但近兩年也有科學家試圖在大腦中找到梯度下降的證據和吸收新的腦科學成果[3-8]。
深度學習的騰飛之路
深度學習的崛起也並非一蹴而就,是諸多因素相互促進的結晶。20世紀末到21世紀初很長一段時間內神經網絡方法不被多數人看好,其表現也不如傳統機器學習模型,多虧圖靈獎得主Hinton、LeCun和Bengio三位前輩的堅持,才有了今天的成就。
深度學習的飛速發展主要歸功於大型數據庫的誕生(如ImageNet)、高性能計算平臺(如GPUs)的出現、友好開發軟件的耕耘(如Tensorflow/Pytorch等)和神經網絡模型的改進(如卷積神經網中的VGG/Inception/ResNet/DenseNet),缺一不可。
由於成熟的算法、工具和應用場景,深度學習受到學術界和工業界的一致認可。深度學習加速器也現身各大學術頂會,並受到巨頭公司和創業公司的青睞,這其中就包括研發TPU的谷歌、手機內置神經引擎的蘋果以及國內的寒武紀、地平線、深鑑科技、華為、阿里等,當前主要熱門方向為研製運行ANNs模型的高性能雲計算平臺和低功耗終端器件。
脈衝神經網絡
基本模型
與深度學習不同,神經形態計算(neuromorphic computing)是目前智能模型中的又一大主要分支,它更加註重模擬大腦回路的行為,這裡給大家介紹兩類神經形態模型:脈衝神經網絡(Spiking Neural Network, SNN)和神經動力學網絡(Neural Dynamic Network)。
SNN與ANN主要有兩大不同,其一是採用脈衝編碼—spike code(0/1),其二是具有豐富的時間動力學。SNN神經元如圖3所示,其模型可簡單描述為:
其中,
(t)為時間步,t
是時間常數,
u為神經元膜電位,
s為神經元的脈衝輸出,
和
分別為神經元靜息電位和重置電位,
為脈衝發放閾值,
表示每個神經元會累加對應突觸輸入脈衝序列中一定時間窗
內的脈衝信號,
來源:腦人言
撰文丨鄧 磊(加州大學-聖塔芭芭拉分校UCSB 博士後)
責編丨高茂森 Soma
排版丨夏獺
科學研究的動機,並非僅僅是出於能看到多酷炫的應用,而是因為我們尚有諸多未知世界需要探尋,這是一切應用的前提。
AI芯片如火如荼
AI芯片是當今人工智能熱潮中不可或缺的一個名詞,且受國際局勢影響愈加受到重視。摩爾定律難以為繼,通用處理器的性能提升速度大為減緩,在晶體管物理微縮和計算體系架構改進帶來的收益之爭中,後者漸處上風。
在此背景下,學術界和工業界紛紛將視野轉向針對特定領域設計高性能的專用芯片,擬將架構設計發揮到極致。
AI芯片作為最為典型的領域專用芯片代表,受到國內外研發單位的高度關注。國外有谷歌、蘋果、英特爾、IBM、英偉達等巨頭領銜,國內也有寒武紀、地平線、深鑑、華為、阿里等公司響應,最近清華大學的天機芯更是登上了Nature雜誌的封面[1],其形勢可謂如日中天。
然而,AI芯片中所謂的“智能”究竟源自於哪些模型,又和我們的大腦有何關係,他們的過去和未來將會怎樣,本文帶你一探究竟。
人工神經網絡
基本模型
機器學習是目前人工智能模型中最卓有成效的一個分支,而深度學習又是當今機器學習的寵兒,其以人工神經網絡(Artificial Neural Network, ANN)為主要模型。
ANN由大量神經元(Neuron)通過突觸(synapse)連接而成,從輸入到輸出呈現層級結構,當層數較多時則被稱為深度神經網絡(Deep Neural Networks)。
圖1 人工神經元示意圖
每個神經元的基本結構如圖1所示,而基本的計算原理為
,其中x
和y
分別為輸入和輸出激活值、
w為突觸連接的權重值、
b為偏置值、
φ為非線性激活函數。
圖2 不同網絡連接拓撲
(a) 全連接神經網絡;(b) 反饋神經網絡;(c)卷積神經網絡。
根據神經元的連接拓撲可以分為全連接神經網絡、卷積神經網絡、反饋神經網絡等,如圖2所示。
相比於全連接神經網絡,卷積神經網絡通過引入二維特徵圖與突觸核的卷積操作獲得了強大的局部特徵提取能力,被廣泛用於圖像處理領域。
而反饋神經網絡通過引入反饋連接,建立時序動力學模型,被廣泛用於處理語音文本等時序數據。
其實,ANNs模型的建立也是在不同時期中分別借鑑了神經科學的知識:
人工神經網絡的概念以及基本神經元模型於1943年就已提出[2],這正是試圖模擬腦皮層以神經元網絡形式進行信息處理的體現。
卷積神經網絡的局部感受野是受到大腦視覺系統的啟發。
深度神經網絡的層級構建是源於腦皮層的分層通路。
只不過在深度學習的後續發展中,研究者更加偏重把神經網絡視為一個黑匣,用於擬合從輸入到輸出的複雜映射關係:
只需要給網絡的輸出定義一個收斂目標(目標函數,比如每張圖像的輸出對應到正確的類別)並描述為一個優化問題,然後用梯度下降的方式去更新系統參數主要是突觸權重,使得輸出逐漸逼近想要的結果。
原則上網絡越大,特徵提取的能力就會越強,也就需要越多的數據來訓練網絡更新參數使網絡收斂,因此計算量也大幅增加。
故而,深度學習也被稱為數據和算力驅動的智能。雖然深度學習以解決實際應用為目標而與神經科學漸行漸遠,但近兩年也有科學家試圖在大腦中找到梯度下降的證據和吸收新的腦科學成果[3-8]。
深度學習的騰飛之路
深度學習的崛起也並非一蹴而就,是諸多因素相互促進的結晶。20世紀末到21世紀初很長一段時間內神經網絡方法不被多數人看好,其表現也不如傳統機器學習模型,多虧圖靈獎得主Hinton、LeCun和Bengio三位前輩的堅持,才有了今天的成就。
深度學習的飛速發展主要歸功於大型數據庫的誕生(如ImageNet)、高性能計算平臺(如GPUs)的出現、友好開發軟件的耕耘(如Tensorflow/Pytorch等)和神經網絡模型的改進(如卷積神經網中的VGG/Inception/ResNet/DenseNet),缺一不可。
由於成熟的算法、工具和應用場景,深度學習受到學術界和工業界的一致認可。深度學習加速器也現身各大學術頂會,並受到巨頭公司和創業公司的青睞,這其中就包括研發TPU的谷歌、手機內置神經引擎的蘋果以及國內的寒武紀、地平線、深鑑科技、華為、阿里等,當前主要熱門方向為研製運行ANNs模型的高性能雲計算平臺和低功耗終端器件。
脈衝神經網絡
基本模型
與深度學習不同,神經形態計算(neuromorphic computing)是目前智能模型中的又一大主要分支,它更加註重模擬大腦回路的行為,這裡給大家介紹兩類神經形態模型:脈衝神經網絡(Spiking Neural Network, SNN)和神經動力學網絡(Neural Dynamic Network)。
SNN與ANN主要有兩大不同,其一是採用脈衝編碼—spike code(0/1),其二是具有豐富的時間動力學。SNN神經元如圖3所示,其模型可簡單描述為:
其中,
(t)為時間步,t
是時間常數,
u為神經元膜電位,
s為神經元的脈衝輸出,
和
分別為神經元靜息電位和重置電位,
為脈衝發放閾值,
表示每個神經元會累加對應突觸輸入脈衝序列中一定時間窗
內的脈衝信號,
來源:腦人言
撰文丨鄧 磊(加州大學-聖塔芭芭拉分校UCSB 博士後)
責編丨高茂森 Soma
排版丨夏獺
科學研究的動機,並非僅僅是出於能看到多酷炫的應用,而是因為我們尚有諸多未知世界需要探尋,這是一切應用的前提。
AI芯片如火如荼
AI芯片是當今人工智能熱潮中不可或缺的一個名詞,且受國際局勢影響愈加受到重視。摩爾定律難以為繼,通用處理器的性能提升速度大為減緩,在晶體管物理微縮和計算體系架構改進帶來的收益之爭中,後者漸處上風。
在此背景下,學術界和工業界紛紛將視野轉向針對特定領域設計高性能的專用芯片,擬將架構設計發揮到極致。
AI芯片作為最為典型的領域專用芯片代表,受到國內外研發單位的高度關注。國外有谷歌、蘋果、英特爾、IBM、英偉達等巨頭領銜,國內也有寒武紀、地平線、深鑑、華為、阿里等公司響應,最近清華大學的天機芯更是登上了Nature雜誌的封面[1],其形勢可謂如日中天。
然而,AI芯片中所謂的“智能”究竟源自於哪些模型,又和我們的大腦有何關係,他們的過去和未來將會怎樣,本文帶你一探究竟。
人工神經網絡
基本模型
機器學習是目前人工智能模型中最卓有成效的一個分支,而深度學習又是當今機器學習的寵兒,其以人工神經網絡(Artificial Neural Network, ANN)為主要模型。
ANN由大量神經元(Neuron)通過突觸(synapse)連接而成,從輸入到輸出呈現層級結構,當層數較多時則被稱為深度神經網絡(Deep Neural Networks)。
圖1 人工神經元示意圖
每個神經元的基本結構如圖1所示,而基本的計算原理為
,其中x
和y
分別為輸入和輸出激活值、
w為突觸連接的權重值、
b為偏置值、
φ為非線性激活函數。
圖2 不同網絡連接拓撲
(a) 全連接神經網絡;(b) 反饋神經網絡;(c)卷積神經網絡。
根據神經元的連接拓撲可以分為全連接神經網絡、卷積神經網絡、反饋神經網絡等,如圖2所示。
相比於全連接神經網絡,卷積神經網絡通過引入二維特徵圖與突觸核的卷積操作獲得了強大的局部特徵提取能力,被廣泛用於圖像處理領域。
而反饋神經網絡通過引入反饋連接,建立時序動力學模型,被廣泛用於處理語音文本等時序數據。
其實,ANNs模型的建立也是在不同時期中分別借鑑了神經科學的知識:
人工神經網絡的概念以及基本神經元模型於1943年就已提出[2],這正是試圖模擬腦皮層以神經元網絡形式進行信息處理的體現。
卷積神經網絡的局部感受野是受到大腦視覺系統的啟發。
深度神經網絡的層級構建是源於腦皮層的分層通路。
只不過在深度學習的後續發展中,研究者更加偏重把神經網絡視為一個黑匣,用於擬合從輸入到輸出的複雜映射關係:
只需要給網絡的輸出定義一個收斂目標(目標函數,比如每張圖像的輸出對應到正確的類別)並描述為一個優化問題,然後用梯度下降的方式去更新系統參數主要是突觸權重,使得輸出逐漸逼近想要的結果。
原則上網絡越大,特徵提取的能力就會越強,也就需要越多的數據來訓練網絡更新參數使網絡收斂,因此計算量也大幅增加。
故而,深度學習也被稱為數據和算力驅動的智能。雖然深度學習以解決實際應用為目標而與神經科學漸行漸遠,但近兩年也有科學家試圖在大腦中找到梯度下降的證據和吸收新的腦科學成果[3-8]。
深度學習的騰飛之路
深度學習的崛起也並非一蹴而就,是諸多因素相互促進的結晶。20世紀末到21世紀初很長一段時間內神經網絡方法不被多數人看好,其表現也不如傳統機器學習模型,多虧圖靈獎得主Hinton、LeCun和Bengio三位前輩的堅持,才有了今天的成就。
深度學習的飛速發展主要歸功於大型數據庫的誕生(如ImageNet)、高性能計算平臺(如GPUs)的出現、友好開發軟件的耕耘(如Tensorflow/Pytorch等)和神經網絡模型的改進(如卷積神經網中的VGG/Inception/ResNet/DenseNet),缺一不可。
由於成熟的算法、工具和應用場景,深度學習受到學術界和工業界的一致認可。深度學習加速器也現身各大學術頂會,並受到巨頭公司和創業公司的青睞,這其中就包括研發TPU的谷歌、手機內置神經引擎的蘋果以及國內的寒武紀、地平線、深鑑科技、華為、阿里等,當前主要熱門方向為研製運行ANNs模型的高性能雲計算平臺和低功耗終端器件。
脈衝神經網絡
基本模型
與深度學習不同,神經形態計算(neuromorphic computing)是目前智能模型中的又一大主要分支,它更加註重模擬大腦回路的行為,這裡給大家介紹兩類神經形態模型:脈衝神經網絡(Spiking Neural Network, SNN)和神經動力學網絡(Neural Dynamic Network)。
SNN與ANN主要有兩大不同,其一是採用脈衝編碼—spike code(0/1),其二是具有豐富的時間動力學。SNN神經元如圖3所示,其模型可簡單描述為:
其中,
(t)為時間步,t
是時間常數,
u為神經元膜電位,
s為神經元的脈衝輸出,
和
分別為神經元靜息電位和重置電位,
為脈衝發放閾值,
表示每個神經元會累加對應突觸輸入脈衝序列中一定時間窗
內的脈衝信號,
用於刻畫時間衰減效應(距離當前時刻越近的脈衝輸入對膜電位影響越大)。
來源:腦人言
撰文丨鄧 磊(加州大學-聖塔芭芭拉分校UCSB 博士後)
責編丨高茂森 Soma
排版丨夏獺
科學研究的動機,並非僅僅是出於能看到多酷炫的應用,而是因為我們尚有諸多未知世界需要探尋,這是一切應用的前提。
AI芯片如火如荼
AI芯片是當今人工智能熱潮中不可或缺的一個名詞,且受國際局勢影響愈加受到重視。摩爾定律難以為繼,通用處理器的性能提升速度大為減緩,在晶體管物理微縮和計算體系架構改進帶來的收益之爭中,後者漸處上風。
在此背景下,學術界和工業界紛紛將視野轉向針對特定領域設計高性能的專用芯片,擬將架構設計發揮到極致。
AI芯片作為最為典型的領域專用芯片代表,受到國內外研發單位的高度關注。國外有谷歌、蘋果、英特爾、IBM、英偉達等巨頭領銜,國內也有寒武紀、地平線、深鑑、華為、阿里等公司響應,最近清華大學的天機芯更是登上了Nature雜誌的封面[1],其形勢可謂如日中天。
然而,AI芯片中所謂的“智能”究竟源自於哪些模型,又和我們的大腦有何關係,他們的過去和未來將會怎樣,本文帶你一探究竟。
人工神經網絡
基本模型
機器學習是目前人工智能模型中最卓有成效的一個分支,而深度學習又是當今機器學習的寵兒,其以人工神經網絡(Artificial Neural Network, ANN)為主要模型。
ANN由大量神經元(Neuron)通過突觸(synapse)連接而成,從輸入到輸出呈現層級結構,當層數較多時則被稱為深度神經網絡(Deep Neural Networks)。
圖1 人工神經元示意圖
每個神經元的基本結構如圖1所示,而基本的計算原理為
,其中x
和y
分別為輸入和輸出激活值、
w為突觸連接的權重值、
b為偏置值、
φ為非線性激活函數。
圖2 不同網絡連接拓撲
(a) 全連接神經網絡;(b) 反饋神經網絡;(c)卷積神經網絡。
根據神經元的連接拓撲可以分為全連接神經網絡、卷積神經網絡、反饋神經網絡等,如圖2所示。
相比於全連接神經網絡,卷積神經網絡通過引入二維特徵圖與突觸核的卷積操作獲得了強大的局部特徵提取能力,被廣泛用於圖像處理領域。
而反饋神經網絡通過引入反饋連接,建立時序動力學模型,被廣泛用於處理語音文本等時序數據。
其實,ANNs模型的建立也是在不同時期中分別借鑑了神經科學的知識:
人工神經網絡的概念以及基本神經元模型於1943年就已提出[2],這正是試圖模擬腦皮層以神經元網絡形式進行信息處理的體現。
卷積神經網絡的局部感受野是受到大腦視覺系統的啟發。
深度神經網絡的層級構建是源於腦皮層的分層通路。
只不過在深度學習的後續發展中,研究者更加偏重把神經網絡視為一個黑匣,用於擬合從輸入到輸出的複雜映射關係:
只需要給網絡的輸出定義一個收斂目標(目標函數,比如每張圖像的輸出對應到正確的類別)並描述為一個優化問題,然後用梯度下降的方式去更新系統參數主要是突觸權重,使得輸出逐漸逼近想要的結果。
原則上網絡越大,特徵提取的能力就會越強,也就需要越多的數據來訓練網絡更新參數使網絡收斂,因此計算量也大幅增加。
故而,深度學習也被稱為數據和算力驅動的智能。雖然深度學習以解決實際應用為目標而與神經科學漸行漸遠,但近兩年也有科學家試圖在大腦中找到梯度下降的證據和吸收新的腦科學成果[3-8]。
深度學習的騰飛之路
深度學習的崛起也並非一蹴而就,是諸多因素相互促進的結晶。20世紀末到21世紀初很長一段時間內神經網絡方法不被多數人看好,其表現也不如傳統機器學習模型,多虧圖靈獎得主Hinton、LeCun和Bengio三位前輩的堅持,才有了今天的成就。
深度學習的飛速發展主要歸功於大型數據庫的誕生(如ImageNet)、高性能計算平臺(如GPUs)的出現、友好開發軟件的耕耘(如Tensorflow/Pytorch等)和神經網絡模型的改進(如卷積神經網中的VGG/Inception/ResNet/DenseNet),缺一不可。
由於成熟的算法、工具和應用場景,深度學習受到學術界和工業界的一致認可。深度學習加速器也現身各大學術頂會,並受到巨頭公司和創業公司的青睞,這其中就包括研發TPU的谷歌、手機內置神經引擎的蘋果以及國內的寒武紀、地平線、深鑑科技、華為、阿里等,當前主要熱門方向為研製運行ANNs模型的高性能雲計算平臺和低功耗終端器件。
脈衝神經網絡
基本模型
與深度學習不同,神經形態計算(neuromorphic computing)是目前智能模型中的又一大主要分支,它更加註重模擬大腦回路的行為,這裡給大家介紹兩類神經形態模型:脈衝神經網絡(Spiking Neural Network, SNN)和神經動力學網絡(Neural Dynamic Network)。
SNN與ANN主要有兩大不同,其一是採用脈衝編碼—spike code(0/1),其二是具有豐富的時間動力學。SNN神經元如圖3所示,其模型可簡單描述為:
其中,
(t)為時間步,t
是時間常數,
u為神經元膜電位,
s為神經元的脈衝輸出,
和
分別為神經元靜息電位和重置電位,
為脈衝發放閾值,
表示每個神經元會累加對應突觸輸入脈衝序列中一定時間窗
內的脈衝信號,
用於刻畫時間衰減效應(距離當前時刻越近的脈衝輸入對膜電位影響越大)。
圖3 脈衝神經元示意圖
135編輯器
雖然上述以微分方程為基礎的SNN神經元模型看起來比ANN模型更為複雜,但它已經是最為簡化的SNN模型了,被稱為洩漏積分發放模型(Leaky Integrate and Fire, LIF)[9],其它更為複雜的模型如Izhikevich[10]和Hodgkin & Huxley[11]僅憑藉現有計算機還難以仿真大規模網絡。
原理上,SNN的時間積分效應可以使得其能夠處理時序問題,尤其是稀疏數據(事實上大腦神經元發放頻率也是非常稀疏的);其膜電位洩漏和閾值發放效應,進一步使得其能夠具有一定的去噪功能(事實上大腦脈衝信號也具有很多噪音,但大腦仍能正常工作)。
這兩個特性,目前的ANN模型都不具備(反饋神經網絡儘管具備時域處理能力,但與SNN很不相同)。雖然理論上有較大潛力,但由於SNN神經元的多變量時空動力學比較複雜,而脈衝發放活動又不可導,導致其無法使用具有全局性的梯度下降算法進行學習。
135編輯器
在相當長一段時間裡,其主要的學習規則都是非監督的腦啟發STDP(spike timing dependent plasticity)規則[12],僅利用突觸兩端神經元的局部脈衝響應來更新突觸權重以滿足學習目標。
雖然STDP具有一定的生物基礎,但它太過於局部化,難以獲得類似梯度下降算法的全局優化能力,導致其在諸多應用中表現差於ANN模型。
直到最近三年,才有研究者通過將預先採用梯度下降算法訓練好的ANN模型轉換為其SNN版本[13,14],或者通過對脈衝發放函數進行導數逼近,進而直接計算每個時刻膜電位和脈衝活動的梯度以實現基於梯度下降的有監督算法學習[15,16],這些努力逐漸使得SNN的應用性能接近目前的ANN模型。
爭議叢生但未來可期
支持SNN的器件通常稱為神經形態器件(如歐洲的SpiNNaker[17]和DYNAP[18],IBM的TrueNorth[19],Intel的Loihi[20]),其研究的動機主要是因為SNN的類腦特性使其更有希望通過構建大規模系統獲得類腦智能。
不過從應用角度出發,目前的神經形態器件大多隻能體現低功耗的特性,這是由於SNN神經元的輸入輸出信號為二值脈衝的緣故,可以去除輸入和突觸權重運算中的笨重乘法,再加之脈衝活動非常稀疏且允許事件驅動的異步電路設計。
而在功能方面,SNN所表現出的性能尚不能與深度學習匹敵,這也是工業界對神經形態方案的熱情有所消退甚至持懷疑和觀望態度的原因。
135編輯器
但筆者認為,目前的神經形態計算還有很大的提升空間,未來仍有可期:
一方面,深度學習的進步是數據、算力、軟件和模型共同進步的結果,非一日之功,而神經形態計算在上述優化上還處於起步階段。
另一方面,理論上SNN具有更豐富的信息響應特性,但其模型優勢距離被充分挖掘還有很長的路要走,究竟什麼任務、什麼信息數據甚至什麼評估標準適合SNN均尚不清晰。
目前的大多數測試基準仍是從ANN中遷移而來,僅僅在圖像數據上和ANN比較識別正確率就判別勝負難免過於狹隘,SNN的專長不應止於此。期待研究者們繼續從各個子領域努力前行,逐步迭代發展。
來源:腦人言
撰文丨鄧 磊(加州大學-聖塔芭芭拉分校UCSB 博士後)
責編丨高茂森 Soma
排版丨夏獺
科學研究的動機,並非僅僅是出於能看到多酷炫的應用,而是因為我們尚有諸多未知世界需要探尋,這是一切應用的前提。
AI芯片如火如荼
AI芯片是當今人工智能熱潮中不可或缺的一個名詞,且受國際局勢影響愈加受到重視。摩爾定律難以為繼,通用處理器的性能提升速度大為減緩,在晶體管物理微縮和計算體系架構改進帶來的收益之爭中,後者漸處上風。
在此背景下,學術界和工業界紛紛將視野轉向針對特定領域設計高性能的專用芯片,擬將架構設計發揮到極致。
AI芯片作為最為典型的領域專用芯片代表,受到國內外研發單位的高度關注。國外有谷歌、蘋果、英特爾、IBM、英偉達等巨頭領銜,國內也有寒武紀、地平線、深鑑、華為、阿里等公司響應,最近清華大學的天機芯更是登上了Nature雜誌的封面[1],其形勢可謂如日中天。
然而,AI芯片中所謂的“智能”究竟源自於哪些模型,又和我們的大腦有何關係,他們的過去和未來將會怎樣,本文帶你一探究竟。
人工神經網絡
基本模型
機器學習是目前人工智能模型中最卓有成效的一個分支,而深度學習又是當今機器學習的寵兒,其以人工神經網絡(Artificial Neural Network, ANN)為主要模型。
ANN由大量神經元(Neuron)通過突觸(synapse)連接而成,從輸入到輸出呈現層級結構,當層數較多時則被稱為深度神經網絡(Deep Neural Networks)。
圖1 人工神經元示意圖
每個神經元的基本結構如圖1所示,而基本的計算原理為
,其中x
和y
分別為輸入和輸出激活值、
w為突觸連接的權重值、
b為偏置值、
φ為非線性激活函數。
圖2 不同網絡連接拓撲
(a) 全連接神經網絡;(b) 反饋神經網絡;(c)卷積神經網絡。
根據神經元的連接拓撲可以分為全連接神經網絡、卷積神經網絡、反饋神經網絡等,如圖2所示。
相比於全連接神經網絡,卷積神經網絡通過引入二維特徵圖與突觸核的卷積操作獲得了強大的局部特徵提取能力,被廣泛用於圖像處理領域。
而反饋神經網絡通過引入反饋連接,建立時序動力學模型,被廣泛用於處理語音文本等時序數據。
其實,ANNs模型的建立也是在不同時期中分別借鑑了神經科學的知識:
人工神經網絡的概念以及基本神經元模型於1943年就已提出[2],這正是試圖模擬腦皮層以神經元網絡形式進行信息處理的體現。
卷積神經網絡的局部感受野是受到大腦視覺系統的啟發。
深度神經網絡的層級構建是源於腦皮層的分層通路。
只不過在深度學習的後續發展中,研究者更加偏重把神經網絡視為一個黑匣,用於擬合從輸入到輸出的複雜映射關係:
只需要給網絡的輸出定義一個收斂目標(目標函數,比如每張圖像的輸出對應到正確的類別)並描述為一個優化問題,然後用梯度下降的方式去更新系統參數主要是突觸權重,使得輸出逐漸逼近想要的結果。
原則上網絡越大,特徵提取的能力就會越強,也就需要越多的數據來訓練網絡更新參數使網絡收斂,因此計算量也大幅增加。
故而,深度學習也被稱為數據和算力驅動的智能。雖然深度學習以解決實際應用為目標而與神經科學漸行漸遠,但近兩年也有科學家試圖在大腦中找到梯度下降的證據和吸收新的腦科學成果[3-8]。
深度學習的騰飛之路
深度學習的崛起也並非一蹴而就,是諸多因素相互促進的結晶。20世紀末到21世紀初很長一段時間內神經網絡方法不被多數人看好,其表現也不如傳統機器學習模型,多虧圖靈獎得主Hinton、LeCun和Bengio三位前輩的堅持,才有了今天的成就。
深度學習的飛速發展主要歸功於大型數據庫的誕生(如ImageNet)、高性能計算平臺(如GPUs)的出現、友好開發軟件的耕耘(如Tensorflow/Pytorch等)和神經網絡模型的改進(如卷積神經網中的VGG/Inception/ResNet/DenseNet),缺一不可。
由於成熟的算法、工具和應用場景,深度學習受到學術界和工業界的一致認可。深度學習加速器也現身各大學術頂會,並受到巨頭公司和創業公司的青睞,這其中就包括研發TPU的谷歌、手機內置神經引擎的蘋果以及國內的寒武紀、地平線、深鑑科技、華為、阿里等,當前主要熱門方向為研製運行ANNs模型的高性能雲計算平臺和低功耗終端器件。
脈衝神經網絡
基本模型
與深度學習不同,神經形態計算(neuromorphic computing)是目前智能模型中的又一大主要分支,它更加註重模擬大腦回路的行為,這裡給大家介紹兩類神經形態模型:脈衝神經網絡(Spiking Neural Network, SNN)和神經動力學網絡(Neural Dynamic Network)。
SNN與ANN主要有兩大不同,其一是採用脈衝編碼—spike code(0/1),其二是具有豐富的時間動力學。SNN神經元如圖3所示,其模型可簡單描述為:
其中,
(t)為時間步,t
是時間常數,
u為神經元膜電位,
s為神經元的脈衝輸出,
和
分別為神經元靜息電位和重置電位,
為脈衝發放閾值,
表示每個神經元會累加對應突觸輸入脈衝序列中一定時間窗
內的脈衝信號,
用於刻畫時間衰減效應(距離當前時刻越近的脈衝輸入對膜電位影響越大)。
圖3 脈衝神經元示意圖
135編輯器
雖然上述以微分方程為基礎的SNN神經元模型看起來比ANN模型更為複雜,但它已經是最為簡化的SNN模型了,被稱為洩漏積分發放模型(Leaky Integrate and Fire, LIF)[9],其它更為複雜的模型如Izhikevich[10]和Hodgkin & Huxley[11]僅憑藉現有計算機還難以仿真大規模網絡。
原理上,SNN的時間積分效應可以使得其能夠處理時序問題,尤其是稀疏數據(事實上大腦神經元發放頻率也是非常稀疏的);其膜電位洩漏和閾值發放效應,進一步使得其能夠具有一定的去噪功能(事實上大腦脈衝信號也具有很多噪音,但大腦仍能正常工作)。
這兩個特性,目前的ANN模型都不具備(反饋神經網絡儘管具備時域處理能力,但與SNN很不相同)。雖然理論上有較大潛力,但由於SNN神經元的多變量時空動力學比較複雜,而脈衝發放活動又不可導,導致其無法使用具有全局性的梯度下降算法進行學習。
135編輯器
在相當長一段時間裡,其主要的學習規則都是非監督的腦啟發STDP(spike timing dependent plasticity)規則[12],僅利用突觸兩端神經元的局部脈衝響應來更新突觸權重以滿足學習目標。
雖然STDP具有一定的生物基礎,但它太過於局部化,難以獲得類似梯度下降算法的全局優化能力,導致其在諸多應用中表現差於ANN模型。
直到最近三年,才有研究者通過將預先採用梯度下降算法訓練好的ANN模型轉換為其SNN版本[13,14],或者通過對脈衝發放函數進行導數逼近,進而直接計算每個時刻膜電位和脈衝活動的梯度以實現基於梯度下降的有監督算法學習[15,16],這些努力逐漸使得SNN的應用性能接近目前的ANN模型。
爭議叢生但未來可期
支持SNN的器件通常稱為神經形態器件(如歐洲的SpiNNaker[17]和DYNAP[18],IBM的TrueNorth[19],Intel的Loihi[20]),其研究的動機主要是因為SNN的類腦特性使其更有希望通過構建大規模系統獲得類腦智能。
不過從應用角度出發,目前的神經形態器件大多隻能體現低功耗的特性,這是由於SNN神經元的輸入輸出信號為二值脈衝的緣故,可以去除輸入和突觸權重運算中的笨重乘法,再加之脈衝活動非常稀疏且允許事件驅動的異步電路設計。
而在功能方面,SNN所表現出的性能尚不能與深度學習匹敵,這也是工業界對神經形態方案的熱情有所消退甚至持懷疑和觀望態度的原因。
135編輯器
但筆者認為,目前的神經形態計算還有很大的提升空間,未來仍有可期:
一方面,深度學習的進步是數據、算力、軟件和模型共同進步的結果,非一日之功,而神經形態計算在上述優化上還處於起步階段。
另一方面,理論上SNN具有更豐富的信息響應特性,但其模型優勢距離被充分挖掘還有很長的路要走,究竟什麼任務、什麼信息數據甚至什麼評估標準適合SNN均尚不清晰。
目前的大多數測試基準仍是從ANN中遷移而來,僅僅在圖像數據上和ANN比較識別正確率就判別勝負難免過於狹隘,SNN的專長不應止於此。期待研究者們繼續從各個子領域努力前行,逐步迭代發展。
神經動力學網絡
基本模型
除SNN外,實際上計算神經科學領域的許多神經網絡模型並不是以脈衝形式進行信息編碼的,但保留了膜電位的時間微分動力學,因此這裡稱之為神經動力學網絡(Neural Dynamic Networks)。
這類模型通常用於研究腦回路的響應特性,成果相對分散。這裡給大家介紹比較典型的連續吸引子網絡(Continuous Attractor Neural Network, CANN)[21,22],其神經元模型可以簡單總結為如下:
來源:腦人言
撰文丨鄧 磊(加州大學-聖塔芭芭拉分校UCSB 博士後)
責編丨高茂森 Soma
排版丨夏獺
科學研究的動機,並非僅僅是出於能看到多酷炫的應用,而是因為我們尚有諸多未知世界需要探尋,這是一切應用的前提。
AI芯片如火如荼
AI芯片是當今人工智能熱潮中不可或缺的一個名詞,且受國際局勢影響愈加受到重視。摩爾定律難以為繼,通用處理器的性能提升速度大為減緩,在晶體管物理微縮和計算體系架構改進帶來的收益之爭中,後者漸處上風。
在此背景下,學術界和工業界紛紛將視野轉向針對特定領域設計高性能的專用芯片,擬將架構設計發揮到極致。
AI芯片作為最為典型的領域專用芯片代表,受到國內外研發單位的高度關注。國外有谷歌、蘋果、英特爾、IBM、英偉達等巨頭領銜,國內也有寒武紀、地平線、深鑑、華為、阿里等公司響應,最近清華大學的天機芯更是登上了Nature雜誌的封面[1],其形勢可謂如日中天。
然而,AI芯片中所謂的“智能”究竟源自於哪些模型,又和我們的大腦有何關係,他們的過去和未來將會怎樣,本文帶你一探究竟。
人工神經網絡
基本模型
機器學習是目前人工智能模型中最卓有成效的一個分支,而深度學習又是當今機器學習的寵兒,其以人工神經網絡(Artificial Neural Network, ANN)為主要模型。
ANN由大量神經元(Neuron)通過突觸(synapse)連接而成,從輸入到輸出呈現層級結構,當層數較多時則被稱為深度神經網絡(Deep Neural Networks)。
圖1 人工神經元示意圖
每個神經元的基本結構如圖1所示,而基本的計算原理為
,其中x
和y
分別為輸入和輸出激活值、
w為突觸連接的權重值、
b為偏置值、
φ為非線性激活函數。
圖2 不同網絡連接拓撲
(a) 全連接神經網絡;(b) 反饋神經網絡;(c)卷積神經網絡。
根據神經元的連接拓撲可以分為全連接神經網絡、卷積神經網絡、反饋神經網絡等,如圖2所示。
相比於全連接神經網絡,卷積神經網絡通過引入二維特徵圖與突觸核的卷積操作獲得了強大的局部特徵提取能力,被廣泛用於圖像處理領域。
而反饋神經網絡通過引入反饋連接,建立時序動力學模型,被廣泛用於處理語音文本等時序數據。
其實,ANNs模型的建立也是在不同時期中分別借鑑了神經科學的知識:
人工神經網絡的概念以及基本神經元模型於1943年就已提出[2],這正是試圖模擬腦皮層以神經元網絡形式進行信息處理的體現。
卷積神經網絡的局部感受野是受到大腦視覺系統的啟發。
深度神經網絡的層級構建是源於腦皮層的分層通路。
只不過在深度學習的後續發展中,研究者更加偏重把神經網絡視為一個黑匣,用於擬合從輸入到輸出的複雜映射關係:
只需要給網絡的輸出定義一個收斂目標(目標函數,比如每張圖像的輸出對應到正確的類別)並描述為一個優化問題,然後用梯度下降的方式去更新系統參數主要是突觸權重,使得輸出逐漸逼近想要的結果。
原則上網絡越大,特徵提取的能力就會越強,也就需要越多的數據來訓練網絡更新參數使網絡收斂,因此計算量也大幅增加。
故而,深度學習也被稱為數據和算力驅動的智能。雖然深度學習以解決實際應用為目標而與神經科學漸行漸遠,但近兩年也有科學家試圖在大腦中找到梯度下降的證據和吸收新的腦科學成果[3-8]。
深度學習的騰飛之路
深度學習的崛起也並非一蹴而就,是諸多因素相互促進的結晶。20世紀末到21世紀初很長一段時間內神經網絡方法不被多數人看好,其表現也不如傳統機器學習模型,多虧圖靈獎得主Hinton、LeCun和Bengio三位前輩的堅持,才有了今天的成就。
深度學習的飛速發展主要歸功於大型數據庫的誕生(如ImageNet)、高性能計算平臺(如GPUs)的出現、友好開發軟件的耕耘(如Tensorflow/Pytorch等)和神經網絡模型的改進(如卷積神經網中的VGG/Inception/ResNet/DenseNet),缺一不可。
由於成熟的算法、工具和應用場景,深度學習受到學術界和工業界的一致認可。深度學習加速器也現身各大學術頂會,並受到巨頭公司和創業公司的青睞,這其中就包括研發TPU的谷歌、手機內置神經引擎的蘋果以及國內的寒武紀、地平線、深鑑科技、華為、阿里等,當前主要熱門方向為研製運行ANNs模型的高性能雲計算平臺和低功耗終端器件。
脈衝神經網絡
基本模型
與深度學習不同,神經形態計算(neuromorphic computing)是目前智能模型中的又一大主要分支,它更加註重模擬大腦回路的行為,這裡給大家介紹兩類神經形態模型:脈衝神經網絡(Spiking Neural Network, SNN)和神經動力學網絡(Neural Dynamic Network)。
SNN與ANN主要有兩大不同,其一是採用脈衝編碼—spike code(0/1),其二是具有豐富的時間動力學。SNN神經元如圖3所示,其模型可簡單描述為:
其中,
(t)為時間步,t
是時間常數,
u為神經元膜電位,
s為神經元的脈衝輸出,
和
分別為神經元靜息電位和重置電位,
為脈衝發放閾值,
表示每個神經元會累加對應突觸輸入脈衝序列中一定時間窗
內的脈衝信號,
用於刻畫時間衰減效應(距離當前時刻越近的脈衝輸入對膜電位影響越大)。
圖3 脈衝神經元示意圖
135編輯器
雖然上述以微分方程為基礎的SNN神經元模型看起來比ANN模型更為複雜,但它已經是最為簡化的SNN模型了,被稱為洩漏積分發放模型(Leaky Integrate and Fire, LIF)[9],其它更為複雜的模型如Izhikevich[10]和Hodgkin & Huxley[11]僅憑藉現有計算機還難以仿真大規模網絡。
原理上,SNN的時間積分效應可以使得其能夠處理時序問題,尤其是稀疏數據(事實上大腦神經元發放頻率也是非常稀疏的);其膜電位洩漏和閾值發放效應,進一步使得其能夠具有一定的去噪功能(事實上大腦脈衝信號也具有很多噪音,但大腦仍能正常工作)。
這兩個特性,目前的ANN模型都不具備(反饋神經網絡儘管具備時域處理能力,但與SNN很不相同)。雖然理論上有較大潛力,但由於SNN神經元的多變量時空動力學比較複雜,而脈衝發放活動又不可導,導致其無法使用具有全局性的梯度下降算法進行學習。
135編輯器
在相當長一段時間裡,其主要的學習規則都是非監督的腦啟發STDP(spike timing dependent plasticity)規則[12],僅利用突觸兩端神經元的局部脈衝響應來更新突觸權重以滿足學習目標。
雖然STDP具有一定的生物基礎,但它太過於局部化,難以獲得類似梯度下降算法的全局優化能力,導致其在諸多應用中表現差於ANN模型。
直到最近三年,才有研究者通過將預先採用梯度下降算法訓練好的ANN模型轉換為其SNN版本[13,14],或者通過對脈衝發放函數進行導數逼近,進而直接計算每個時刻膜電位和脈衝活動的梯度以實現基於梯度下降的有監督算法學習[15,16],這些努力逐漸使得SNN的應用性能接近目前的ANN模型。
爭議叢生但未來可期
支持SNN的器件通常稱為神經形態器件(如歐洲的SpiNNaker[17]和DYNAP[18],IBM的TrueNorth[19],Intel的Loihi[20]),其研究的動機主要是因為SNN的類腦特性使其更有希望通過構建大規模系統獲得類腦智能。
不過從應用角度出發,目前的神經形態器件大多隻能體現低功耗的特性,這是由於SNN神經元的輸入輸出信號為二值脈衝的緣故,可以去除輸入和突觸權重運算中的笨重乘法,再加之脈衝活動非常稀疏且允許事件驅動的異步電路設計。
而在功能方面,SNN所表現出的性能尚不能與深度學習匹敵,這也是工業界對神經形態方案的熱情有所消退甚至持懷疑和觀望態度的原因。
135編輯器
但筆者認為,目前的神經形態計算還有很大的提升空間,未來仍有可期:
一方面,深度學習的進步是數據、算力、軟件和模型共同進步的結果,非一日之功,而神經形態計算在上述優化上還處於起步階段。
另一方面,理論上SNN具有更豐富的信息響應特性,但其模型優勢距離被充分挖掘還有很長的路要走,究竟什麼任務、什麼信息數據甚至什麼評估標準適合SNN均尚不清晰。
目前的大多數測試基準仍是從ANN中遷移而來,僅僅在圖像數據上和ANN比較識別正確率就判別勝負難免過於狹隘,SNN的專長不應止於此。期待研究者們繼續從各個子領域努力前行,逐步迭代發展。
神經動力學網絡
基本模型
除SNN外,實際上計算神經科學領域的許多神經網絡模型並不是以脈衝形式進行信息編碼的,但保留了膜電位的時間微分動力學,因此這裡稱之為神經動力學網絡(Neural Dynamic Networks)。
這類模型通常用於研究腦回路的響應特性,成果相對分散。這裡給大家介紹比較典型的連續吸引子網絡(Continuous Attractor Neural Network, CANN)[21,22],其神經元模型可以簡單總結為如下:
其中大多數變量含義與SNN類似。此外,
來源:腦人言
撰文丨鄧 磊(加州大學-聖塔芭芭拉分校UCSB 博士後)
責編丨高茂森 Soma
排版丨夏獺
科學研究的動機,並非僅僅是出於能看到多酷炫的應用,而是因為我們尚有諸多未知世界需要探尋,這是一切應用的前提。
AI芯片如火如荼
AI芯片是當今人工智能熱潮中不可或缺的一個名詞,且受國際局勢影響愈加受到重視。摩爾定律難以為繼,通用處理器的性能提升速度大為減緩,在晶體管物理微縮和計算體系架構改進帶來的收益之爭中,後者漸處上風。
在此背景下,學術界和工業界紛紛將視野轉向針對特定領域設計高性能的專用芯片,擬將架構設計發揮到極致。
AI芯片作為最為典型的領域專用芯片代表,受到國內外研發單位的高度關注。國外有谷歌、蘋果、英特爾、IBM、英偉達等巨頭領銜,國內也有寒武紀、地平線、深鑑、華為、阿里等公司響應,最近清華大學的天機芯更是登上了Nature雜誌的封面[1],其形勢可謂如日中天。
然而,AI芯片中所謂的“智能”究竟源自於哪些模型,又和我們的大腦有何關係,他們的過去和未來將會怎樣,本文帶你一探究竟。
人工神經網絡
基本模型
機器學習是目前人工智能模型中最卓有成效的一個分支,而深度學習又是當今機器學習的寵兒,其以人工神經網絡(Artificial Neural Network, ANN)為主要模型。
ANN由大量神經元(Neuron)通過突觸(synapse)連接而成,從輸入到輸出呈現層級結構,當層數較多時則被稱為深度神經網絡(Deep Neural Networks)。
圖1 人工神經元示意圖
每個神經元的基本結構如圖1所示,而基本的計算原理為
,其中x
和y
分別為輸入和輸出激活值、
w為突觸連接的權重值、
b為偏置值、
φ為非線性激活函數。
圖2 不同網絡連接拓撲
(a) 全連接神經網絡;(b) 反饋神經網絡;(c)卷積神經網絡。
根據神經元的連接拓撲可以分為全連接神經網絡、卷積神經網絡、反饋神經網絡等,如圖2所示。
相比於全連接神經網絡,卷積神經網絡通過引入二維特徵圖與突觸核的卷積操作獲得了強大的局部特徵提取能力,被廣泛用於圖像處理領域。
而反饋神經網絡通過引入反饋連接,建立時序動力學模型,被廣泛用於處理語音文本等時序數據。
其實,ANNs模型的建立也是在不同時期中分別借鑑了神經科學的知識:
人工神經網絡的概念以及基本神經元模型於1943年就已提出[2],這正是試圖模擬腦皮層以神經元網絡形式進行信息處理的體現。
卷積神經網絡的局部感受野是受到大腦視覺系統的啟發。
深度神經網絡的層級構建是源於腦皮層的分層通路。
只不過在深度學習的後續發展中,研究者更加偏重把神經網絡視為一個黑匣,用於擬合從輸入到輸出的複雜映射關係:
只需要給網絡的輸出定義一個收斂目標(目標函數,比如每張圖像的輸出對應到正確的類別)並描述為一個優化問題,然後用梯度下降的方式去更新系統參數主要是突觸權重,使得輸出逐漸逼近想要的結果。
原則上網絡越大,特徵提取的能力就會越強,也就需要越多的數據來訓練網絡更新參數使網絡收斂,因此計算量也大幅增加。
故而,深度學習也被稱為數據和算力驅動的智能。雖然深度學習以解決實際應用為目標而與神經科學漸行漸遠,但近兩年也有科學家試圖在大腦中找到梯度下降的證據和吸收新的腦科學成果[3-8]。
深度學習的騰飛之路
深度學習的崛起也並非一蹴而就,是諸多因素相互促進的結晶。20世紀末到21世紀初很長一段時間內神經網絡方法不被多數人看好,其表現也不如傳統機器學習模型,多虧圖靈獎得主Hinton、LeCun和Bengio三位前輩的堅持,才有了今天的成就。
深度學習的飛速發展主要歸功於大型數據庫的誕生(如ImageNet)、高性能計算平臺(如GPUs)的出現、友好開發軟件的耕耘(如Tensorflow/Pytorch等)和神經網絡模型的改進(如卷積神經網中的VGG/Inception/ResNet/DenseNet),缺一不可。
由於成熟的算法、工具和應用場景,深度學習受到學術界和工業界的一致認可。深度學習加速器也現身各大學術頂會,並受到巨頭公司和創業公司的青睞,這其中就包括研發TPU的谷歌、手機內置神經引擎的蘋果以及國內的寒武紀、地平線、深鑑科技、華為、阿里等,當前主要熱門方向為研製運行ANNs模型的高性能雲計算平臺和低功耗終端器件。
脈衝神經網絡
基本模型
與深度學習不同,神經形態計算(neuromorphic computing)是目前智能模型中的又一大主要分支,它更加註重模擬大腦回路的行為,這裡給大家介紹兩類神經形態模型:脈衝神經網絡(Spiking Neural Network, SNN)和神經動力學網絡(Neural Dynamic Network)。
SNN與ANN主要有兩大不同,其一是採用脈衝編碼—spike code(0/1),其二是具有豐富的時間動力學。SNN神經元如圖3所示,其模型可簡單描述為:
其中,
(t)為時間步,t
是時間常數,
u為神經元膜電位,
s為神經元的脈衝輸出,
和
分別為神經元靜息電位和重置電位,
為脈衝發放閾值,
表示每個神經元會累加對應突觸輸入脈衝序列中一定時間窗
內的脈衝信號,
用於刻畫時間衰減效應(距離當前時刻越近的脈衝輸入對膜電位影響越大)。
圖3 脈衝神經元示意圖
135編輯器
雖然上述以微分方程為基礎的SNN神經元模型看起來比ANN模型更為複雜,但它已經是最為簡化的SNN模型了,被稱為洩漏積分發放模型(Leaky Integrate and Fire, LIF)[9],其它更為複雜的模型如Izhikevich[10]和Hodgkin & Huxley[11]僅憑藉現有計算機還難以仿真大規模網絡。
原理上,SNN的時間積分效應可以使得其能夠處理時序問題,尤其是稀疏數據(事實上大腦神經元發放頻率也是非常稀疏的);其膜電位洩漏和閾值發放效應,進一步使得其能夠具有一定的去噪功能(事實上大腦脈衝信號也具有很多噪音,但大腦仍能正常工作)。
這兩個特性,目前的ANN模型都不具備(反饋神經網絡儘管具備時域處理能力,但與SNN很不相同)。雖然理論上有較大潛力,但由於SNN神經元的多變量時空動力學比較複雜,而脈衝發放活動又不可導,導致其無法使用具有全局性的梯度下降算法進行學習。
135編輯器
在相當長一段時間裡,其主要的學習規則都是非監督的腦啟發STDP(spike timing dependent plasticity)規則[12],僅利用突觸兩端神經元的局部脈衝響應來更新突觸權重以滿足學習目標。
雖然STDP具有一定的生物基礎,但它太過於局部化,難以獲得類似梯度下降算法的全局優化能力,導致其在諸多應用中表現差於ANN模型。
直到最近三年,才有研究者通過將預先採用梯度下降算法訓練好的ANN模型轉換為其SNN版本[13,14],或者通過對脈衝發放函數進行導數逼近,進而直接計算每個時刻膜電位和脈衝活動的梯度以實現基於梯度下降的有監督算法學習[15,16],這些努力逐漸使得SNN的應用性能接近目前的ANN模型。
爭議叢生但未來可期
支持SNN的器件通常稱為神經形態器件(如歐洲的SpiNNaker[17]和DYNAP[18],IBM的TrueNorth[19],Intel的Loihi[20]),其研究的動機主要是因為SNN的類腦特性使其更有希望通過構建大規模系統獲得類腦智能。
不過從應用角度出發,目前的神經形態器件大多隻能體現低功耗的特性,這是由於SNN神經元的輸入輸出信號為二值脈衝的緣故,可以去除輸入和突觸權重運算中的笨重乘法,再加之脈衝活動非常稀疏且允許事件驅動的異步電路設計。
而在功能方面,SNN所表現出的性能尚不能與深度學習匹敵,這也是工業界對神經形態方案的熱情有所消退甚至持懷疑和觀望態度的原因。
135編輯器
但筆者認為,目前的神經形態計算還有很大的提升空間,未來仍有可期:
一方面,深度學習的進步是數據、算力、軟件和模型共同進步的結果,非一日之功,而神經形態計算在上述優化上還處於起步階段。
另一方面,理論上SNN具有更豐富的信息響應特性,但其模型優勢距離被充分挖掘還有很長的路要走,究竟什麼任務、什麼信息數據甚至什麼評估標準適合SNN均尚不清晰。
目前的大多數測試基準仍是從ANN中遷移而來,僅僅在圖像數據上和ANN比較識別正確率就判別勝負難免過於狹隘,SNN的專長不應止於此。期待研究者們繼續從各個子領域努力前行,逐步迭代發展。
神經動力學網絡
基本模型
除SNN外,實際上計算神經科學領域的許多神經網絡模型並不是以脈衝形式進行信息編碼的,但保留了膜電位的時間微分動力學,因此這裡稱之為神經動力學網絡(Neural Dynamic Networks)。
這類模型通常用於研究腦回路的響應特性,成果相對分散。這裡給大家介紹比較典型的連續吸引子網絡(Continuous Attractor Neural Network, CANN)[21,22],其神經元模型可以簡單總結為如下:
其中大多數變量含義與SNN類似。此外,
x為神經元在二維空間中的座標位置(如圖4所示,以二維CANN為例),
來源:腦人言
撰文丨鄧 磊(加州大學-聖塔芭芭拉分校UCSB 博士後)
責編丨高茂森 Soma
排版丨夏獺
科學研究的動機,並非僅僅是出於能看到多酷炫的應用,而是因為我們尚有諸多未知世界需要探尋,這是一切應用的前提。
AI芯片如火如荼
AI芯片是當今人工智能熱潮中不可或缺的一個名詞,且受國際局勢影響愈加受到重視。摩爾定律難以為繼,通用處理器的性能提升速度大為減緩,在晶體管物理微縮和計算體系架構改進帶來的收益之爭中,後者漸處上風。
在此背景下,學術界和工業界紛紛將視野轉向針對特定領域設計高性能的專用芯片,擬將架構設計發揮到極致。
AI芯片作為最為典型的領域專用芯片代表,受到國內外研發單位的高度關注。國外有谷歌、蘋果、英特爾、IBM、英偉達等巨頭領銜,國內也有寒武紀、地平線、深鑑、華為、阿里等公司響應,最近清華大學的天機芯更是登上了Nature雜誌的封面[1],其形勢可謂如日中天。
然而,AI芯片中所謂的“智能”究竟源自於哪些模型,又和我們的大腦有何關係,他們的過去和未來將會怎樣,本文帶你一探究竟。
人工神經網絡
基本模型
機器學習是目前人工智能模型中最卓有成效的一個分支,而深度學習又是當今機器學習的寵兒,其以人工神經網絡(Artificial Neural Network, ANN)為主要模型。
ANN由大量神經元(Neuron)通過突觸(synapse)連接而成,從輸入到輸出呈現層級結構,當層數較多時則被稱為深度神經網絡(Deep Neural Networks)。
圖1 人工神經元示意圖
每個神經元的基本結構如圖1所示,而基本的計算原理為
,其中x
和y
分別為輸入和輸出激活值、
w為突觸連接的權重值、
b為偏置值、
φ為非線性激活函數。
圖2 不同網絡連接拓撲
(a) 全連接神經網絡;(b) 反饋神經網絡;(c)卷積神經網絡。
根據神經元的連接拓撲可以分為全連接神經網絡、卷積神經網絡、反饋神經網絡等,如圖2所示。
相比於全連接神經網絡,卷積神經網絡通過引入二維特徵圖與突觸核的卷積操作獲得了強大的局部特徵提取能力,被廣泛用於圖像處理領域。
而反饋神經網絡通過引入反饋連接,建立時序動力學模型,被廣泛用於處理語音文本等時序數據。
其實,ANNs模型的建立也是在不同時期中分別借鑑了神經科學的知識:
人工神經網絡的概念以及基本神經元模型於1943年就已提出[2],這正是試圖模擬腦皮層以神經元網絡形式進行信息處理的體現。
卷積神經網絡的局部感受野是受到大腦視覺系統的啟發。
深度神經網絡的層級構建是源於腦皮層的分層通路。
只不過在深度學習的後續發展中,研究者更加偏重把神經網絡視為一個黑匣,用於擬合從輸入到輸出的複雜映射關係:
只需要給網絡的輸出定義一個收斂目標(目標函數,比如每張圖像的輸出對應到正確的類別)並描述為一個優化問題,然後用梯度下降的方式去更新系統參數主要是突觸權重,使得輸出逐漸逼近想要的結果。
原則上網絡越大,特徵提取的能力就會越強,也就需要越多的數據來訓練網絡更新參數使網絡收斂,因此計算量也大幅增加。
故而,深度學習也被稱為數據和算力驅動的智能。雖然深度學習以解決實際應用為目標而與神經科學漸行漸遠,但近兩年也有科學家試圖在大腦中找到梯度下降的證據和吸收新的腦科學成果[3-8]。
深度學習的騰飛之路
深度學習的崛起也並非一蹴而就,是諸多因素相互促進的結晶。20世紀末到21世紀初很長一段時間內神經網絡方法不被多數人看好,其表現也不如傳統機器學習模型,多虧圖靈獎得主Hinton、LeCun和Bengio三位前輩的堅持,才有了今天的成就。
深度學習的飛速發展主要歸功於大型數據庫的誕生(如ImageNet)、高性能計算平臺(如GPUs)的出現、友好開發軟件的耕耘(如Tensorflow/Pytorch等)和神經網絡模型的改進(如卷積神經網中的VGG/Inception/ResNet/DenseNet),缺一不可。
由於成熟的算法、工具和應用場景,深度學習受到學術界和工業界的一致認可。深度學習加速器也現身各大學術頂會,並受到巨頭公司和創業公司的青睞,這其中就包括研發TPU的谷歌、手機內置神經引擎的蘋果以及國內的寒武紀、地平線、深鑑科技、華為、阿里等,當前主要熱門方向為研製運行ANNs模型的高性能雲計算平臺和低功耗終端器件。
脈衝神經網絡
基本模型
與深度學習不同,神經形態計算(neuromorphic computing)是目前智能模型中的又一大主要分支,它更加註重模擬大腦回路的行為,這裡給大家介紹兩類神經形態模型:脈衝神經網絡(Spiking Neural Network, SNN)和神經動力學網絡(Neural Dynamic Network)。
SNN與ANN主要有兩大不同,其一是採用脈衝編碼—spike code(0/1),其二是具有豐富的時間動力學。SNN神經元如圖3所示,其模型可簡單描述為:
其中,
(t)為時間步,t
是時間常數,
u為神經元膜電位,
s為神經元的脈衝輸出,
和
分別為神經元靜息電位和重置電位,
為脈衝發放閾值,
表示每個神經元會累加對應突觸輸入脈衝序列中一定時間窗
內的脈衝信號,
用於刻畫時間衰減效應(距離當前時刻越近的脈衝輸入對膜電位影響越大)。
圖3 脈衝神經元示意圖
135編輯器
雖然上述以微分方程為基礎的SNN神經元模型看起來比ANN模型更為複雜,但它已經是最為簡化的SNN模型了,被稱為洩漏積分發放模型(Leaky Integrate and Fire, LIF)[9],其它更為複雜的模型如Izhikevich[10]和Hodgkin & Huxley[11]僅憑藉現有計算機還難以仿真大規模網絡。
原理上,SNN的時間積分效應可以使得其能夠處理時序問題,尤其是稀疏數據(事實上大腦神經元發放頻率也是非常稀疏的);其膜電位洩漏和閾值發放效應,進一步使得其能夠具有一定的去噪功能(事實上大腦脈衝信號也具有很多噪音,但大腦仍能正常工作)。
這兩個特性,目前的ANN模型都不具備(反饋神經網絡儘管具備時域處理能力,但與SNN很不相同)。雖然理論上有較大潛力,但由於SNN神經元的多變量時空動力學比較複雜,而脈衝發放活動又不可導,導致其無法使用具有全局性的梯度下降算法進行學習。
135編輯器
在相當長一段時間裡,其主要的學習規則都是非監督的腦啟發STDP(spike timing dependent plasticity)規則[12],僅利用突觸兩端神經元的局部脈衝響應來更新突觸權重以滿足學習目標。
雖然STDP具有一定的生物基礎,但它太過於局部化,難以獲得類似梯度下降算法的全局優化能力,導致其在諸多應用中表現差於ANN模型。
直到最近三年,才有研究者通過將預先採用梯度下降算法訓練好的ANN模型轉換為其SNN版本[13,14],或者通過對脈衝發放函數進行導數逼近,進而直接計算每個時刻膜電位和脈衝活動的梯度以實現基於梯度下降的有監督算法學習[15,16],這些努力逐漸使得SNN的應用性能接近目前的ANN模型。
爭議叢生但未來可期
支持SNN的器件通常稱為神經形態器件(如歐洲的SpiNNaker[17]和DYNAP[18],IBM的TrueNorth[19],Intel的Loihi[20]),其研究的動機主要是因為SNN的類腦特性使其更有希望通過構建大規模系統獲得類腦智能。
不過從應用角度出發,目前的神經形態器件大多隻能體現低功耗的特性,這是由於SNN神經元的輸入輸出信號為二值脈衝的緣故,可以去除輸入和突觸權重運算中的笨重乘法,再加之脈衝活動非常稀疏且允許事件驅動的異步電路設計。
而在功能方面,SNN所表現出的性能尚不能與深度學習匹敵,這也是工業界對神經形態方案的熱情有所消退甚至持懷疑和觀望態度的原因。
135編輯器
但筆者認為,目前的神經形態計算還有很大的提升空間,未來仍有可期:
一方面,深度學習的進步是數據、算力、軟件和模型共同進步的結果,非一日之功,而神經形態計算在上述優化上還處於起步階段。
另一方面,理論上SNN具有更豐富的信息響應特性,但其模型優勢距離被充分挖掘還有很長的路要走,究竟什麼任務、什麼信息數據甚至什麼評估標準適合SNN均尚不清晰。
目前的大多數測試基準仍是從ANN中遷移而來,僅僅在圖像數據上和ANN比較識別正確率就判別勝負難免過於狹隘,SNN的專長不應止於此。期待研究者們繼續從各個子領域努力前行,逐步迭代發展。
神經動力學網絡
基本模型
除SNN外,實際上計算神經科學領域的許多神經網絡模型並不是以脈衝形式進行信息編碼的,但保留了膜電位的時間微分動力學,因此這裡稱之為神經動力學網絡(Neural Dynamic Networks)。
這類模型通常用於研究腦回路的響應特性,成果相對分散。這裡給大家介紹比較典型的連續吸引子網絡(Continuous Attractor Neural Network, CANN)[21,22],其神經元模型可以簡單總結為如下:
其中大多數變量含義與SNN類似。此外,
x為神經元在二維空間中的座標位置(如圖4所示,以二維CANN為例),
來源:腦人言
撰文丨鄧 磊(加州大學-聖塔芭芭拉分校UCSB 博士後)
責編丨高茂森 Soma
排版丨夏獺
科學研究的動機,並非僅僅是出於能看到多酷炫的應用,而是因為我們尚有諸多未知世界需要探尋,這是一切應用的前提。
AI芯片如火如荼
AI芯片是當今人工智能熱潮中不可或缺的一個名詞,且受國際局勢影響愈加受到重視。摩爾定律難以為繼,通用處理器的性能提升速度大為減緩,在晶體管物理微縮和計算體系架構改進帶來的收益之爭中,後者漸處上風。
在此背景下,學術界和工業界紛紛將視野轉向針對特定領域設計高性能的專用芯片,擬將架構設計發揮到極致。
AI芯片作為最為典型的領域專用芯片代表,受到國內外研發單位的高度關注。國外有谷歌、蘋果、英特爾、IBM、英偉達等巨頭領銜,國內也有寒武紀、地平線、深鑑、華為、阿里等公司響應,最近清華大學的天機芯更是登上了Nature雜誌的封面[1],其形勢可謂如日中天。
然而,AI芯片中所謂的“智能”究竟源自於哪些模型,又和我們的大腦有何關係,他們的過去和未來將會怎樣,本文帶你一探究竟。
人工神經網絡
基本模型
機器學習是目前人工智能模型中最卓有成效的一個分支,而深度學習又是當今機器學習的寵兒,其以人工神經網絡(Artificial Neural Network, ANN)為主要模型。
ANN由大量神經元(Neuron)通過突觸(synapse)連接而成,從輸入到輸出呈現層級結構,當層數較多時則被稱為深度神經網絡(Deep Neural Networks)。
圖1 人工神經元示意圖
每個神經元的基本結構如圖1所示,而基本的計算原理為
,其中x
和y
分別為輸入和輸出激活值、
w為突觸連接的權重值、
b為偏置值、
φ為非線性激活函數。
圖2 不同網絡連接拓撲
(a) 全連接神經網絡;(b) 反饋神經網絡;(c)卷積神經網絡。
根據神經元的連接拓撲可以分為全連接神經網絡、卷積神經網絡、反饋神經網絡等,如圖2所示。
相比於全連接神經網絡,卷積神經網絡通過引入二維特徵圖與突觸核的卷積操作獲得了強大的局部特徵提取能力,被廣泛用於圖像處理領域。
而反饋神經網絡通過引入反饋連接,建立時序動力學模型,被廣泛用於處理語音文本等時序數據。
其實,ANNs模型的建立也是在不同時期中分別借鑑了神經科學的知識:
人工神經網絡的概念以及基本神經元模型於1943年就已提出[2],這正是試圖模擬腦皮層以神經元網絡形式進行信息處理的體現。
卷積神經網絡的局部感受野是受到大腦視覺系統的啟發。
深度神經網絡的層級構建是源於腦皮層的分層通路。
只不過在深度學習的後續發展中,研究者更加偏重把神經網絡視為一個黑匣,用於擬合從輸入到輸出的複雜映射關係:
只需要給網絡的輸出定義一個收斂目標(目標函數,比如每張圖像的輸出對應到正確的類別)並描述為一個優化問題,然後用梯度下降的方式去更新系統參數主要是突觸權重,使得輸出逐漸逼近想要的結果。
原則上網絡越大,特徵提取的能力就會越強,也就需要越多的數據來訓練網絡更新參數使網絡收斂,因此計算量也大幅增加。
故而,深度學習也被稱為數據和算力驅動的智能。雖然深度學習以解決實際應用為目標而與神經科學漸行漸遠,但近兩年也有科學家試圖在大腦中找到梯度下降的證據和吸收新的腦科學成果[3-8]。
深度學習的騰飛之路
深度學習的崛起也並非一蹴而就,是諸多因素相互促進的結晶。20世紀末到21世紀初很長一段時間內神經網絡方法不被多數人看好,其表現也不如傳統機器學習模型,多虧圖靈獎得主Hinton、LeCun和Bengio三位前輩的堅持,才有了今天的成就。
深度學習的飛速發展主要歸功於大型數據庫的誕生(如ImageNet)、高性能計算平臺(如GPUs)的出現、友好開發軟件的耕耘(如Tensorflow/Pytorch等)和神經網絡模型的改進(如卷積神經網中的VGG/Inception/ResNet/DenseNet),缺一不可。
由於成熟的算法、工具和應用場景,深度學習受到學術界和工業界的一致認可。深度學習加速器也現身各大學術頂會,並受到巨頭公司和創業公司的青睞,這其中就包括研發TPU的谷歌、手機內置神經引擎的蘋果以及國內的寒武紀、地平線、深鑑科技、華為、阿里等,當前主要熱門方向為研製運行ANNs模型的高性能雲計算平臺和低功耗終端器件。
脈衝神經網絡
基本模型
與深度學習不同,神經形態計算(neuromorphic computing)是目前智能模型中的又一大主要分支,它更加註重模擬大腦回路的行為,這裡給大家介紹兩類神經形態模型:脈衝神經網絡(Spiking Neural Network, SNN)和神經動力學網絡(Neural Dynamic Network)。
SNN與ANN主要有兩大不同,其一是採用脈衝編碼—spike code(0/1),其二是具有豐富的時間動力學。SNN神經元如圖3所示,其模型可簡單描述為:
其中,
(t)為時間步,t
是時間常數,
u為神經元膜電位,
s為神經元的脈衝輸出,
和
分別為神經元靜息電位和重置電位,
為脈衝發放閾值,
表示每個神經元會累加對應突觸輸入脈衝序列中一定時間窗
內的脈衝信號,
用於刻畫時間衰減效應(距離當前時刻越近的脈衝輸入對膜電位影響越大)。
圖3 脈衝神經元示意圖
135編輯器
雖然上述以微分方程為基礎的SNN神經元模型看起來比ANN模型更為複雜,但它已經是最為簡化的SNN模型了,被稱為洩漏積分發放模型(Leaky Integrate and Fire, LIF)[9],其它更為複雜的模型如Izhikevich[10]和Hodgkin & Huxley[11]僅憑藉現有計算機還難以仿真大規模網絡。
原理上,SNN的時間積分效應可以使得其能夠處理時序問題,尤其是稀疏數據(事實上大腦神經元發放頻率也是非常稀疏的);其膜電位洩漏和閾值發放效應,進一步使得其能夠具有一定的去噪功能(事實上大腦脈衝信號也具有很多噪音,但大腦仍能正常工作)。
這兩個特性,目前的ANN模型都不具備(反饋神經網絡儘管具備時域處理能力,但與SNN很不相同)。雖然理論上有較大潛力,但由於SNN神經元的多變量時空動力學比較複雜,而脈衝發放活動又不可導,導致其無法使用具有全局性的梯度下降算法進行學習。
135編輯器
在相當長一段時間裡,其主要的學習規則都是非監督的腦啟發STDP(spike timing dependent plasticity)規則[12],僅利用突觸兩端神經元的局部脈衝響應來更新突觸權重以滿足學習目標。
雖然STDP具有一定的生物基礎,但它太過於局部化,難以獲得類似梯度下降算法的全局優化能力,導致其在諸多應用中表現差於ANN模型。
直到最近三年,才有研究者通過將預先採用梯度下降算法訓練好的ANN模型轉換為其SNN版本[13,14],或者通過對脈衝發放函數進行導數逼近,進而直接計算每個時刻膜電位和脈衝活動的梯度以實現基於梯度下降的有監督算法學習[15,16],這些努力逐漸使得SNN的應用性能接近目前的ANN模型。
爭議叢生但未來可期
支持SNN的器件通常稱為神經形態器件(如歐洲的SpiNNaker[17]和DYNAP[18],IBM的TrueNorth[19],Intel的Loihi[20]),其研究的動機主要是因為SNN的類腦特性使其更有希望通過構建大規模系統獲得類腦智能。
不過從應用角度出發,目前的神經形態器件大多隻能體現低功耗的特性,這是由於SNN神經元的輸入輸出信號為二值脈衝的緣故,可以去除輸入和突觸權重運算中的笨重乘法,再加之脈衝活動非常稀疏且允許事件驅動的異步電路設計。
而在功能方面,SNN所表現出的性能尚不能與深度學習匹敵,這也是工業界對神經形態方案的熱情有所消退甚至持懷疑和觀望態度的原因。
135編輯器
但筆者認為,目前的神經形態計算還有很大的提升空間,未來仍有可期:
一方面,深度學習的進步是數據、算力、軟件和模型共同進步的結果,非一日之功,而神經形態計算在上述優化上還處於起步階段。
另一方面,理論上SNN具有更豐富的信息響應特性,但其模型優勢距離被充分挖掘還有很長的路要走,究竟什麼任務、什麼信息數據甚至什麼評估標準適合SNN均尚不清晰。
目前的大多數測試基準仍是從ANN中遷移而來,僅僅在圖像數據上和ANN比較識別正確率就判別勝負難免過於狹隘,SNN的專長不應止於此。期待研究者們繼續從各個子領域努力前行,逐步迭代發展。
神經動力學網絡
基本模型
除SNN外,實際上計算神經科學領域的許多神經網絡模型並不是以脈衝形式進行信息編碼的,但保留了膜電位的時間微分動力學,因此這裡稱之為神經動力學網絡(Neural Dynamic Networks)。
這類模型通常用於研究腦回路的響應特性,成果相對分散。這裡給大家介紹比較典型的連續吸引子網絡(Continuous Attractor Neural Network, CANN)[21,22],其神經元模型可以簡單總結為如下:
其中大多數變量含義與SNN類似。此外,
x為神經元在二維空間中的座標位置(如圖4所示,以二維CANN為例),
為兩個對應位置神經元之間的突觸連接權重,
來源:腦人言
撰文丨鄧 磊(加州大學-聖塔芭芭拉分校UCSB 博士後)
責編丨高茂森 Soma
排版丨夏獺
科學研究的動機,並非僅僅是出於能看到多酷炫的應用,而是因為我們尚有諸多未知世界需要探尋,這是一切應用的前提。
AI芯片如火如荼
AI芯片是當今人工智能熱潮中不可或缺的一個名詞,且受國際局勢影響愈加受到重視。摩爾定律難以為繼,通用處理器的性能提升速度大為減緩,在晶體管物理微縮和計算體系架構改進帶來的收益之爭中,後者漸處上風。
在此背景下,學術界和工業界紛紛將視野轉向針對特定領域設計高性能的專用芯片,擬將架構設計發揮到極致。
AI芯片作為最為典型的領域專用芯片代表,受到國內外研發單位的高度關注。國外有谷歌、蘋果、英特爾、IBM、英偉達等巨頭領銜,國內也有寒武紀、地平線、深鑑、華為、阿里等公司響應,最近清華大學的天機芯更是登上了Nature雜誌的封面[1],其形勢可謂如日中天。
然而,AI芯片中所謂的“智能”究竟源自於哪些模型,又和我們的大腦有何關係,他們的過去和未來將會怎樣,本文帶你一探究竟。
人工神經網絡
基本模型
機器學習是目前人工智能模型中最卓有成效的一個分支,而深度學習又是當今機器學習的寵兒,其以人工神經網絡(Artificial Neural Network, ANN)為主要模型。
ANN由大量神經元(Neuron)通過突觸(synapse)連接而成,從輸入到輸出呈現層級結構,當層數較多時則被稱為深度神經網絡(Deep Neural Networks)。
圖1 人工神經元示意圖
每個神經元的基本結構如圖1所示,而基本的計算原理為
,其中x
和y
分別為輸入和輸出激活值、
w為突觸連接的權重值、
b為偏置值、
φ為非線性激活函數。
圖2 不同網絡連接拓撲
(a) 全連接神經網絡;(b) 反饋神經網絡;(c)卷積神經網絡。
根據神經元的連接拓撲可以分為全連接神經網絡、卷積神經網絡、反饋神經網絡等,如圖2所示。
相比於全連接神經網絡,卷積神經網絡通過引入二維特徵圖與突觸核的卷積操作獲得了強大的局部特徵提取能力,被廣泛用於圖像處理領域。
而反饋神經網絡通過引入反饋連接,建立時序動力學模型,被廣泛用於處理語音文本等時序數據。
其實,ANNs模型的建立也是在不同時期中分別借鑑了神經科學的知識:
人工神經網絡的概念以及基本神經元模型於1943年就已提出[2],這正是試圖模擬腦皮層以神經元網絡形式進行信息處理的體現。
卷積神經網絡的局部感受野是受到大腦視覺系統的啟發。
深度神經網絡的層級構建是源於腦皮層的分層通路。
只不過在深度學習的後續發展中,研究者更加偏重把神經網絡視為一個黑匣,用於擬合從輸入到輸出的複雜映射關係:
只需要給網絡的輸出定義一個收斂目標(目標函數,比如每張圖像的輸出對應到正確的類別)並描述為一個優化問題,然後用梯度下降的方式去更新系統參數主要是突觸權重,使得輸出逐漸逼近想要的結果。
原則上網絡越大,特徵提取的能力就會越強,也就需要越多的數據來訓練網絡更新參數使網絡收斂,因此計算量也大幅增加。
故而,深度學習也被稱為數據和算力驅動的智能。雖然深度學習以解決實際應用為目標而與神經科學漸行漸遠,但近兩年也有科學家試圖在大腦中找到梯度下降的證據和吸收新的腦科學成果[3-8]。
深度學習的騰飛之路
深度學習的崛起也並非一蹴而就,是諸多因素相互促進的結晶。20世紀末到21世紀初很長一段時間內神經網絡方法不被多數人看好,其表現也不如傳統機器學習模型,多虧圖靈獎得主Hinton、LeCun和Bengio三位前輩的堅持,才有了今天的成就。
深度學習的飛速發展主要歸功於大型數據庫的誕生(如ImageNet)、高性能計算平臺(如GPUs)的出現、友好開發軟件的耕耘(如Tensorflow/Pytorch等)和神經網絡模型的改進(如卷積神經網中的VGG/Inception/ResNet/DenseNet),缺一不可。
由於成熟的算法、工具和應用場景,深度學習受到學術界和工業界的一致認可。深度學習加速器也現身各大學術頂會,並受到巨頭公司和創業公司的青睞,這其中就包括研發TPU的谷歌、手機內置神經引擎的蘋果以及國內的寒武紀、地平線、深鑑科技、華為、阿里等,當前主要熱門方向為研製運行ANNs模型的高性能雲計算平臺和低功耗終端器件。
脈衝神經網絡
基本模型
與深度學習不同,神經形態計算(neuromorphic computing)是目前智能模型中的又一大主要分支,它更加註重模擬大腦回路的行為,這裡給大家介紹兩類神經形態模型:脈衝神經網絡(Spiking Neural Network, SNN)和神經動力學網絡(Neural Dynamic Network)。
SNN與ANN主要有兩大不同,其一是採用脈衝編碼—spike code(0/1),其二是具有豐富的時間動力學。SNN神經元如圖3所示,其模型可簡單描述為:
其中,
(t)為時間步,t
是時間常數,
u為神經元膜電位,
s為神經元的脈衝輸出,
和
分別為神經元靜息電位和重置電位,
為脈衝發放閾值,
表示每個神經元會累加對應突觸輸入脈衝序列中一定時間窗
內的脈衝信號,
用於刻畫時間衰減效應(距離當前時刻越近的脈衝輸入對膜電位影響越大)。
圖3 脈衝神經元示意圖
135編輯器
雖然上述以微分方程為基礎的SNN神經元模型看起來比ANN模型更為複雜,但它已經是最為簡化的SNN模型了,被稱為洩漏積分發放模型(Leaky Integrate and Fire, LIF)[9],其它更為複雜的模型如Izhikevich[10]和Hodgkin & Huxley[11]僅憑藉現有計算機還難以仿真大規模網絡。
原理上,SNN的時間積分效應可以使得其能夠處理時序問題,尤其是稀疏數據(事實上大腦神經元發放頻率也是非常稀疏的);其膜電位洩漏和閾值發放效應,進一步使得其能夠具有一定的去噪功能(事實上大腦脈衝信號也具有很多噪音,但大腦仍能正常工作)。
這兩個特性,目前的ANN模型都不具備(反饋神經網絡儘管具備時域處理能力,但與SNN很不相同)。雖然理論上有較大潛力,但由於SNN神經元的多變量時空動力學比較複雜,而脈衝發放活動又不可導,導致其無法使用具有全局性的梯度下降算法進行學習。
135編輯器
在相當長一段時間裡,其主要的學習規則都是非監督的腦啟發STDP(spike timing dependent plasticity)規則[12],僅利用突觸兩端神經元的局部脈衝響應來更新突觸權重以滿足學習目標。
雖然STDP具有一定的生物基礎,但它太過於局部化,難以獲得類似梯度下降算法的全局優化能力,導致其在諸多應用中表現差於ANN模型。
直到最近三年,才有研究者通過將預先採用梯度下降算法訓練好的ANN模型轉換為其SNN版本[13,14],或者通過對脈衝發放函數進行導數逼近,進而直接計算每個時刻膜電位和脈衝活動的梯度以實現基於梯度下降的有監督算法學習[15,16],這些努力逐漸使得SNN的應用性能接近目前的ANN模型。
爭議叢生但未來可期
支持SNN的器件通常稱為神經形態器件(如歐洲的SpiNNaker[17]和DYNAP[18],IBM的TrueNorth[19],Intel的Loihi[20]),其研究的動機主要是因為SNN的類腦特性使其更有希望通過構建大規模系統獲得類腦智能。
不過從應用角度出發,目前的神經形態器件大多隻能體現低功耗的特性,這是由於SNN神經元的輸入輸出信號為二值脈衝的緣故,可以去除輸入和突觸權重運算中的笨重乘法,再加之脈衝活動非常稀疏且允許事件驅動的異步電路設計。
而在功能方面,SNN所表現出的性能尚不能與深度學習匹敵,這也是工業界對神經形態方案的熱情有所消退甚至持懷疑和觀望態度的原因。
135編輯器
但筆者認為,目前的神經形態計算還有很大的提升空間,未來仍有可期:
一方面,深度學習的進步是數據、算力、軟件和模型共同進步的結果,非一日之功,而神經形態計算在上述優化上還處於起步階段。
另一方面,理論上SNN具有更豐富的信息響應特性,但其模型優勢距離被充分挖掘還有很長的路要走,究竟什麼任務、什麼信息數據甚至什麼評估標準適合SNN均尚不清晰。
目前的大多數測試基準仍是從ANN中遷移而來,僅僅在圖像數據上和ANN比較識別正確率就判別勝負難免過於狹隘,SNN的專長不應止於此。期待研究者們繼續從各個子領域努力前行,逐步迭代發展。
神經動力學網絡
基本模型
除SNN外,實際上計算神經科學領域的許多神經網絡模型並不是以脈衝形式進行信息編碼的,但保留了膜電位的時間微分動力學,因此這裡稱之為神經動力學網絡(Neural Dynamic Networks)。
這類模型通常用於研究腦回路的響應特性,成果相對分散。這裡給大家介紹比較典型的連續吸引子網絡(Continuous Attractor Neural Network, CANN)[21,22],其神經元模型可以簡單總結為如下:
其中大多數變量含義與SNN類似。此外,
x為神經元在二維空間中的座標位置(如圖4所示,以二維CANN為例),
為兩個對應位置神經元之間的突觸連接權重,
是神經元發放頻率,
來源:腦人言
撰文丨鄧 磊(加州大學-聖塔芭芭拉分校UCSB 博士後)
責編丨高茂森 Soma
排版丨夏獺
科學研究的動機,並非僅僅是出於能看到多酷炫的應用,而是因為我們尚有諸多未知世界需要探尋,這是一切應用的前提。
AI芯片如火如荼
AI芯片是當今人工智能熱潮中不可或缺的一個名詞,且受國際局勢影響愈加受到重視。摩爾定律難以為繼,通用處理器的性能提升速度大為減緩,在晶體管物理微縮和計算體系架構改進帶來的收益之爭中,後者漸處上風。
在此背景下,學術界和工業界紛紛將視野轉向針對特定領域設計高性能的專用芯片,擬將架構設計發揮到極致。
AI芯片作為最為典型的領域專用芯片代表,受到國內外研發單位的高度關注。國外有谷歌、蘋果、英特爾、IBM、英偉達等巨頭領銜,國內也有寒武紀、地平線、深鑑、華為、阿里等公司響應,最近清華大學的天機芯更是登上了Nature雜誌的封面[1],其形勢可謂如日中天。
然而,AI芯片中所謂的“智能”究竟源自於哪些模型,又和我們的大腦有何關係,他們的過去和未來將會怎樣,本文帶你一探究竟。
人工神經網絡
基本模型
機器學習是目前人工智能模型中最卓有成效的一個分支,而深度學習又是當今機器學習的寵兒,其以人工神經網絡(Artificial Neural Network, ANN)為主要模型。
ANN由大量神經元(Neuron)通過突觸(synapse)連接而成,從輸入到輸出呈現層級結構,當層數較多時則被稱為深度神經網絡(Deep Neural Networks)。
圖1 人工神經元示意圖
每個神經元的基本結構如圖1所示,而基本的計算原理為
,其中x
和y
分別為輸入和輸出激活值、
w為突觸連接的權重值、
b為偏置值、
φ為非線性激活函數。
圖2 不同網絡連接拓撲
(a) 全連接神經網絡;(b) 反饋神經網絡;(c)卷積神經網絡。
根據神經元的連接拓撲可以分為全連接神經網絡、卷積神經網絡、反饋神經網絡等,如圖2所示。
相比於全連接神經網絡,卷積神經網絡通過引入二維特徵圖與突觸核的卷積操作獲得了強大的局部特徵提取能力,被廣泛用於圖像處理領域。
而反饋神經網絡通過引入反饋連接,建立時序動力學模型,被廣泛用於處理語音文本等時序數據。
其實,ANNs模型的建立也是在不同時期中分別借鑑了神經科學的知識:
人工神經網絡的概念以及基本神經元模型於1943年就已提出[2],這正是試圖模擬腦皮層以神經元網絡形式進行信息處理的體現。
卷積神經網絡的局部感受野是受到大腦視覺系統的啟發。
深度神經網絡的層級構建是源於腦皮層的分層通路。
只不過在深度學習的後續發展中,研究者更加偏重把神經網絡視為一個黑匣,用於擬合從輸入到輸出的複雜映射關係:
只需要給網絡的輸出定義一個收斂目標(目標函數,比如每張圖像的輸出對應到正確的類別)並描述為一個優化問題,然後用梯度下降的方式去更新系統參數主要是突觸權重,使得輸出逐漸逼近想要的結果。
原則上網絡越大,特徵提取的能力就會越強,也就需要越多的數據來訓練網絡更新參數使網絡收斂,因此計算量也大幅增加。
故而,深度學習也被稱為數據和算力驅動的智能。雖然深度學習以解決實際應用為目標而與神經科學漸行漸遠,但近兩年也有科學家試圖在大腦中找到梯度下降的證據和吸收新的腦科學成果[3-8]。
深度學習的騰飛之路
深度學習的崛起也並非一蹴而就,是諸多因素相互促進的結晶。20世紀末到21世紀初很長一段時間內神經網絡方法不被多數人看好,其表現也不如傳統機器學習模型,多虧圖靈獎得主Hinton、LeCun和Bengio三位前輩的堅持,才有了今天的成就。
深度學習的飛速發展主要歸功於大型數據庫的誕生(如ImageNet)、高性能計算平臺(如GPUs)的出現、友好開發軟件的耕耘(如Tensorflow/Pytorch等)和神經網絡模型的改進(如卷積神經網中的VGG/Inception/ResNet/DenseNet),缺一不可。
由於成熟的算法、工具和應用場景,深度學習受到學術界和工業界的一致認可。深度學習加速器也現身各大學術頂會,並受到巨頭公司和創業公司的青睞,這其中就包括研發TPU的谷歌、手機內置神經引擎的蘋果以及國內的寒武紀、地平線、深鑑科技、華為、阿里等,當前主要熱門方向為研製運行ANNs模型的高性能雲計算平臺和低功耗終端器件。
脈衝神經網絡
基本模型
與深度學習不同,神經形態計算(neuromorphic computing)是目前智能模型中的又一大主要分支,它更加註重模擬大腦回路的行為,這裡給大家介紹兩類神經形態模型:脈衝神經網絡(Spiking Neural Network, SNN)和神經動力學網絡(Neural Dynamic Network)。
SNN與ANN主要有兩大不同,其一是採用脈衝編碼—spike code(0/1),其二是具有豐富的時間動力學。SNN神經元如圖3所示,其模型可簡單描述為:
其中,
(t)為時間步,t
是時間常數,
u為神經元膜電位,
s為神經元的脈衝輸出,
和
分別為神經元靜息電位和重置電位,
為脈衝發放閾值,
表示每個神經元會累加對應突觸輸入脈衝序列中一定時間窗
內的脈衝信號,
用於刻畫時間衰減效應(距離當前時刻越近的脈衝輸入對膜電位影響越大)。
圖3 脈衝神經元示意圖
135編輯器
雖然上述以微分方程為基礎的SNN神經元模型看起來比ANN模型更為複雜,但它已經是最為簡化的SNN模型了,被稱為洩漏積分發放模型(Leaky Integrate and Fire, LIF)[9],其它更為複雜的模型如Izhikevich[10]和Hodgkin & Huxley[11]僅憑藉現有計算機還難以仿真大規模網絡。
原理上,SNN的時間積分效應可以使得其能夠處理時序問題,尤其是稀疏數據(事實上大腦神經元發放頻率也是非常稀疏的);其膜電位洩漏和閾值發放效應,進一步使得其能夠具有一定的去噪功能(事實上大腦脈衝信號也具有很多噪音,但大腦仍能正常工作)。
這兩個特性,目前的ANN模型都不具備(反饋神經網絡儘管具備時域處理能力,但與SNN很不相同)。雖然理論上有較大潛力,但由於SNN神經元的多變量時空動力學比較複雜,而脈衝發放活動又不可導,導致其無法使用具有全局性的梯度下降算法進行學習。
135編輯器
在相當長一段時間裡,其主要的學習規則都是非監督的腦啟發STDP(spike timing dependent plasticity)規則[12],僅利用突觸兩端神經元的局部脈衝響應來更新突觸權重以滿足學習目標。
雖然STDP具有一定的生物基礎,但它太過於局部化,難以獲得類似梯度下降算法的全局優化能力,導致其在諸多應用中表現差於ANN模型。
直到最近三年,才有研究者通過將預先採用梯度下降算法訓練好的ANN模型轉換為其SNN版本[13,14],或者通過對脈衝發放函數進行導數逼近,進而直接計算每個時刻膜電位和脈衝活動的梯度以實現基於梯度下降的有監督算法學習[15,16],這些努力逐漸使得SNN的應用性能接近目前的ANN模型。
爭議叢生但未來可期
支持SNN的器件通常稱為神經形態器件(如歐洲的SpiNNaker[17]和DYNAP[18],IBM的TrueNorth[19],Intel的Loihi[20]),其研究的動機主要是因為SNN的類腦特性使其更有希望通過構建大規模系統獲得類腦智能。
不過從應用角度出發,目前的神經形態器件大多隻能體現低功耗的特性,這是由於SNN神經元的輸入輸出信號為二值脈衝的緣故,可以去除輸入和突觸權重運算中的笨重乘法,再加之脈衝活動非常稀疏且允許事件驅動的異步電路設計。
而在功能方面,SNN所表現出的性能尚不能與深度學習匹敵,這也是工業界對神經形態方案的熱情有所消退甚至持懷疑和觀望態度的原因。
135編輯器
但筆者認為,目前的神經形態計算還有很大的提升空間,未來仍有可期:
一方面,深度學習的進步是數據、算力、軟件和模型共同進步的結果,非一日之功,而神經形態計算在上述優化上還處於起步階段。
另一方面,理論上SNN具有更豐富的信息響應特性,但其模型優勢距離被充分挖掘還有很長的路要走,究竟什麼任務、什麼信息數據甚至什麼評估標準適合SNN均尚不清晰。
目前的大多數測試基準仍是從ANN中遷移而來,僅僅在圖像數據上和ANN比較識別正確率就判別勝負難免過於狹隘,SNN的專長不應止於此。期待研究者們繼續從各個子領域努力前行,逐步迭代發展。
神經動力學網絡
基本模型
除SNN外,實際上計算神經科學領域的許多神經網絡模型並不是以脈衝形式進行信息編碼的,但保留了膜電位的時間微分動力學,因此這裡稱之為神經動力學網絡(Neural Dynamic Networks)。
這類模型通常用於研究腦回路的響應特性,成果相對分散。這裡給大家介紹比較典型的連續吸引子網絡(Continuous Attractor Neural Network, CANN)[21,22],其神經元模型可以簡單總結為如下:
其中大多數變量含義與SNN類似。此外,
x為神經元在二維空間中的座標位置(如圖4所示,以二維CANN為例),
為兩個對應位置神經元之間的突觸連接權重,
是神經元發放頻率,
來源:腦人言
撰文丨鄧 磊(加州大學-聖塔芭芭拉分校UCSB 博士後)
責編丨高茂森 Soma
排版丨夏獺
科學研究的動機,並非僅僅是出於能看到多酷炫的應用,而是因為我們尚有諸多未知世界需要探尋,這是一切應用的前提。
AI芯片如火如荼
AI芯片是當今人工智能熱潮中不可或缺的一個名詞,且受國際局勢影響愈加受到重視。摩爾定律難以為繼,通用處理器的性能提升速度大為減緩,在晶體管物理微縮和計算體系架構改進帶來的收益之爭中,後者漸處上風。
在此背景下,學術界和工業界紛紛將視野轉向針對特定領域設計高性能的專用芯片,擬將架構設計發揮到極致。
AI芯片作為最為典型的領域專用芯片代表,受到國內外研發單位的高度關注。國外有谷歌、蘋果、英特爾、IBM、英偉達等巨頭領銜,國內也有寒武紀、地平線、深鑑、華為、阿里等公司響應,最近清華大學的天機芯更是登上了Nature雜誌的封面[1],其形勢可謂如日中天。
然而,AI芯片中所謂的“智能”究竟源自於哪些模型,又和我們的大腦有何關係,他們的過去和未來將會怎樣,本文帶你一探究竟。
人工神經網絡
基本模型
機器學習是目前人工智能模型中最卓有成效的一個分支,而深度學習又是當今機器學習的寵兒,其以人工神經網絡(Artificial Neural Network, ANN)為主要模型。
ANN由大量神經元(Neuron)通過突觸(synapse)連接而成,從輸入到輸出呈現層級結構,當層數較多時則被稱為深度神經網絡(Deep Neural Networks)。
圖1 人工神經元示意圖
每個神經元的基本結構如圖1所示,而基本的計算原理為
,其中x
和y
分別為輸入和輸出激活值、
w為突觸連接的權重值、
b為偏置值、
φ為非線性激活函數。
圖2 不同網絡連接拓撲
(a) 全連接神經網絡;(b) 反饋神經網絡;(c)卷積神經網絡。
根據神經元的連接拓撲可以分為全連接神經網絡、卷積神經網絡、反饋神經網絡等,如圖2所示。
相比於全連接神經網絡,卷積神經網絡通過引入二維特徵圖與突觸核的卷積操作獲得了強大的局部特徵提取能力,被廣泛用於圖像處理領域。
而反饋神經網絡通過引入反饋連接,建立時序動力學模型,被廣泛用於處理語音文本等時序數據。
其實,ANNs模型的建立也是在不同時期中分別借鑑了神經科學的知識:
人工神經網絡的概念以及基本神經元模型於1943年就已提出[2],這正是試圖模擬腦皮層以神經元網絡形式進行信息處理的體現。
卷積神經網絡的局部感受野是受到大腦視覺系統的啟發。
深度神經網絡的層級構建是源於腦皮層的分層通路。
只不過在深度學習的後續發展中,研究者更加偏重把神經網絡視為一個黑匣,用於擬合從輸入到輸出的複雜映射關係:
只需要給網絡的輸出定義一個收斂目標(目標函數,比如每張圖像的輸出對應到正確的類別)並描述為一個優化問題,然後用梯度下降的方式去更新系統參數主要是突觸權重,使得輸出逐漸逼近想要的結果。
原則上網絡越大,特徵提取的能力就會越強,也就需要越多的數據來訓練網絡更新參數使網絡收斂,因此計算量也大幅增加。
故而,深度學習也被稱為數據和算力驅動的智能。雖然深度學習以解決實際應用為目標而與神經科學漸行漸遠,但近兩年也有科學家試圖在大腦中找到梯度下降的證據和吸收新的腦科學成果[3-8]。
深度學習的騰飛之路
深度學習的崛起也並非一蹴而就,是諸多因素相互促進的結晶。20世紀末到21世紀初很長一段時間內神經網絡方法不被多數人看好,其表現也不如傳統機器學習模型,多虧圖靈獎得主Hinton、LeCun和Bengio三位前輩的堅持,才有了今天的成就。
深度學習的飛速發展主要歸功於大型數據庫的誕生(如ImageNet)、高性能計算平臺(如GPUs)的出現、友好開發軟件的耕耘(如Tensorflow/Pytorch等)和神經網絡模型的改進(如卷積神經網中的VGG/Inception/ResNet/DenseNet),缺一不可。
由於成熟的算法、工具和應用場景,深度學習受到學術界和工業界的一致認可。深度學習加速器也現身各大學術頂會,並受到巨頭公司和創業公司的青睞,這其中就包括研發TPU的谷歌、手機內置神經引擎的蘋果以及國內的寒武紀、地平線、深鑑科技、華為、阿里等,當前主要熱門方向為研製運行ANNs模型的高性能雲計算平臺和低功耗終端器件。
脈衝神經網絡
基本模型
與深度學習不同,神經形態計算(neuromorphic computing)是目前智能模型中的又一大主要分支,它更加註重模擬大腦回路的行為,這裡給大家介紹兩類神經形態模型:脈衝神經網絡(Spiking Neural Network, SNN)和神經動力學網絡(Neural Dynamic Network)。
SNN與ANN主要有兩大不同,其一是採用脈衝編碼—spike code(0/1),其二是具有豐富的時間動力學。SNN神經元如圖3所示,其模型可簡單描述為:
其中,
(t)為時間步,t
是時間常數,
u為神經元膜電位,
s為神經元的脈衝輸出,
和
分別為神經元靜息電位和重置電位,
為脈衝發放閾值,
表示每個神經元會累加對應突觸輸入脈衝序列中一定時間窗
內的脈衝信號,
用於刻畫時間衰減效應(距離當前時刻越近的脈衝輸入對膜電位影響越大)。
圖3 脈衝神經元示意圖
135編輯器
雖然上述以微分方程為基礎的SNN神經元模型看起來比ANN模型更為複雜,但它已經是最為簡化的SNN模型了,被稱為洩漏積分發放模型(Leaky Integrate and Fire, LIF)[9],其它更為複雜的模型如Izhikevich[10]和Hodgkin & Huxley[11]僅憑藉現有計算機還難以仿真大規模網絡。
原理上,SNN的時間積分效應可以使得其能夠處理時序問題,尤其是稀疏數據(事實上大腦神經元發放頻率也是非常稀疏的);其膜電位洩漏和閾值發放效應,進一步使得其能夠具有一定的去噪功能(事實上大腦脈衝信號也具有很多噪音,但大腦仍能正常工作)。
這兩個特性,目前的ANN模型都不具備(反饋神經網絡儘管具備時域處理能力,但與SNN很不相同)。雖然理論上有較大潛力,但由於SNN神經元的多變量時空動力學比較複雜,而脈衝發放活動又不可導,導致其無法使用具有全局性的梯度下降算法進行學習。
135編輯器
在相當長一段時間裡,其主要的學習規則都是非監督的腦啟發STDP(spike timing dependent plasticity)規則[12],僅利用突觸兩端神經元的局部脈衝響應來更新突觸權重以滿足學習目標。
雖然STDP具有一定的生物基礎,但它太過於局部化,難以獲得類似梯度下降算法的全局優化能力,導致其在諸多應用中表現差於ANN模型。
直到最近三年,才有研究者通過將預先採用梯度下降算法訓練好的ANN模型轉換為其SNN版本[13,14],或者通過對脈衝發放函數進行導數逼近,進而直接計算每個時刻膜電位和脈衝活動的梯度以實現基於梯度下降的有監督算法學習[15,16],這些努力逐漸使得SNN的應用性能接近目前的ANN模型。
爭議叢生但未來可期
支持SNN的器件通常稱為神經形態器件(如歐洲的SpiNNaker[17]和DYNAP[18],IBM的TrueNorth[19],Intel的Loihi[20]),其研究的動機主要是因為SNN的類腦特性使其更有希望通過構建大規模系統獲得類腦智能。
不過從應用角度出發,目前的神經形態器件大多隻能體現低功耗的特性,這是由於SNN神經元的輸入輸出信號為二值脈衝的緣故,可以去除輸入和突觸權重運算中的笨重乘法,再加之脈衝活動非常稀疏且允許事件驅動的異步電路設計。
而在功能方面,SNN所表現出的性能尚不能與深度學習匹敵,這也是工業界對神經形態方案的熱情有所消退甚至持懷疑和觀望態度的原因。
135編輯器
但筆者認為,目前的神經形態計算還有很大的提升空間,未來仍有可期:
一方面,深度學習的進步是數據、算力、軟件和模型共同進步的結果,非一日之功,而神經形態計算在上述優化上還處於起步階段。
另一方面,理論上SNN具有更豐富的信息響應特性,但其模型優勢距離被充分挖掘還有很長的路要走,究竟什麼任務、什麼信息數據甚至什麼評估標準適合SNN均尚不清晰。
目前的大多數測試基準仍是從ANN中遷移而來,僅僅在圖像數據上和ANN比較識別正確率就判別勝負難免過於狹隘,SNN的專長不應止於此。期待研究者們繼續從各個子領域努力前行,逐步迭代發展。
神經動力學網絡
基本模型
除SNN外,實際上計算神經科學領域的許多神經網絡模型並不是以脈衝形式進行信息編碼的,但保留了膜電位的時間微分動力學,因此這裡稱之為神經動力學網絡(Neural Dynamic Networks)。
這類模型通常用於研究腦回路的響應特性,成果相對分散。這裡給大家介紹比較典型的連續吸引子網絡(Continuous Attractor Neural Network, CANN)[21,22],其神經元模型可以簡單總結為如下:
其中大多數變量含義與SNN類似。此外,
x為神經元在二維空間中的座標位置(如圖4所示,以二維CANN為例),
為兩個對應位置神經元之間的突觸連接權重,
是神經元發放頻率,
為外部刺激,β
來源:腦人言
撰文丨鄧 磊(加州大學-聖塔芭芭拉分校UCSB 博士後)
責編丨高茂森 Soma
排版丨夏獺
科學研究的動機,並非僅僅是出於能看到多酷炫的應用,而是因為我們尚有諸多未知世界需要探尋,這是一切應用的前提。
AI芯片如火如荼
AI芯片是當今人工智能熱潮中不可或缺的一個名詞,且受國際局勢影響愈加受到重視。摩爾定律難以為繼,通用處理器的性能提升速度大為減緩,在晶體管物理微縮和計算體系架構改進帶來的收益之爭中,後者漸處上風。
在此背景下,學術界和工業界紛紛將視野轉向針對特定領域設計高性能的專用芯片,擬將架構設計發揮到極致。
AI芯片作為最為典型的領域專用芯片代表,受到國內外研發單位的高度關注。國外有谷歌、蘋果、英特爾、IBM、英偉達等巨頭領銜,國內也有寒武紀、地平線、深鑑、華為、阿里等公司響應,最近清華大學的天機芯更是登上了Nature雜誌的封面[1],其形勢可謂如日中天。
然而,AI芯片中所謂的“智能”究竟源自於哪些模型,又和我們的大腦有何關係,他們的過去和未來將會怎樣,本文帶你一探究竟。
人工神經網絡
基本模型
機器學習是目前人工智能模型中最卓有成效的一個分支,而深度學習又是當今機器學習的寵兒,其以人工神經網絡(Artificial Neural Network, ANN)為主要模型。
ANN由大量神經元(Neuron)通過突觸(synapse)連接而成,從輸入到輸出呈現層級結構,當層數較多時則被稱為深度神經網絡(Deep Neural Networks)。
圖1 人工神經元示意圖
每個神經元的基本結構如圖1所示,而基本的計算原理為
,其中x
和y
分別為輸入和輸出激活值、
w為突觸連接的權重值、
b為偏置值、
φ為非線性激活函數。
圖2 不同網絡連接拓撲
(a) 全連接神經網絡;(b) 反饋神經網絡;(c)卷積神經網絡。
根據神經元的連接拓撲可以分為全連接神經網絡、卷積神經網絡、反饋神經網絡等,如圖2所示。
相比於全連接神經網絡,卷積神經網絡通過引入二維特徵圖與突觸核的卷積操作獲得了強大的局部特徵提取能力,被廣泛用於圖像處理領域。
而反饋神經網絡通過引入反饋連接,建立時序動力學模型,被廣泛用於處理語音文本等時序數據。
其實,ANNs模型的建立也是在不同時期中分別借鑑了神經科學的知識:
人工神經網絡的概念以及基本神經元模型於1943年就已提出[2],這正是試圖模擬腦皮層以神經元網絡形式進行信息處理的體現。
卷積神經網絡的局部感受野是受到大腦視覺系統的啟發。
深度神經網絡的層級構建是源於腦皮層的分層通路。
只不過在深度學習的後續發展中,研究者更加偏重把神經網絡視為一個黑匣,用於擬合從輸入到輸出的複雜映射關係:
只需要給網絡的輸出定義一個收斂目標(目標函數,比如每張圖像的輸出對應到正確的類別)並描述為一個優化問題,然後用梯度下降的方式去更新系統參數主要是突觸權重,使得輸出逐漸逼近想要的結果。
原則上網絡越大,特徵提取的能力就會越強,也就需要越多的數據來訓練網絡更新參數使網絡收斂,因此計算量也大幅增加。
故而,深度學習也被稱為數據和算力驅動的智能。雖然深度學習以解決實際應用為目標而與神經科學漸行漸遠,但近兩年也有科學家試圖在大腦中找到梯度下降的證據和吸收新的腦科學成果[3-8]。
深度學習的騰飛之路
深度學習的崛起也並非一蹴而就,是諸多因素相互促進的結晶。20世紀末到21世紀初很長一段時間內神經網絡方法不被多數人看好,其表現也不如傳統機器學習模型,多虧圖靈獎得主Hinton、LeCun和Bengio三位前輩的堅持,才有了今天的成就。
深度學習的飛速發展主要歸功於大型數據庫的誕生(如ImageNet)、高性能計算平臺(如GPUs)的出現、友好開發軟件的耕耘(如Tensorflow/Pytorch等)和神經網絡模型的改進(如卷積神經網中的VGG/Inception/ResNet/DenseNet),缺一不可。
由於成熟的算法、工具和應用場景,深度學習受到學術界和工業界的一致認可。深度學習加速器也現身各大學術頂會,並受到巨頭公司和創業公司的青睞,這其中就包括研發TPU的谷歌、手機內置神經引擎的蘋果以及國內的寒武紀、地平線、深鑑科技、華為、阿里等,當前主要熱門方向為研製運行ANNs模型的高性能雲計算平臺和低功耗終端器件。
脈衝神經網絡
基本模型
與深度學習不同,神經形態計算(neuromorphic computing)是目前智能模型中的又一大主要分支,它更加註重模擬大腦回路的行為,這裡給大家介紹兩類神經形態模型:脈衝神經網絡(Spiking Neural Network, SNN)和神經動力學網絡(Neural Dynamic Network)。
SNN與ANN主要有兩大不同,其一是採用脈衝編碼—spike code(0/1),其二是具有豐富的時間動力學。SNN神經元如圖3所示,其模型可簡單描述為:
其中,
(t)為時間步,t
是時間常數,
u為神經元膜電位,
s為神經元的脈衝輸出,
和
分別為神經元靜息電位和重置電位,
為脈衝發放閾值,
表示每個神經元會累加對應突觸輸入脈衝序列中一定時間窗
內的脈衝信號,
用於刻畫時間衰減效應(距離當前時刻越近的脈衝輸入對膜電位影響越大)。
圖3 脈衝神經元示意圖
135編輯器
雖然上述以微分方程為基礎的SNN神經元模型看起來比ANN模型更為複雜,但它已經是最為簡化的SNN模型了,被稱為洩漏積分發放模型(Leaky Integrate and Fire, LIF)[9],其它更為複雜的模型如Izhikevich[10]和Hodgkin & Huxley[11]僅憑藉現有計算機還難以仿真大規模網絡。
原理上,SNN的時間積分效應可以使得其能夠處理時序問題,尤其是稀疏數據(事實上大腦神經元發放頻率也是非常稀疏的);其膜電位洩漏和閾值發放效應,進一步使得其能夠具有一定的去噪功能(事實上大腦脈衝信號也具有很多噪音,但大腦仍能正常工作)。
這兩個特性,目前的ANN模型都不具備(反饋神經網絡儘管具備時域處理能力,但與SNN很不相同)。雖然理論上有較大潛力,但由於SNN神經元的多變量時空動力學比較複雜,而脈衝發放活動又不可導,導致其無法使用具有全局性的梯度下降算法進行學習。
135編輯器
在相當長一段時間裡,其主要的學習規則都是非監督的腦啟發STDP(spike timing dependent plasticity)規則[12],僅利用突觸兩端神經元的局部脈衝響應來更新突觸權重以滿足學習目標。
雖然STDP具有一定的生物基礎,但它太過於局部化,難以獲得類似梯度下降算法的全局優化能力,導致其在諸多應用中表現差於ANN模型。
直到最近三年,才有研究者通過將預先採用梯度下降算法訓練好的ANN模型轉換為其SNN版本[13,14],或者通過對脈衝發放函數進行導數逼近,進而直接計算每個時刻膜電位和脈衝活動的梯度以實現基於梯度下降的有監督算法學習[15,16],這些努力逐漸使得SNN的應用性能接近目前的ANN模型。
爭議叢生但未來可期
支持SNN的器件通常稱為神經形態器件(如歐洲的SpiNNaker[17]和DYNAP[18],IBM的TrueNorth[19],Intel的Loihi[20]),其研究的動機主要是因為SNN的類腦特性使其更有希望通過構建大規模系統獲得類腦智能。
不過從應用角度出發,目前的神經形態器件大多隻能體現低功耗的特性,這是由於SNN神經元的輸入輸出信號為二值脈衝的緣故,可以去除輸入和突觸權重運算中的笨重乘法,再加之脈衝活動非常稀疏且允許事件驅動的異步電路設計。
而在功能方面,SNN所表現出的性能尚不能與深度學習匹敵,這也是工業界對神經形態方案的熱情有所消退甚至持懷疑和觀望態度的原因。
135編輯器
但筆者認為,目前的神經形態計算還有很大的提升空間,未來仍有可期:
一方面,深度學習的進步是數據、算力、軟件和模型共同進步的結果,非一日之功,而神經形態計算在上述優化上還處於起步階段。
另一方面,理論上SNN具有更豐富的信息響應特性,但其模型優勢距離被充分挖掘還有很長的路要走,究竟什麼任務、什麼信息數據甚至什麼評估標準適合SNN均尚不清晰。
目前的大多數測試基準仍是從ANN中遷移而來,僅僅在圖像數據上和ANN比較識別正確率就判別勝負難免過於狹隘,SNN的專長不應止於此。期待研究者們繼續從各個子領域努力前行,逐步迭代發展。
神經動力學網絡
基本模型
除SNN外,實際上計算神經科學領域的許多神經網絡模型並不是以脈衝形式進行信息編碼的,但保留了膜電位的時間微分動力學,因此這裡稱之為神經動力學網絡(Neural Dynamic Networks)。
這類模型通常用於研究腦回路的響應特性,成果相對分散。這裡給大家介紹比較典型的連續吸引子網絡(Continuous Attractor Neural Network, CANN)[21,22],其神經元模型可以簡單總結為如下:
其中大多數變量含義與SNN類似。此外,
x為神經元在二維空間中的座標位置(如圖4所示,以二維CANN為例),
為兩個對應位置神經元之間的突觸連接權重,
是神經元發放頻率,
為外部刺激,β
和
來源:腦人言
撰文丨鄧 磊(加州大學-聖塔芭芭拉分校UCSB 博士後)
責編丨高茂森 Soma
排版丨夏獺
科學研究的動機,並非僅僅是出於能看到多酷炫的應用,而是因為我們尚有諸多未知世界需要探尋,這是一切應用的前提。
AI芯片如火如荼
AI芯片是當今人工智能熱潮中不可或缺的一個名詞,且受國際局勢影響愈加受到重視。摩爾定律難以為繼,通用處理器的性能提升速度大為減緩,在晶體管物理微縮和計算體系架構改進帶來的收益之爭中,後者漸處上風。
在此背景下,學術界和工業界紛紛將視野轉向針對特定領域設計高性能的專用芯片,擬將架構設計發揮到極致。
AI芯片作為最為典型的領域專用芯片代表,受到國內外研發單位的高度關注。國外有谷歌、蘋果、英特爾、IBM、英偉達等巨頭領銜,國內也有寒武紀、地平線、深鑑、華為、阿里等公司響應,最近清華大學的天機芯更是登上了Nature雜誌的封面[1],其形勢可謂如日中天。
然而,AI芯片中所謂的“智能”究竟源自於哪些模型,又和我們的大腦有何關係,他們的過去和未來將會怎樣,本文帶你一探究竟。
人工神經網絡
基本模型
機器學習是目前人工智能模型中最卓有成效的一個分支,而深度學習又是當今機器學習的寵兒,其以人工神經網絡(Artificial Neural Network, ANN)為主要模型。
ANN由大量神經元(Neuron)通過突觸(synapse)連接而成,從輸入到輸出呈現層級結構,當層數較多時則被稱為深度神經網絡(Deep Neural Networks)。
圖1 人工神經元示意圖
每個神經元的基本結構如圖1所示,而基本的計算原理為
,其中x
和y
分別為輸入和輸出激活值、
w為突觸連接的權重值、
b為偏置值、
φ為非線性激活函數。
圖2 不同網絡連接拓撲
(a) 全連接神經網絡;(b) 反饋神經網絡;(c)卷積神經網絡。
根據神經元的連接拓撲可以分為全連接神經網絡、卷積神經網絡、反饋神經網絡等,如圖2所示。
相比於全連接神經網絡,卷積神經網絡通過引入二維特徵圖與突觸核的卷積操作獲得了強大的局部特徵提取能力,被廣泛用於圖像處理領域。
而反饋神經網絡通過引入反饋連接,建立時序動力學模型,被廣泛用於處理語音文本等時序數據。
其實,ANNs模型的建立也是在不同時期中分別借鑑了神經科學的知識:
人工神經網絡的概念以及基本神經元模型於1943年就已提出[2],這正是試圖模擬腦皮層以神經元網絡形式進行信息處理的體現。
卷積神經網絡的局部感受野是受到大腦視覺系統的啟發。
深度神經網絡的層級構建是源於腦皮層的分層通路。
只不過在深度學習的後續發展中,研究者更加偏重把神經網絡視為一個黑匣,用於擬合從輸入到輸出的複雜映射關係:
只需要給網絡的輸出定義一個收斂目標(目標函數,比如每張圖像的輸出對應到正確的類別)並描述為一個優化問題,然後用梯度下降的方式去更新系統參數主要是突觸權重,使得輸出逐漸逼近想要的結果。
原則上網絡越大,特徵提取的能力就會越強,也就需要越多的數據來訓練網絡更新參數使網絡收斂,因此計算量也大幅增加。
故而,深度學習也被稱為數據和算力驅動的智能。雖然深度學習以解決實際應用為目標而與神經科學漸行漸遠,但近兩年也有科學家試圖在大腦中找到梯度下降的證據和吸收新的腦科學成果[3-8]。
深度學習的騰飛之路
深度學習的崛起也並非一蹴而就,是諸多因素相互促進的結晶。20世紀末到21世紀初很長一段時間內神經網絡方法不被多數人看好,其表現也不如傳統機器學習模型,多虧圖靈獎得主Hinton、LeCun和Bengio三位前輩的堅持,才有了今天的成就。
深度學習的飛速發展主要歸功於大型數據庫的誕生(如ImageNet)、高性能計算平臺(如GPUs)的出現、友好開發軟件的耕耘(如Tensorflow/Pytorch等)和神經網絡模型的改進(如卷積神經網中的VGG/Inception/ResNet/DenseNet),缺一不可。
由於成熟的算法、工具和應用場景,深度學習受到學術界和工業界的一致認可。深度學習加速器也現身各大學術頂會,並受到巨頭公司和創業公司的青睞,這其中就包括研發TPU的谷歌、手機內置神經引擎的蘋果以及國內的寒武紀、地平線、深鑑科技、華為、阿里等,當前主要熱門方向為研製運行ANNs模型的高性能雲計算平臺和低功耗終端器件。
脈衝神經網絡
基本模型
與深度學習不同,神經形態計算(neuromorphic computing)是目前智能模型中的又一大主要分支,它更加註重模擬大腦回路的行為,這裡給大家介紹兩類神經形態模型:脈衝神經網絡(Spiking Neural Network, SNN)和神經動力學網絡(Neural Dynamic Network)。
SNN與ANN主要有兩大不同,其一是採用脈衝編碼—spike code(0/1),其二是具有豐富的時間動力學。SNN神經元如圖3所示,其模型可簡單描述為:
其中,
(t)為時間步,t
是時間常數,
u為神經元膜電位,
s為神經元的脈衝輸出,
和
分別為神經元靜息電位和重置電位,
為脈衝發放閾值,
表示每個神經元會累加對應突觸輸入脈衝序列中一定時間窗
內的脈衝信號,
用於刻畫時間衰減效應(距離當前時刻越近的脈衝輸入對膜電位影響越大)。
圖3 脈衝神經元示意圖
135編輯器
雖然上述以微分方程為基礎的SNN神經元模型看起來比ANN模型更為複雜,但它已經是最為簡化的SNN模型了,被稱為洩漏積分發放模型(Leaky Integrate and Fire, LIF)[9],其它更為複雜的模型如Izhikevich[10]和Hodgkin & Huxley[11]僅憑藉現有計算機還難以仿真大規模網絡。
原理上,SNN的時間積分效應可以使得其能夠處理時序問題,尤其是稀疏數據(事實上大腦神經元發放頻率也是非常稀疏的);其膜電位洩漏和閾值發放效應,進一步使得其能夠具有一定的去噪功能(事實上大腦脈衝信號也具有很多噪音,但大腦仍能正常工作)。
這兩個特性,目前的ANN模型都不具備(反饋神經網絡儘管具備時域處理能力,但與SNN很不相同)。雖然理論上有較大潛力,但由於SNN神經元的多變量時空動力學比較複雜,而脈衝發放活動又不可導,導致其無法使用具有全局性的梯度下降算法進行學習。
135編輯器
在相當長一段時間裡,其主要的學習規則都是非監督的腦啟發STDP(spike timing dependent plasticity)規則[12],僅利用突觸兩端神經元的局部脈衝響應來更新突觸權重以滿足學習目標。
雖然STDP具有一定的生物基礎,但它太過於局部化,難以獲得類似梯度下降算法的全局優化能力,導致其在諸多應用中表現差於ANN模型。
直到最近三年,才有研究者通過將預先採用梯度下降算法訓練好的ANN模型轉換為其SNN版本[13,14],或者通過對脈衝發放函數進行導數逼近,進而直接計算每個時刻膜電位和脈衝活動的梯度以實現基於梯度下降的有監督算法學習[15,16],這些努力逐漸使得SNN的應用性能接近目前的ANN模型。
爭議叢生但未來可期
支持SNN的器件通常稱為神經形態器件(如歐洲的SpiNNaker[17]和DYNAP[18],IBM的TrueNorth[19],Intel的Loihi[20]),其研究的動機主要是因為SNN的類腦特性使其更有希望通過構建大規模系統獲得類腦智能。
不過從應用角度出發,目前的神經形態器件大多隻能體現低功耗的特性,這是由於SNN神經元的輸入輸出信號為二值脈衝的緣故,可以去除輸入和突觸權重運算中的笨重乘法,再加之脈衝活動非常稀疏且允許事件驅動的異步電路設計。
而在功能方面,SNN所表現出的性能尚不能與深度學習匹敵,這也是工業界對神經形態方案的熱情有所消退甚至持懷疑和觀望態度的原因。
135編輯器
但筆者認為,目前的神經形態計算還有很大的提升空間,未來仍有可期:
一方面,深度學習的進步是數據、算力、軟件和模型共同進步的結果,非一日之功,而神經形態計算在上述優化上還處於起步階段。
另一方面,理論上SNN具有更豐富的信息響應特性,但其模型優勢距離被充分挖掘還有很長的路要走,究竟什麼任務、什麼信息數據甚至什麼評估標準適合SNN均尚不清晰。
目前的大多數測試基準仍是從ANN中遷移而來,僅僅在圖像數據上和ANN比較識別正確率就判別勝負難免過於狹隘,SNN的專長不應止於此。期待研究者們繼續從各個子領域努力前行,逐步迭代發展。
神經動力學網絡
基本模型
除SNN外,實際上計算神經科學領域的許多神經網絡模型並不是以脈衝形式進行信息編碼的,但保留了膜電位的時間微分動力學,因此這裡稱之為神經動力學網絡(Neural Dynamic Networks)。
這類模型通常用於研究腦回路的響應特性,成果相對分散。這裡給大家介紹比較典型的連續吸引子網絡(Continuous Attractor Neural Network, CANN)[21,22],其神經元模型可以簡單總結為如下:
其中大多數變量含義與SNN類似。此外,
x為神經元在二維空間中的座標位置(如圖4所示,以二維CANN為例),
為兩個對應位置神經元之間的突觸連接權重,
是神經元發放頻率,
為外部刺激,β
和
k為常數。
可以看到,CANN把SNN中“從膜電位到脈衝信號”的轉換調整為了“從膜電位到發放頻率”的轉換,公式中的除法歸一化體現了大腦中普遍存在的神經元抑制作用,使得發放頻率不會無限增長,整個系統趨於穩定。
135編輯器
在CANN中,突觸權重通常配置為高斯峰形狀,即
來源:腦人言
撰文丨鄧 磊(加州大學-聖塔芭芭拉分校UCSB 博士後)
責編丨高茂森 Soma
排版丨夏獺
科學研究的動機,並非僅僅是出於能看到多酷炫的應用,而是因為我們尚有諸多未知世界需要探尋,這是一切應用的前提。
AI芯片如火如荼
AI芯片是當今人工智能熱潮中不可或缺的一個名詞,且受國際局勢影響愈加受到重視。摩爾定律難以為繼,通用處理器的性能提升速度大為減緩,在晶體管物理微縮和計算體系架構改進帶來的收益之爭中,後者漸處上風。
在此背景下,學術界和工業界紛紛將視野轉向針對特定領域設計高性能的專用芯片,擬將架構設計發揮到極致。
AI芯片作為最為典型的領域專用芯片代表,受到國內外研發單位的高度關注。國外有谷歌、蘋果、英特爾、IBM、英偉達等巨頭領銜,國內也有寒武紀、地平線、深鑑、華為、阿里等公司響應,最近清華大學的天機芯更是登上了Nature雜誌的封面[1],其形勢可謂如日中天。
然而,AI芯片中所謂的“智能”究竟源自於哪些模型,又和我們的大腦有何關係,他們的過去和未來將會怎樣,本文帶你一探究竟。
人工神經網絡
基本模型
機器學習是目前人工智能模型中最卓有成效的一個分支,而深度學習又是當今機器學習的寵兒,其以人工神經網絡(Artificial Neural Network, ANN)為主要模型。
ANN由大量神經元(Neuron)通過突觸(synapse)連接而成,從輸入到輸出呈現層級結構,當層數較多時則被稱為深度神經網絡(Deep Neural Networks)。
圖1 人工神經元示意圖
每個神經元的基本結構如圖1所示,而基本的計算原理為
,其中x
和y
分別為輸入和輸出激活值、
w為突觸連接的權重值、
b為偏置值、
φ為非線性激活函數。
圖2 不同網絡連接拓撲
(a) 全連接神經網絡;(b) 反饋神經網絡;(c)卷積神經網絡。
根據神經元的連接拓撲可以分為全連接神經網絡、卷積神經網絡、反饋神經網絡等,如圖2所示。
相比於全連接神經網絡,卷積神經網絡通過引入二維特徵圖與突觸核的卷積操作獲得了強大的局部特徵提取能力,被廣泛用於圖像處理領域。
而反饋神經網絡通過引入反饋連接,建立時序動力學模型,被廣泛用於處理語音文本等時序數據。
其實,ANNs模型的建立也是在不同時期中分別借鑑了神經科學的知識:
人工神經網絡的概念以及基本神經元模型於1943年就已提出[2],這正是試圖模擬腦皮層以神經元網絡形式進行信息處理的體現。
卷積神經網絡的局部感受野是受到大腦視覺系統的啟發。
深度神經網絡的層級構建是源於腦皮層的分層通路。
只不過在深度學習的後續發展中,研究者更加偏重把神經網絡視為一個黑匣,用於擬合從輸入到輸出的複雜映射關係:
只需要給網絡的輸出定義一個收斂目標(目標函數,比如每張圖像的輸出對應到正確的類別)並描述為一個優化問題,然後用梯度下降的方式去更新系統參數主要是突觸權重,使得輸出逐漸逼近想要的結果。
原則上網絡越大,特徵提取的能力就會越強,也就需要越多的數據來訓練網絡更新參數使網絡收斂,因此計算量也大幅增加。
故而,深度學習也被稱為數據和算力驅動的智能。雖然深度學習以解決實際應用為目標而與神經科學漸行漸遠,但近兩年也有科學家試圖在大腦中找到梯度下降的證據和吸收新的腦科學成果[3-8]。
深度學習的騰飛之路
深度學習的崛起也並非一蹴而就,是諸多因素相互促進的結晶。20世紀末到21世紀初很長一段時間內神經網絡方法不被多數人看好,其表現也不如傳統機器學習模型,多虧圖靈獎得主Hinton、LeCun和Bengio三位前輩的堅持,才有了今天的成就。
深度學習的飛速發展主要歸功於大型數據庫的誕生(如ImageNet)、高性能計算平臺(如GPUs)的出現、友好開發軟件的耕耘(如Tensorflow/Pytorch等)和神經網絡模型的改進(如卷積神經網中的VGG/Inception/ResNet/DenseNet),缺一不可。
由於成熟的算法、工具和應用場景,深度學習受到學術界和工業界的一致認可。深度學習加速器也現身各大學術頂會,並受到巨頭公司和創業公司的青睞,這其中就包括研發TPU的谷歌、手機內置神經引擎的蘋果以及國內的寒武紀、地平線、深鑑科技、華為、阿里等,當前主要熱門方向為研製運行ANNs模型的高性能雲計算平臺和低功耗終端器件。
脈衝神經網絡
基本模型
與深度學習不同,神經形態計算(neuromorphic computing)是目前智能模型中的又一大主要分支,它更加註重模擬大腦回路的行為,這裡給大家介紹兩類神經形態模型:脈衝神經網絡(Spiking Neural Network, SNN)和神經動力學網絡(Neural Dynamic Network)。
SNN與ANN主要有兩大不同,其一是採用脈衝編碼—spike code(0/1),其二是具有豐富的時間動力學。SNN神經元如圖3所示,其模型可簡單描述為:
其中,
(t)為時間步,t
是時間常數,
u為神經元膜電位,
s為神經元的脈衝輸出,
和
分別為神經元靜息電位和重置電位,
為脈衝發放閾值,
表示每個神經元會累加對應突觸輸入脈衝序列中一定時間窗
內的脈衝信號,
用於刻畫時間衰減效應(距離當前時刻越近的脈衝輸入對膜電位影響越大)。
圖3 脈衝神經元示意圖
135編輯器
雖然上述以微分方程為基礎的SNN神經元模型看起來比ANN模型更為複雜,但它已經是最為簡化的SNN模型了,被稱為洩漏積分發放模型(Leaky Integrate and Fire, LIF)[9],其它更為複雜的模型如Izhikevich[10]和Hodgkin & Huxley[11]僅憑藉現有計算機還難以仿真大規模網絡。
原理上,SNN的時間積分效應可以使得其能夠處理時序問題,尤其是稀疏數據(事實上大腦神經元發放頻率也是非常稀疏的);其膜電位洩漏和閾值發放效應,進一步使得其能夠具有一定的去噪功能(事實上大腦脈衝信號也具有很多噪音,但大腦仍能正常工作)。
這兩個特性,目前的ANN模型都不具備(反饋神經網絡儘管具備時域處理能力,但與SNN很不相同)。雖然理論上有較大潛力,但由於SNN神經元的多變量時空動力學比較複雜,而脈衝發放活動又不可導,導致其無法使用具有全局性的梯度下降算法進行學習。
135編輯器
在相當長一段時間裡,其主要的學習規則都是非監督的腦啟發STDP(spike timing dependent plasticity)規則[12],僅利用突觸兩端神經元的局部脈衝響應來更新突觸權重以滿足學習目標。
雖然STDP具有一定的生物基礎,但它太過於局部化,難以獲得類似梯度下降算法的全局優化能力,導致其在諸多應用中表現差於ANN模型。
直到最近三年,才有研究者通過將預先採用梯度下降算法訓練好的ANN模型轉換為其SNN版本[13,14],或者通過對脈衝發放函數進行導數逼近,進而直接計算每個時刻膜電位和脈衝活動的梯度以實現基於梯度下降的有監督算法學習[15,16],這些努力逐漸使得SNN的應用性能接近目前的ANN模型。
爭議叢生但未來可期
支持SNN的器件通常稱為神經形態器件(如歐洲的SpiNNaker[17]和DYNAP[18],IBM的TrueNorth[19],Intel的Loihi[20]),其研究的動機主要是因為SNN的類腦特性使其更有希望通過構建大規模系統獲得類腦智能。
不過從應用角度出發,目前的神經形態器件大多隻能體現低功耗的特性,這是由於SNN神經元的輸入輸出信號為二值脈衝的緣故,可以去除輸入和突觸權重運算中的笨重乘法,再加之脈衝活動非常稀疏且允許事件驅動的異步電路設計。
而在功能方面,SNN所表現出的性能尚不能與深度學習匹敵,這也是工業界對神經形態方案的熱情有所消退甚至持懷疑和觀望態度的原因。
135編輯器
但筆者認為,目前的神經形態計算還有很大的提升空間,未來仍有可期:
一方面,深度學習的進步是數據、算力、軟件和模型共同進步的結果,非一日之功,而神經形態計算在上述優化上還處於起步階段。
另一方面,理論上SNN具有更豐富的信息響應特性,但其模型優勢距離被充分挖掘還有很長的路要走,究竟什麼任務、什麼信息數據甚至什麼評估標準適合SNN均尚不清晰。
目前的大多數測試基準仍是從ANN中遷移而來,僅僅在圖像數據上和ANN比較識別正確率就判別勝負難免過於狹隘,SNN的專長不應止於此。期待研究者們繼續從各個子領域努力前行,逐步迭代發展。
神經動力學網絡
基本模型
除SNN外,實際上計算神經科學領域的許多神經網絡模型並不是以脈衝形式進行信息編碼的,但保留了膜電位的時間微分動力學,因此這裡稱之為神經動力學網絡(Neural Dynamic Networks)。
這類模型通常用於研究腦回路的響應特性,成果相對分散。這裡給大家介紹比較典型的連續吸引子網絡(Continuous Attractor Neural Network, CANN)[21,22],其神經元模型可以簡單總結為如下:
其中大多數變量含義與SNN類似。此外,
x為神經元在二維空間中的座標位置(如圖4所示,以二維CANN為例),
為兩個對應位置神經元之間的突觸連接權重,
是神經元發放頻率,
為外部刺激,β
和
k為常數。
可以看到,CANN把SNN中“從膜電位到脈衝信號”的轉換調整為了“從膜電位到發放頻率”的轉換,公式中的除法歸一化體現了大腦中普遍存在的神經元抑制作用,使得發放頻率不會無限增長,整個系統趨於穩定。
135編輯器
在CANN中,突觸權重通常配置為高斯峰形狀,即
來源:腦人言
撰文丨鄧 磊(加州大學-聖塔芭芭拉分校UCSB 博士後)
責編丨高茂森 Soma
排版丨夏獺
科學研究的動機,並非僅僅是出於能看到多酷炫的應用,而是因為我們尚有諸多未知世界需要探尋,這是一切應用的前提。
AI芯片如火如荼
AI芯片是當今人工智能熱潮中不可或缺的一個名詞,且受國際局勢影響愈加受到重視。摩爾定律難以為繼,通用處理器的性能提升速度大為減緩,在晶體管物理微縮和計算體系架構改進帶來的收益之爭中,後者漸處上風。
在此背景下,學術界和工業界紛紛將視野轉向針對特定領域設計高性能的專用芯片,擬將架構設計發揮到極致。
AI芯片作為最為典型的領域專用芯片代表,受到國內外研發單位的高度關注。國外有谷歌、蘋果、英特爾、IBM、英偉達等巨頭領銜,國內也有寒武紀、地平線、深鑑、華為、阿里等公司響應,最近清華大學的天機芯更是登上了Nature雜誌的封面[1],其形勢可謂如日中天。
然而,AI芯片中所謂的“智能”究竟源自於哪些模型,又和我們的大腦有何關係,他們的過去和未來將會怎樣,本文帶你一探究竟。
人工神經網絡
基本模型
機器學習是目前人工智能模型中最卓有成效的一個分支,而深度學習又是當今機器學習的寵兒,其以人工神經網絡(Artificial Neural Network, ANN)為主要模型。
ANN由大量神經元(Neuron)通過突觸(synapse)連接而成,從輸入到輸出呈現層級結構,當層數較多時則被稱為深度神經網絡(Deep Neural Networks)。
圖1 人工神經元示意圖
每個神經元的基本結構如圖1所示,而基本的計算原理為
,其中x
和y
分別為輸入和輸出激活值、
w為突觸連接的權重值、
b為偏置值、
φ為非線性激活函數。
圖2 不同網絡連接拓撲
(a) 全連接神經網絡;(b) 反饋神經網絡;(c)卷積神經網絡。
根據神經元的連接拓撲可以分為全連接神經網絡、卷積神經網絡、反饋神經網絡等,如圖2所示。
相比於全連接神經網絡,卷積神經網絡通過引入二維特徵圖與突觸核的卷積操作獲得了強大的局部特徵提取能力,被廣泛用於圖像處理領域。
而反饋神經網絡通過引入反饋連接,建立時序動力學模型,被廣泛用於處理語音文本等時序數據。
其實,ANNs模型的建立也是在不同時期中分別借鑑了神經科學的知識:
人工神經網絡的概念以及基本神經元模型於1943年就已提出[2],這正是試圖模擬腦皮層以神經元網絡形式進行信息處理的體現。
卷積神經網絡的局部感受野是受到大腦視覺系統的啟發。
深度神經網絡的層級構建是源於腦皮層的分層通路。
只不過在深度學習的後續發展中,研究者更加偏重把神經網絡視為一個黑匣,用於擬合從輸入到輸出的複雜映射關係:
只需要給網絡的輸出定義一個收斂目標(目標函數,比如每張圖像的輸出對應到正確的類別)並描述為一個優化問題,然後用梯度下降的方式去更新系統參數主要是突觸權重,使得輸出逐漸逼近想要的結果。
原則上網絡越大,特徵提取的能力就會越強,也就需要越多的數據來訓練網絡更新參數使網絡收斂,因此計算量也大幅增加。
故而,深度學習也被稱為數據和算力驅動的智能。雖然深度學習以解決實際應用為目標而與神經科學漸行漸遠,但近兩年也有科學家試圖在大腦中找到梯度下降的證據和吸收新的腦科學成果[3-8]。
深度學習的騰飛之路
深度學習的崛起也並非一蹴而就,是諸多因素相互促進的結晶。20世紀末到21世紀初很長一段時間內神經網絡方法不被多數人看好,其表現也不如傳統機器學習模型,多虧圖靈獎得主Hinton、LeCun和Bengio三位前輩的堅持,才有了今天的成就。
深度學習的飛速發展主要歸功於大型數據庫的誕生(如ImageNet)、高性能計算平臺(如GPUs)的出現、友好開發軟件的耕耘(如Tensorflow/Pytorch等)和神經網絡模型的改進(如卷積神經網中的VGG/Inception/ResNet/DenseNet),缺一不可。
由於成熟的算法、工具和應用場景,深度學習受到學術界和工業界的一致認可。深度學習加速器也現身各大學術頂會,並受到巨頭公司和創業公司的青睞,這其中就包括研發TPU的谷歌、手機內置神經引擎的蘋果以及國內的寒武紀、地平線、深鑑科技、華為、阿里等,當前主要熱門方向為研製運行ANNs模型的高性能雲計算平臺和低功耗終端器件。
脈衝神經網絡
基本模型
與深度學習不同,神經形態計算(neuromorphic computing)是目前智能模型中的又一大主要分支,它更加註重模擬大腦回路的行為,這裡給大家介紹兩類神經形態模型:脈衝神經網絡(Spiking Neural Network, SNN)和神經動力學網絡(Neural Dynamic Network)。
SNN與ANN主要有兩大不同,其一是採用脈衝編碼—spike code(0/1),其二是具有豐富的時間動力學。SNN神經元如圖3所示,其模型可簡單描述為:
其中,
(t)為時間步,t
是時間常數,
u為神經元膜電位,
s為神經元的脈衝輸出,
和
分別為神經元靜息電位和重置電位,
為脈衝發放閾值,
表示每個神經元會累加對應突觸輸入脈衝序列中一定時間窗
內的脈衝信號,
用於刻畫時間衰減效應(距離當前時刻越近的脈衝輸入對膜電位影響越大)。
圖3 脈衝神經元示意圖
135編輯器
雖然上述以微分方程為基礎的SNN神經元模型看起來比ANN模型更為複雜,但它已經是最為簡化的SNN模型了,被稱為洩漏積分發放模型(Leaky Integrate and Fire, LIF)[9],其它更為複雜的模型如Izhikevich[10]和Hodgkin & Huxley[11]僅憑藉現有計算機還難以仿真大規模網絡。
原理上,SNN的時間積分效應可以使得其能夠處理時序問題,尤其是稀疏數據(事實上大腦神經元發放頻率也是非常稀疏的);其膜電位洩漏和閾值發放效應,進一步使得其能夠具有一定的去噪功能(事實上大腦脈衝信號也具有很多噪音,但大腦仍能正常工作)。
這兩個特性,目前的ANN模型都不具備(反饋神經網絡儘管具備時域處理能力,但與SNN很不相同)。雖然理論上有較大潛力,但由於SNN神經元的多變量時空動力學比較複雜,而脈衝發放活動又不可導,導致其無法使用具有全局性的梯度下降算法進行學習。
135編輯器
在相當長一段時間裡,其主要的學習規則都是非監督的腦啟發STDP(spike timing dependent plasticity)規則[12],僅利用突觸兩端神經元的局部脈衝響應來更新突觸權重以滿足學習目標。
雖然STDP具有一定的生物基礎,但它太過於局部化,難以獲得類似梯度下降算法的全局優化能力,導致其在諸多應用中表現差於ANN模型。
直到最近三年,才有研究者通過將預先採用梯度下降算法訓練好的ANN模型轉換為其SNN版本[13,14],或者通過對脈衝發放函數進行導數逼近,進而直接計算每個時刻膜電位和脈衝活動的梯度以實現基於梯度下降的有監督算法學習[15,16],這些努力逐漸使得SNN的應用性能接近目前的ANN模型。
爭議叢生但未來可期
支持SNN的器件通常稱為神經形態器件(如歐洲的SpiNNaker[17]和DYNAP[18],IBM的TrueNorth[19],Intel的Loihi[20]),其研究的動機主要是因為SNN的類腦特性使其更有希望通過構建大規模系統獲得類腦智能。
不過從應用角度出發,目前的神經形態器件大多隻能體現低功耗的特性,這是由於SNN神經元的輸入輸出信號為二值脈衝的緣故,可以去除輸入和突觸權重運算中的笨重乘法,再加之脈衝活動非常稀疏且允許事件驅動的異步電路設計。
而在功能方面,SNN所表現出的性能尚不能與深度學習匹敵,這也是工業界對神經形態方案的熱情有所消退甚至持懷疑和觀望態度的原因。
135編輯器
但筆者認為,目前的神經形態計算還有很大的提升空間,未來仍有可期:
一方面,深度學習的進步是數據、算力、軟件和模型共同進步的結果,非一日之功,而神經形態計算在上述優化上還處於起步階段。
另一方面,理論上SNN具有更豐富的信息響應特性,但其模型優勢距離被充分挖掘還有很長的路要走,究竟什麼任務、什麼信息數據甚至什麼評估標準適合SNN均尚不清晰。
目前的大多數測試基準仍是從ANN中遷移而來,僅僅在圖像數據上和ANN比較識別正確率就判別勝負難免過於狹隘,SNN的專長不應止於此。期待研究者們繼續從各個子領域努力前行,逐步迭代發展。
神經動力學網絡
基本模型
除SNN外,實際上計算神經科學領域的許多神經網絡模型並不是以脈衝形式進行信息編碼的,但保留了膜電位的時間微分動力學,因此這裡稱之為神經動力學網絡(Neural Dynamic Networks)。
這類模型通常用於研究腦回路的響應特性,成果相對分散。這裡給大家介紹比較典型的連續吸引子網絡(Continuous Attractor Neural Network, CANN)[21,22],其神經元模型可以簡單總結為如下:
其中大多數變量含義與SNN類似。此外,
x為神經元在二維空間中的座標位置(如圖4所示,以二維CANN為例),
為兩個對應位置神經元之間的突觸連接權重,
是神經元發放頻率,
為外部刺激,β
和
k為常數。
可以看到,CANN把SNN中“從膜電位到脈衝信號”的轉換調整為了“從膜電位到發放頻率”的轉換,公式中的除法歸一化體現了大腦中普遍存在的神經元抑制作用,使得發放頻率不會無限增長,整個系統趨於穩定。
135編輯器
在CANN中,突觸權重通常配置為高斯峰形狀,即
,相距越近的神經元連接越強,反之越弱,而α
來源:腦人言
撰文丨鄧 磊(加州大學-聖塔芭芭拉分校UCSB 博士後)
責編丨高茂森 Soma
排版丨夏獺
科學研究的動機,並非僅僅是出於能看到多酷炫的應用,而是因為我們尚有諸多未知世界需要探尋,這是一切應用的前提。
AI芯片如火如荼
AI芯片是當今人工智能熱潮中不可或缺的一個名詞,且受國際局勢影響愈加受到重視。摩爾定律難以為繼,通用處理器的性能提升速度大為減緩,在晶體管物理微縮和計算體系架構改進帶來的收益之爭中,後者漸處上風。
在此背景下,學術界和工業界紛紛將視野轉向針對特定領域設計高性能的專用芯片,擬將架構設計發揮到極致。
AI芯片作為最為典型的領域專用芯片代表,受到國內外研發單位的高度關注。國外有谷歌、蘋果、英特爾、IBM、英偉達等巨頭領銜,國內也有寒武紀、地平線、深鑑、華為、阿里等公司響應,最近清華大學的天機芯更是登上了Nature雜誌的封面[1],其形勢可謂如日中天。
然而,AI芯片中所謂的“智能”究竟源自於哪些模型,又和我們的大腦有何關係,他們的過去和未來將會怎樣,本文帶你一探究竟。
人工神經網絡
基本模型
機器學習是目前人工智能模型中最卓有成效的一個分支,而深度學習又是當今機器學習的寵兒,其以人工神經網絡(Artificial Neural Network, ANN)為主要模型。
ANN由大量神經元(Neuron)通過突觸(synapse)連接而成,從輸入到輸出呈現層級結構,當層數較多時則被稱為深度神經網絡(Deep Neural Networks)。
圖1 人工神經元示意圖
每個神經元的基本結構如圖1所示,而基本的計算原理為
,其中x
和y
分別為輸入和輸出激活值、
w為突觸連接的權重值、
b為偏置值、
φ為非線性激活函數。
圖2 不同網絡連接拓撲
(a) 全連接神經網絡;(b) 反饋神經網絡;(c)卷積神經網絡。
根據神經元的連接拓撲可以分為全連接神經網絡、卷積神經網絡、反饋神經網絡等,如圖2所示。
相比於全連接神經網絡,卷積神經網絡通過引入二維特徵圖與突觸核的卷積操作獲得了強大的局部特徵提取能力,被廣泛用於圖像處理領域。
而反饋神經網絡通過引入反饋連接,建立時序動力學模型,被廣泛用於處理語音文本等時序數據。
其實,ANNs模型的建立也是在不同時期中分別借鑑了神經科學的知識:
人工神經網絡的概念以及基本神經元模型於1943年就已提出[2],這正是試圖模擬腦皮層以神經元網絡形式進行信息處理的體現。
卷積神經網絡的局部感受野是受到大腦視覺系統的啟發。
深度神經網絡的層級構建是源於腦皮層的分層通路。
只不過在深度學習的後續發展中,研究者更加偏重把神經網絡視為一個黑匣,用於擬合從輸入到輸出的複雜映射關係:
只需要給網絡的輸出定義一個收斂目標(目標函數,比如每張圖像的輸出對應到正確的類別)並描述為一個優化問題,然後用梯度下降的方式去更新系統參數主要是突觸權重,使得輸出逐漸逼近想要的結果。
原則上網絡越大,特徵提取的能力就會越強,也就需要越多的數據來訓練網絡更新參數使網絡收斂,因此計算量也大幅增加。
故而,深度學習也被稱為數據和算力驅動的智能。雖然深度學習以解決實際應用為目標而與神經科學漸行漸遠,但近兩年也有科學家試圖在大腦中找到梯度下降的證據和吸收新的腦科學成果[3-8]。
深度學習的騰飛之路
深度學習的崛起也並非一蹴而就,是諸多因素相互促進的結晶。20世紀末到21世紀初很長一段時間內神經網絡方法不被多數人看好,其表現也不如傳統機器學習模型,多虧圖靈獎得主Hinton、LeCun和Bengio三位前輩的堅持,才有了今天的成就。
深度學習的飛速發展主要歸功於大型數據庫的誕生(如ImageNet)、高性能計算平臺(如GPUs)的出現、友好開發軟件的耕耘(如Tensorflow/Pytorch等)和神經網絡模型的改進(如卷積神經網中的VGG/Inception/ResNet/DenseNet),缺一不可。
由於成熟的算法、工具和應用場景,深度學習受到學術界和工業界的一致認可。深度學習加速器也現身各大學術頂會,並受到巨頭公司和創業公司的青睞,這其中就包括研發TPU的谷歌、手機內置神經引擎的蘋果以及國內的寒武紀、地平線、深鑑科技、華為、阿里等,當前主要熱門方向為研製運行ANNs模型的高性能雲計算平臺和低功耗終端器件。
脈衝神經網絡
基本模型
與深度學習不同,神經形態計算(neuromorphic computing)是目前智能模型中的又一大主要分支,它更加註重模擬大腦回路的行為,這裡給大家介紹兩類神經形態模型:脈衝神經網絡(Spiking Neural Network, SNN)和神經動力學網絡(Neural Dynamic Network)。
SNN與ANN主要有兩大不同,其一是採用脈衝編碼—spike code(0/1),其二是具有豐富的時間動力學。SNN神經元如圖3所示,其模型可簡單描述為:
其中,
(t)為時間步,t
是時間常數,
u為神經元膜電位,
s為神經元的脈衝輸出,
和
分別為神經元靜息電位和重置電位,
為脈衝發放閾值,
表示每個神經元會累加對應突觸輸入脈衝序列中一定時間窗
內的脈衝信號,
用於刻畫時間衰減效應(距離當前時刻越近的脈衝輸入對膜電位影響越大)。
圖3 脈衝神經元示意圖
135編輯器
雖然上述以微分方程為基礎的SNN神經元模型看起來比ANN模型更為複雜,但它已經是最為簡化的SNN模型了,被稱為洩漏積分發放模型(Leaky Integrate and Fire, LIF)[9],其它更為複雜的模型如Izhikevich[10]和Hodgkin & Huxley[11]僅憑藉現有計算機還難以仿真大規模網絡。
原理上,SNN的時間積分效應可以使得其能夠處理時序問題,尤其是稀疏數據(事實上大腦神經元發放頻率也是非常稀疏的);其膜電位洩漏和閾值發放效應,進一步使得其能夠具有一定的去噪功能(事實上大腦脈衝信號也具有很多噪音,但大腦仍能正常工作)。
這兩個特性,目前的ANN模型都不具備(反饋神經網絡儘管具備時域處理能力,但與SNN很不相同)。雖然理論上有較大潛力,但由於SNN神經元的多變量時空動力學比較複雜,而脈衝發放活動又不可導,導致其無法使用具有全局性的梯度下降算法進行學習。
135編輯器
在相當長一段時間裡,其主要的學習規則都是非監督的腦啟發STDP(spike timing dependent plasticity)規則[12],僅利用突觸兩端神經元的局部脈衝響應來更新突觸權重以滿足學習目標。
雖然STDP具有一定的生物基礎,但它太過於局部化,難以獲得類似梯度下降算法的全局優化能力,導致其在諸多應用中表現差於ANN模型。
直到最近三年,才有研究者通過將預先採用梯度下降算法訓練好的ANN模型轉換為其SNN版本[13,14],或者通過對脈衝發放函數進行導數逼近,進而直接計算每個時刻膜電位和脈衝活動的梯度以實現基於梯度下降的有監督算法學習[15,16],這些努力逐漸使得SNN的應用性能接近目前的ANN模型。
爭議叢生但未來可期
支持SNN的器件通常稱為神經形態器件(如歐洲的SpiNNaker[17]和DYNAP[18],IBM的TrueNorth[19],Intel的Loihi[20]),其研究的動機主要是因為SNN的類腦特性使其更有希望通過構建大規模系統獲得類腦智能。
不過從應用角度出發,目前的神經形態器件大多隻能體現低功耗的特性,這是由於SNN神經元的輸入輸出信號為二值脈衝的緣故,可以去除輸入和突觸權重運算中的笨重乘法,再加之脈衝活動非常稀疏且允許事件驅動的異步電路設計。
而在功能方面,SNN所表現出的性能尚不能與深度學習匹敵,這也是工業界對神經形態方案的熱情有所消退甚至持懷疑和觀望態度的原因。
135編輯器
但筆者認為,目前的神經形態計算還有很大的提升空間,未來仍有可期:
一方面,深度學習的進步是數據、算力、軟件和模型共同進步的結果,非一日之功,而神經形態計算在上述優化上還處於起步階段。
另一方面,理論上SNN具有更豐富的信息響應特性,但其模型優勢距離被充分挖掘還有很長的路要走,究竟什麼任務、什麼信息數據甚至什麼評估標準適合SNN均尚不清晰。
目前的大多數測試基準仍是從ANN中遷移而來,僅僅在圖像數據上和ANN比較識別正確率就判別勝負難免過於狹隘,SNN的專長不應止於此。期待研究者們繼續從各個子領域努力前行,逐步迭代發展。
神經動力學網絡
基本模型
除SNN外,實際上計算神經科學領域的許多神經網絡模型並不是以脈衝形式進行信息編碼的,但保留了膜電位的時間微分動力學,因此這裡稱之為神經動力學網絡(Neural Dynamic Networks)。
這類模型通常用於研究腦回路的響應特性,成果相對分散。這裡給大家介紹比較典型的連續吸引子網絡(Continuous Attractor Neural Network, CANN)[21,22],其神經元模型可以簡單總結為如下:
其中大多數變量含義與SNN類似。此外,
x為神經元在二維空間中的座標位置(如圖4所示,以二維CANN為例),
為兩個對應位置神經元之間的突觸連接權重,
是神經元發放頻率,
為外部刺激,β
和
k為常數。
可以看到,CANN把SNN中“從膜電位到脈衝信號”的轉換調整為了“從膜電位到發放頻率”的轉換,公式中的除法歸一化體現了大腦中普遍存在的神經元抑制作用,使得發放頻率不會無限增長,整個系統趨於穩定。
135編輯器
在CANN中,突觸權重通常配置為高斯峰形狀,即
,相距越近的神經元連接越強,反之越弱,而α
控制著高斯峰的半徑。如此,在沒有外部刺激的時候,CANN模型的神經元發放頻率響應也呈現穩定的高斯函數形狀,稱為響應波包(Bump),表示網絡的一個吸引子狀態。
CANN不僅有簡潔的形式和特殊的動力學特性,在大腦中也具備生物學基礎:
來源:腦人言
撰文丨鄧 磊(加州大學-聖塔芭芭拉分校UCSB 博士後)
責編丨高茂森 Soma
排版丨夏獺
科學研究的動機,並非僅僅是出於能看到多酷炫的應用,而是因為我們尚有諸多未知世界需要探尋,這是一切應用的前提。
AI芯片如火如荼
AI芯片是當今人工智能熱潮中不可或缺的一個名詞,且受國際局勢影響愈加受到重視。摩爾定律難以為繼,通用處理器的性能提升速度大為減緩,在晶體管物理微縮和計算體系架構改進帶來的收益之爭中,後者漸處上風。
在此背景下,學術界和工業界紛紛將視野轉向針對特定領域設計高性能的專用芯片,擬將架構設計發揮到極致。
AI芯片作為最為典型的領域專用芯片代表,受到國內外研發單位的高度關注。國外有谷歌、蘋果、英特爾、IBM、英偉達等巨頭領銜,國內也有寒武紀、地平線、深鑑、華為、阿里等公司響應,最近清華大學的天機芯更是登上了Nature雜誌的封面[1],其形勢可謂如日中天。
然而,AI芯片中所謂的“智能”究竟源自於哪些模型,又和我們的大腦有何關係,他們的過去和未來將會怎樣,本文帶你一探究竟。
人工神經網絡
基本模型
機器學習是目前人工智能模型中最卓有成效的一個分支,而深度學習又是當今機器學習的寵兒,其以人工神經網絡(Artificial Neural Network, ANN)為主要模型。
ANN由大量神經元(Neuron)通過突觸(synapse)連接而成,從輸入到輸出呈現層級結構,當層數較多時則被稱為深度神經網絡(Deep Neural Networks)。
圖1 人工神經元示意圖
每個神經元的基本結構如圖1所示,而基本的計算原理為
,其中x
和y
分別為輸入和輸出激活值、
w為突觸連接的權重值、
b為偏置值、
φ為非線性激活函數。
圖2 不同網絡連接拓撲
(a) 全連接神經網絡;(b) 反饋神經網絡;(c)卷積神經網絡。
根據神經元的連接拓撲可以分為全連接神經網絡、卷積神經網絡、反饋神經網絡等,如圖2所示。
相比於全連接神經網絡,卷積神經網絡通過引入二維特徵圖與突觸核的卷積操作獲得了強大的局部特徵提取能力,被廣泛用於圖像處理領域。
而反饋神經網絡通過引入反饋連接,建立時序動力學模型,被廣泛用於處理語音文本等時序數據。
其實,ANNs模型的建立也是在不同時期中分別借鑑了神經科學的知識:
人工神經網絡的概念以及基本神經元模型於1943年就已提出[2],這正是試圖模擬腦皮層以神經元網絡形式進行信息處理的體現。
卷積神經網絡的局部感受野是受到大腦視覺系統的啟發。
深度神經網絡的層級構建是源於腦皮層的分層通路。
只不過在深度學習的後續發展中,研究者更加偏重把神經網絡視為一個黑匣,用於擬合從輸入到輸出的複雜映射關係:
只需要給網絡的輸出定義一個收斂目標(目標函數,比如每張圖像的輸出對應到正確的類別)並描述為一個優化問題,然後用梯度下降的方式去更新系統參數主要是突觸權重,使得輸出逐漸逼近想要的結果。
原則上網絡越大,特徵提取的能力就會越強,也就需要越多的數據來訓練網絡更新參數使網絡收斂,因此計算量也大幅增加。
故而,深度學習也被稱為數據和算力驅動的智能。雖然深度學習以解決實際應用為目標而與神經科學漸行漸遠,但近兩年也有科學家試圖在大腦中找到梯度下降的證據和吸收新的腦科學成果[3-8]。
深度學習的騰飛之路
深度學習的崛起也並非一蹴而就,是諸多因素相互促進的結晶。20世紀末到21世紀初很長一段時間內神經網絡方法不被多數人看好,其表現也不如傳統機器學習模型,多虧圖靈獎得主Hinton、LeCun和Bengio三位前輩的堅持,才有了今天的成就。
深度學習的飛速發展主要歸功於大型數據庫的誕生(如ImageNet)、高性能計算平臺(如GPUs)的出現、友好開發軟件的耕耘(如Tensorflow/Pytorch等)和神經網絡模型的改進(如卷積神經網中的VGG/Inception/ResNet/DenseNet),缺一不可。
由於成熟的算法、工具和應用場景,深度學習受到學術界和工業界的一致認可。深度學習加速器也現身各大學術頂會,並受到巨頭公司和創業公司的青睞,這其中就包括研發TPU的谷歌、手機內置神經引擎的蘋果以及國內的寒武紀、地平線、深鑑科技、華為、阿里等,當前主要熱門方向為研製運行ANNs模型的高性能雲計算平臺和低功耗終端器件。
脈衝神經網絡
基本模型
與深度學習不同,神經形態計算(neuromorphic computing)是目前智能模型中的又一大主要分支,它更加註重模擬大腦回路的行為,這裡給大家介紹兩類神經形態模型:脈衝神經網絡(Spiking Neural Network, SNN)和神經動力學網絡(Neural Dynamic Network)。
SNN與ANN主要有兩大不同,其一是採用脈衝編碼—spike code(0/1),其二是具有豐富的時間動力學。SNN神經元如圖3所示,其模型可簡單描述為:
其中,
(t)為時間步,t
是時間常數,
u為神經元膜電位,
s為神經元的脈衝輸出,
和
分別為神經元靜息電位和重置電位,
為脈衝發放閾值,
表示每個神經元會累加對應突觸輸入脈衝序列中一定時間窗
內的脈衝信號,
用於刻畫時間衰減效應(距離當前時刻越近的脈衝輸入對膜電位影響越大)。
圖3 脈衝神經元示意圖
135編輯器
雖然上述以微分方程為基礎的SNN神經元模型看起來比ANN模型更為複雜,但它已經是最為簡化的SNN模型了,被稱為洩漏積分發放模型(Leaky Integrate and Fire, LIF)[9],其它更為複雜的模型如Izhikevich[10]和Hodgkin & Huxley[11]僅憑藉現有計算機還難以仿真大規模網絡。
原理上,SNN的時間積分效應可以使得其能夠處理時序問題,尤其是稀疏數據(事實上大腦神經元發放頻率也是非常稀疏的);其膜電位洩漏和閾值發放效應,進一步使得其能夠具有一定的去噪功能(事實上大腦脈衝信號也具有很多噪音,但大腦仍能正常工作)。
這兩個特性,目前的ANN模型都不具備(反饋神經網絡儘管具備時域處理能力,但與SNN很不相同)。雖然理論上有較大潛力,但由於SNN神經元的多變量時空動力學比較複雜,而脈衝發放活動又不可導,導致其無法使用具有全局性的梯度下降算法進行學習。
135編輯器
在相當長一段時間裡,其主要的學習規則都是非監督的腦啟發STDP(spike timing dependent plasticity)規則[12],僅利用突觸兩端神經元的局部脈衝響應來更新突觸權重以滿足學習目標。
雖然STDP具有一定的生物基礎,但它太過於局部化,難以獲得類似梯度下降算法的全局優化能力,導致其在諸多應用中表現差於ANN模型。
直到最近三年,才有研究者通過將預先採用梯度下降算法訓練好的ANN模型轉換為其SNN版本[13,14],或者通過對脈衝發放函數進行導數逼近,進而直接計算每個時刻膜電位和脈衝活動的梯度以實現基於梯度下降的有監督算法學習[15,16],這些努力逐漸使得SNN的應用性能接近目前的ANN模型。
爭議叢生但未來可期
支持SNN的器件通常稱為神經形態器件(如歐洲的SpiNNaker[17]和DYNAP[18],IBM的TrueNorth[19],Intel的Loihi[20]),其研究的動機主要是因為SNN的類腦特性使其更有希望通過構建大規模系統獲得類腦智能。
不過從應用角度出發,目前的神經形態器件大多隻能體現低功耗的特性,這是由於SNN神經元的輸入輸出信號為二值脈衝的緣故,可以去除輸入和突觸權重運算中的笨重乘法,再加之脈衝活動非常稀疏且允許事件驅動的異步電路設計。
而在功能方面,SNN所表現出的性能尚不能與深度學習匹敵,這也是工業界對神經形態方案的熱情有所消退甚至持懷疑和觀望態度的原因。
135編輯器
但筆者認為,目前的神經形態計算還有很大的提升空間,未來仍有可期:
一方面,深度學習的進步是數據、算力、軟件和模型共同進步的結果,非一日之功,而神經形態計算在上述優化上還處於起步階段。
另一方面,理論上SNN具有更豐富的信息響應特性,但其模型優勢距離被充分挖掘還有很長的路要走,究竟什麼任務、什麼信息數據甚至什麼評估標準適合SNN均尚不清晰。
目前的大多數測試基準仍是從ANN中遷移而來,僅僅在圖像數據上和ANN比較識別正確率就判別勝負難免過於狹隘,SNN的專長不應止於此。期待研究者們繼續從各個子領域努力前行,逐步迭代發展。
神經動力學網絡
基本模型
除SNN外,實際上計算神經科學領域的許多神經網絡模型並不是以脈衝形式進行信息編碼的,但保留了膜電位的時間微分動力學,因此這裡稱之為神經動力學網絡(Neural Dynamic Networks)。
這類模型通常用於研究腦回路的響應特性,成果相對分散。這裡給大家介紹比較典型的連續吸引子網絡(Continuous Attractor Neural Network, CANN)[21,22],其神經元模型可以簡單總結為如下:
其中大多數變量含義與SNN類似。此外,
x為神經元在二維空間中的座標位置(如圖4所示,以二維CANN為例),
為兩個對應位置神經元之間的突觸連接權重,
是神經元發放頻率,
為外部刺激,β
和
k為常數。
可以看到,CANN把SNN中“從膜電位到脈衝信號”的轉換調整為了“從膜電位到發放頻率”的轉換,公式中的除法歸一化體現了大腦中普遍存在的神經元抑制作用,使得發放頻率不會無限增長,整個系統趨於穩定。
135編輯器
在CANN中,突觸權重通常配置為高斯峰形狀,即
,相距越近的神經元連接越強,反之越弱,而α
控制著高斯峰的半徑。如此,在沒有外部刺激的時候,CANN模型的神經元發放頻率響應也呈現穩定的高斯函數形狀,稱為響應波包(Bump),表示網絡的一個吸引子狀態。
CANN不僅有簡潔的形式和特殊的動力學特性,在大腦中也具備生物學基礎:
大腦中頭朝向神經元在空間上沿著一個環分佈構成一維CANN,神經元群活動可以預測頭轉動的趨勢。
海馬中的空間神經元(Place Cell)互相連接構成一個二維CANN,神經元活動的波包可以編碼動物的空間位置,支持大腦的空間導航。
少數動物如蝙蝠的空間定位系統甚至會用到三維CANN。
關於CANN的計算原理、生物基礎和應用場景的更多信息,感興趣的讀者可以參考北京大學吳思教授課題組微信公眾號“吳思Lab計算神經科學及類腦計算”最近發佈的CANN專帖【學術思想】連續吸引子神經網絡:神經信息表達的正則化網絡模型。
來源:腦人言
撰文丨鄧 磊(加州大學-聖塔芭芭拉分校UCSB 博士後)
責編丨高茂森 Soma
排版丨夏獺
科學研究的動機,並非僅僅是出於能看到多酷炫的應用,而是因為我們尚有諸多未知世界需要探尋,這是一切應用的前提。
AI芯片如火如荼
AI芯片是當今人工智能熱潮中不可或缺的一個名詞,且受國際局勢影響愈加受到重視。摩爾定律難以為繼,通用處理器的性能提升速度大為減緩,在晶體管物理微縮和計算體系架構改進帶來的收益之爭中,後者漸處上風。
在此背景下,學術界和工業界紛紛將視野轉向針對特定領域設計高性能的專用芯片,擬將架構設計發揮到極致。
AI芯片作為最為典型的領域專用芯片代表,受到國內外研發單位的高度關注。國外有谷歌、蘋果、英特爾、IBM、英偉達等巨頭領銜,國內也有寒武紀、地平線、深鑑、華為、阿里等公司響應,最近清華大學的天機芯更是登上了Nature雜誌的封面[1],其形勢可謂如日中天。
然而,AI芯片中所謂的“智能”究竟源自於哪些模型,又和我們的大腦有何關係,他們的過去和未來將會怎樣,本文帶你一探究竟。
人工神經網絡
基本模型
機器學習是目前人工智能模型中最卓有成效的一個分支,而深度學習又是當今機器學習的寵兒,其以人工神經網絡(Artificial Neural Network, ANN)為主要模型。
ANN由大量神經元(Neuron)通過突觸(synapse)連接而成,從輸入到輸出呈現層級結構,當層數較多時則被稱為深度神經網絡(Deep Neural Networks)。
圖1 人工神經元示意圖
每個神經元的基本結構如圖1所示,而基本的計算原理為
,其中x
和y
分別為輸入和輸出激活值、
w為突觸連接的權重值、
b為偏置值、
φ為非線性激活函數。
圖2 不同網絡連接拓撲
(a) 全連接神經網絡;(b) 反饋神經網絡;(c)卷積神經網絡。
根據神經元的連接拓撲可以分為全連接神經網絡、卷積神經網絡、反饋神經網絡等,如圖2所示。
相比於全連接神經網絡,卷積神經網絡通過引入二維特徵圖與突觸核的卷積操作獲得了強大的局部特徵提取能力,被廣泛用於圖像處理領域。
而反饋神經網絡通過引入反饋連接,建立時序動力學模型,被廣泛用於處理語音文本等時序數據。
其實,ANNs模型的建立也是在不同時期中分別借鑑了神經科學的知識:
人工神經網絡的概念以及基本神經元模型於1943年就已提出[2],這正是試圖模擬腦皮層以神經元網絡形式進行信息處理的體現。
卷積神經網絡的局部感受野是受到大腦視覺系統的啟發。
深度神經網絡的層級構建是源於腦皮層的分層通路。
只不過在深度學習的後續發展中,研究者更加偏重把神經網絡視為一個黑匣,用於擬合從輸入到輸出的複雜映射關係:
只需要給網絡的輸出定義一個收斂目標(目標函數,比如每張圖像的輸出對應到正確的類別)並描述為一個優化問題,然後用梯度下降的方式去更新系統參數主要是突觸權重,使得輸出逐漸逼近想要的結果。
原則上網絡越大,特徵提取的能力就會越強,也就需要越多的數據來訓練網絡更新參數使網絡收斂,因此計算量也大幅增加。
故而,深度學習也被稱為數據和算力驅動的智能。雖然深度學習以解決實際應用為目標而與神經科學漸行漸遠,但近兩年也有科學家試圖在大腦中找到梯度下降的證據和吸收新的腦科學成果[3-8]。
深度學習的騰飛之路
深度學習的崛起也並非一蹴而就,是諸多因素相互促進的結晶。20世紀末到21世紀初很長一段時間內神經網絡方法不被多數人看好,其表現也不如傳統機器學習模型,多虧圖靈獎得主Hinton、LeCun和Bengio三位前輩的堅持,才有了今天的成就。
深度學習的飛速發展主要歸功於大型數據庫的誕生(如ImageNet)、高性能計算平臺(如GPUs)的出現、友好開發軟件的耕耘(如Tensorflow/Pytorch等)和神經網絡模型的改進(如卷積神經網中的VGG/Inception/ResNet/DenseNet),缺一不可。
由於成熟的算法、工具和應用場景,深度學習受到學術界和工業界的一致認可。深度學習加速器也現身各大學術頂會,並受到巨頭公司和創業公司的青睞,這其中就包括研發TPU的谷歌、手機內置神經引擎的蘋果以及國內的寒武紀、地平線、深鑑科技、華為、阿里等,當前主要熱門方向為研製運行ANNs模型的高性能雲計算平臺和低功耗終端器件。
脈衝神經網絡
基本模型
與深度學習不同,神經形態計算(neuromorphic computing)是目前智能模型中的又一大主要分支,它更加註重模擬大腦回路的行為,這裡給大家介紹兩類神經形態模型:脈衝神經網絡(Spiking Neural Network, SNN)和神經動力學網絡(Neural Dynamic Network)。
SNN與ANN主要有兩大不同,其一是採用脈衝編碼—spike code(0/1),其二是具有豐富的時間動力學。SNN神經元如圖3所示,其模型可簡單描述為:
其中,
(t)為時間步,t
是時間常數,
u為神經元膜電位,
s為神經元的脈衝輸出,
和
分別為神經元靜息電位和重置電位,
為脈衝發放閾值,
表示每個神經元會累加對應突觸輸入脈衝序列中一定時間窗
內的脈衝信號,
用於刻畫時間衰減效應(距離當前時刻越近的脈衝輸入對膜電位影響越大)。
圖3 脈衝神經元示意圖
135編輯器
雖然上述以微分方程為基礎的SNN神經元模型看起來比ANN模型更為複雜,但它已經是最為簡化的SNN模型了,被稱為洩漏積分發放模型(Leaky Integrate and Fire, LIF)[9],其它更為複雜的模型如Izhikevich[10]和Hodgkin & Huxley[11]僅憑藉現有計算機還難以仿真大規模網絡。
原理上,SNN的時間積分效應可以使得其能夠處理時序問題,尤其是稀疏數據(事實上大腦神經元發放頻率也是非常稀疏的);其膜電位洩漏和閾值發放效應,進一步使得其能夠具有一定的去噪功能(事實上大腦脈衝信號也具有很多噪音,但大腦仍能正常工作)。
這兩個特性,目前的ANN模型都不具備(反饋神經網絡儘管具備時域處理能力,但與SNN很不相同)。雖然理論上有較大潛力,但由於SNN神經元的多變量時空動力學比較複雜,而脈衝發放活動又不可導,導致其無法使用具有全局性的梯度下降算法進行學習。
135編輯器
在相當長一段時間裡,其主要的學習規則都是非監督的腦啟發STDP(spike timing dependent plasticity)規則[12],僅利用突觸兩端神經元的局部脈衝響應來更新突觸權重以滿足學習目標。
雖然STDP具有一定的生物基礎,但它太過於局部化,難以獲得類似梯度下降算法的全局優化能力,導致其在諸多應用中表現差於ANN模型。
直到最近三年,才有研究者通過將預先採用梯度下降算法訓練好的ANN模型轉換為其SNN版本[13,14],或者通過對脈衝發放函數進行導數逼近,進而直接計算每個時刻膜電位和脈衝活動的梯度以實現基於梯度下降的有監督算法學習[15,16],這些努力逐漸使得SNN的應用性能接近目前的ANN模型。
爭議叢生但未來可期
支持SNN的器件通常稱為神經形態器件(如歐洲的SpiNNaker[17]和DYNAP[18],IBM的TrueNorth[19],Intel的Loihi[20]),其研究的動機主要是因為SNN的類腦特性使其更有希望通過構建大規模系統獲得類腦智能。
不過從應用角度出發,目前的神經形態器件大多隻能體現低功耗的特性,這是由於SNN神經元的輸入輸出信號為二值脈衝的緣故,可以去除輸入和突觸權重運算中的笨重乘法,再加之脈衝活動非常稀疏且允許事件驅動的異步電路設計。
而在功能方面,SNN所表現出的性能尚不能與深度學習匹敵,這也是工業界對神經形態方案的熱情有所消退甚至持懷疑和觀望態度的原因。
135編輯器
但筆者認為,目前的神經形態計算還有很大的提升空間,未來仍有可期:
一方面,深度學習的進步是數據、算力、軟件和模型共同進步的結果,非一日之功,而神經形態計算在上述優化上還處於起步階段。
另一方面,理論上SNN具有更豐富的信息響應特性,但其模型優勢距離被充分挖掘還有很長的路要走,究竟什麼任務、什麼信息數據甚至什麼評估標準適合SNN均尚不清晰。
目前的大多數測試基準仍是從ANN中遷移而來,僅僅在圖像數據上和ANN比較識別正確率就判別勝負難免過於狹隘,SNN的專長不應止於此。期待研究者們繼續從各個子領域努力前行,逐步迭代發展。
神經動力學網絡
基本模型
除SNN外,實際上計算神經科學領域的許多神經網絡模型並不是以脈衝形式進行信息編碼的,但保留了膜電位的時間微分動力學,因此這裡稱之為神經動力學網絡(Neural Dynamic Networks)。
這類模型通常用於研究腦回路的響應特性,成果相對分散。這裡給大家介紹比較典型的連續吸引子網絡(Continuous Attractor Neural Network, CANN)[21,22],其神經元模型可以簡單總結為如下:
其中大多數變量含義與SNN類似。此外,
x為神經元在二維空間中的座標位置(如圖4所示,以二維CANN為例),
為兩個對應位置神經元之間的突觸連接權重,
是神經元發放頻率,
為外部刺激,β
和
k為常數。
可以看到,CANN把SNN中“從膜電位到脈衝信號”的轉換調整為了“從膜電位到發放頻率”的轉換,公式中的除法歸一化體現了大腦中普遍存在的神經元抑制作用,使得發放頻率不會無限增長,整個系統趨於穩定。
135編輯器
在CANN中,突觸權重通常配置為高斯峰形狀,即
,相距越近的神經元連接越強,反之越弱,而α
控制著高斯峰的半徑。如此,在沒有外部刺激的時候,CANN模型的神經元發放頻率響應也呈現穩定的高斯函數形狀,稱為響應波包(Bump),表示網絡的一個吸引子狀態。
CANN不僅有簡潔的形式和特殊的動力學特性,在大腦中也具備生物學基礎:
大腦中頭朝向神經元在空間上沿著一個環分佈構成一維CANN,神經元群活動可以預測頭轉動的趨勢。
海馬中的空間神經元(Place Cell)互相連接構成一個二維CANN,神經元活動的波包可以編碼動物的空間位置,支持大腦的空間導航。
少數動物如蝙蝠的空間定位系統甚至會用到三維CANN。
關於CANN的計算原理、生物基礎和應用場景的更多信息,感興趣的讀者可以參考北京大學吳思教授課題組微信公眾號“吳思Lab計算神經科學及類腦計算”最近發佈的CANN專帖【學術思想】連續吸引子神經網絡:神經信息表達的正則化網絡模型。
來源:腦人言
撰文丨鄧 磊(加州大學-聖塔芭芭拉分校UCSB 博士後)
責編丨高茂森 Soma
排版丨夏獺
科學研究的動機,並非僅僅是出於能看到多酷炫的應用,而是因為我們尚有諸多未知世界需要探尋,這是一切應用的前提。
AI芯片如火如荼
AI芯片是當今人工智能熱潮中不可或缺的一個名詞,且受國際局勢影響愈加受到重視。摩爾定律難以為繼,通用處理器的性能提升速度大為減緩,在晶體管物理微縮和計算體系架構改進帶來的收益之爭中,後者漸處上風。
在此背景下,學術界和工業界紛紛將視野轉向針對特定領域設計高性能的專用芯片,擬將架構設計發揮到極致。
AI芯片作為最為典型的領域專用芯片代表,受到國內外研發單位的高度關注。國外有谷歌、蘋果、英特爾、IBM、英偉達等巨頭領銜,國內也有寒武紀、地平線、深鑑、華為、阿里等公司響應,最近清華大學的天機芯更是登上了Nature雜誌的封面[1],其形勢可謂如日中天。
然而,AI芯片中所謂的“智能”究竟源自於哪些模型,又和我們的大腦有何關係,他們的過去和未來將會怎樣,本文帶你一探究竟。
人工神經網絡
基本模型
機器學習是目前人工智能模型中最卓有成效的一個分支,而深度學習又是當今機器學習的寵兒,其以人工神經網絡(Artificial Neural Network, ANN)為主要模型。
ANN由大量神經元(Neuron)通過突觸(synapse)連接而成,從輸入到輸出呈現層級結構,當層數較多時則被稱為深度神經網絡(Deep Neural Networks)。
圖1 人工神經元示意圖
每個神經元的基本結構如圖1所示,而基本的計算原理為
,其中x
和y
分別為輸入和輸出激活值、
w為突觸連接的權重值、
b為偏置值、
φ為非線性激活函數。
圖2 不同網絡連接拓撲
(a) 全連接神經網絡;(b) 反饋神經網絡;(c)卷積神經網絡。
根據神經元的連接拓撲可以分為全連接神經網絡、卷積神經網絡、反饋神經網絡等,如圖2所示。
相比於全連接神經網絡,卷積神經網絡通過引入二維特徵圖與突觸核的卷積操作獲得了強大的局部特徵提取能力,被廣泛用於圖像處理領域。
而反饋神經網絡通過引入反饋連接,建立時序動力學模型,被廣泛用於處理語音文本等時序數據。
其實,ANNs模型的建立也是在不同時期中分別借鑑了神經科學的知識:
人工神經網絡的概念以及基本神經元模型於1943年就已提出[2],這正是試圖模擬腦皮層以神經元網絡形式進行信息處理的體現。
卷積神經網絡的局部感受野是受到大腦視覺系統的啟發。
深度神經網絡的層級構建是源於腦皮層的分層通路。
只不過在深度學習的後續發展中,研究者更加偏重把神經網絡視為一個黑匣,用於擬合從輸入到輸出的複雜映射關係:
只需要給網絡的輸出定義一個收斂目標(目標函數,比如每張圖像的輸出對應到正確的類別)並描述為一個優化問題,然後用梯度下降的方式去更新系統參數主要是突觸權重,使得輸出逐漸逼近想要的結果。
原則上網絡越大,特徵提取的能力就會越強,也就需要越多的數據來訓練網絡更新參數使網絡收斂,因此計算量也大幅增加。
故而,深度學習也被稱為數據和算力驅動的智能。雖然深度學習以解決實際應用為目標而與神經科學漸行漸遠,但近兩年也有科學家試圖在大腦中找到梯度下降的證據和吸收新的腦科學成果[3-8]。
深度學習的騰飛之路
深度學習的崛起也並非一蹴而就,是諸多因素相互促進的結晶。20世紀末到21世紀初很長一段時間內神經網絡方法不被多數人看好,其表現也不如傳統機器學習模型,多虧圖靈獎得主Hinton、LeCun和Bengio三位前輩的堅持,才有了今天的成就。
深度學習的飛速發展主要歸功於大型數據庫的誕生(如ImageNet)、高性能計算平臺(如GPUs)的出現、友好開發軟件的耕耘(如Tensorflow/Pytorch等)和神經網絡模型的改進(如卷積神經網中的VGG/Inception/ResNet/DenseNet),缺一不可。
由於成熟的算法、工具和應用場景,深度學習受到學術界和工業界的一致認可。深度學習加速器也現身各大學術頂會,並受到巨頭公司和創業公司的青睞,這其中就包括研發TPU的谷歌、手機內置神經引擎的蘋果以及國內的寒武紀、地平線、深鑑科技、華為、阿里等,當前主要熱門方向為研製運行ANNs模型的高性能雲計算平臺和低功耗終端器件。
脈衝神經網絡
基本模型
與深度學習不同,神經形態計算(neuromorphic computing)是目前智能模型中的又一大主要分支,它更加註重模擬大腦回路的行為,這裡給大家介紹兩類神經形態模型:脈衝神經網絡(Spiking Neural Network, SNN)和神經動力學網絡(Neural Dynamic Network)。
SNN與ANN主要有兩大不同,其一是採用脈衝編碼—spike code(0/1),其二是具有豐富的時間動力學。SNN神經元如圖3所示,其模型可簡單描述為:
其中,
(t)為時間步,t
是時間常數,
u為神經元膜電位,
s為神經元的脈衝輸出,
和
分別為神經元靜息電位和重置電位,
為脈衝發放閾值,
表示每個神經元會累加對應突觸輸入脈衝序列中一定時間窗
內的脈衝信號,
用於刻畫時間衰減效應(距離當前時刻越近的脈衝輸入對膜電位影響越大)。
圖3 脈衝神經元示意圖
135編輯器
雖然上述以微分方程為基礎的SNN神經元模型看起來比ANN模型更為複雜,但它已經是最為簡化的SNN模型了,被稱為洩漏積分發放模型(Leaky Integrate and Fire, LIF)[9],其它更為複雜的模型如Izhikevich[10]和Hodgkin & Huxley[11]僅憑藉現有計算機還難以仿真大規模網絡。
原理上,SNN的時間積分效應可以使得其能夠處理時序問題,尤其是稀疏數據(事實上大腦神經元發放頻率也是非常稀疏的);其膜電位洩漏和閾值發放效應,進一步使得其能夠具有一定的去噪功能(事實上大腦脈衝信號也具有很多噪音,但大腦仍能正常工作)。
這兩個特性,目前的ANN模型都不具備(反饋神經網絡儘管具備時域處理能力,但與SNN很不相同)。雖然理論上有較大潛力,但由於SNN神經元的多變量時空動力學比較複雜,而脈衝發放活動又不可導,導致其無法使用具有全局性的梯度下降算法進行學習。
135編輯器
在相當長一段時間裡,其主要的學習規則都是非監督的腦啟發STDP(spike timing dependent plasticity)規則[12],僅利用突觸兩端神經元的局部脈衝響應來更新突觸權重以滿足學習目標。
雖然STDP具有一定的生物基礎,但它太過於局部化,難以獲得類似梯度下降算法的全局優化能力,導致其在諸多應用中表現差於ANN模型。
直到最近三年,才有研究者通過將預先採用梯度下降算法訓練好的ANN模型轉換為其SNN版本[13,14],或者通過對脈衝發放函數進行導數逼近,進而直接計算每個時刻膜電位和脈衝活動的梯度以實現基於梯度下降的有監督算法學習[15,16],這些努力逐漸使得SNN的應用性能接近目前的ANN模型。
爭議叢生但未來可期
支持SNN的器件通常稱為神經形態器件(如歐洲的SpiNNaker[17]和DYNAP[18],IBM的TrueNorth[19],Intel的Loihi[20]),其研究的動機主要是因為SNN的類腦特性使其更有希望通過構建大規模系統獲得類腦智能。
不過從應用角度出發,目前的神經形態器件大多隻能體現低功耗的特性,這是由於SNN神經元的輸入輸出信號為二值脈衝的緣故,可以去除輸入和突觸權重運算中的笨重乘法,再加之脈衝活動非常稀疏且允許事件驅動的異步電路設計。
而在功能方面,SNN所表現出的性能尚不能與深度學習匹敵,這也是工業界對神經形態方案的熱情有所消退甚至持懷疑和觀望態度的原因。
135編輯器
但筆者認為,目前的神經形態計算還有很大的提升空間,未來仍有可期:
一方面,深度學習的進步是數據、算力、軟件和模型共同進步的結果,非一日之功,而神經形態計算在上述優化上還處於起步階段。
另一方面,理論上SNN具有更豐富的信息響應特性,但其模型優勢距離被充分挖掘還有很長的路要走,究竟什麼任務、什麼信息數據甚至什麼評估標準適合SNN均尚不清晰。
目前的大多數測試基準仍是從ANN中遷移而來,僅僅在圖像數據上和ANN比較識別正確率就判別勝負難免過於狹隘,SNN的專長不應止於此。期待研究者們繼續從各個子領域努力前行,逐步迭代發展。
神經動力學網絡
基本模型
除SNN外,實際上計算神經科學領域的許多神經網絡模型並不是以脈衝形式進行信息編碼的,但保留了膜電位的時間微分動力學,因此這裡稱之為神經動力學網絡(Neural Dynamic Networks)。
這類模型通常用於研究腦回路的響應特性,成果相對分散。這裡給大家介紹比較典型的連續吸引子網絡(Continuous Attractor Neural Network, CANN)[21,22],其神經元模型可以簡單總結為如下:
其中大多數變量含義與SNN類似。此外,
x為神經元在二維空間中的座標位置(如圖4所示,以二維CANN為例),
為兩個對應位置神經元之間的突觸連接權重,
是神經元發放頻率,
為外部刺激,β
和
k為常數。
可以看到,CANN把SNN中“從膜電位到脈衝信號”的轉換調整為了“從膜電位到發放頻率”的轉換,公式中的除法歸一化體現了大腦中普遍存在的神經元抑制作用,使得發放頻率不會無限增長,整個系統趨於穩定。
135編輯器
在CANN中,突觸權重通常配置為高斯峰形狀,即
,相距越近的神經元連接越強,反之越弱,而α
控制著高斯峰的半徑。如此,在沒有外部刺激的時候,CANN模型的神經元發放頻率響應也呈現穩定的高斯函數形狀,稱為響應波包(Bump),表示網絡的一個吸引子狀態。
CANN不僅有簡潔的形式和特殊的動力學特性,在大腦中也具備生物學基礎:
大腦中頭朝向神經元在空間上沿著一個環分佈構成一維CANN,神經元群活動可以預測頭轉動的趨勢。
海馬中的空間神經元(Place Cell)互相連接構成一個二維CANN,神經元活動的波包可以編碼動物的空間位置,支持大腦的空間導航。
少數動物如蝙蝠的空間定位系統甚至會用到三維CANN。
關於CANN的計算原理、生物基礎和應用場景的更多信息,感興趣的讀者可以參考北京大學吳思教授課題組微信公眾號“吳思Lab計算神經科學及類腦計算”最近發佈的CANN專帖【學術思想】連續吸引子神經網絡:神經信息表達的正則化網絡模型。
圖4 二維CANN模型示意圖
135編輯器
CANN的應用場景有很多,這裡主要給大家詳細描述目標追蹤的實現[23]。當圖4中二維神經元陣列對應到視頻中的像素陣列、每個神經元的
來源:腦人言
撰文丨鄧 磊(加州大學-聖塔芭芭拉分校UCSB 博士後)
責編丨高茂森 Soma
排版丨夏獺
科學研究的動機,並非僅僅是出於能看到多酷炫的應用,而是因為我們尚有諸多未知世界需要探尋,這是一切應用的前提。
AI芯片如火如荼
AI芯片是當今人工智能熱潮中不可或缺的一個名詞,且受國際局勢影響愈加受到重視。摩爾定律難以為繼,通用處理器的性能提升速度大為減緩,在晶體管物理微縮和計算體系架構改進帶來的收益之爭中,後者漸處上風。
在此背景下,學術界和工業界紛紛將視野轉向針對特定領域設計高性能的專用芯片,擬將架構設計發揮到極致。
AI芯片作為最為典型的領域專用芯片代表,受到國內外研發單位的高度關注。國外有谷歌、蘋果、英特爾、IBM、英偉達等巨頭領銜,國內也有寒武紀、地平線、深鑑、華為、阿里等公司響應,最近清華大學的天機芯更是登上了Nature雜誌的封面[1],其形勢可謂如日中天。
然而,AI芯片中所謂的“智能”究竟源自於哪些模型,又和我們的大腦有何關係,他們的過去和未來將會怎樣,本文帶你一探究竟。
人工神經網絡
基本模型
機器學習是目前人工智能模型中最卓有成效的一個分支,而深度學習又是當今機器學習的寵兒,其以人工神經網絡(Artificial Neural Network, ANN)為主要模型。
ANN由大量神經元(Neuron)通過突觸(synapse)連接而成,從輸入到輸出呈現層級結構,當層數較多時則被稱為深度神經網絡(Deep Neural Networks)。
圖1 人工神經元示意圖
每個神經元的基本結構如圖1所示,而基本的計算原理為
,其中x
和y
分別為輸入和輸出激活值、
w為突觸連接的權重值、
b為偏置值、
φ為非線性激活函數。
圖2 不同網絡連接拓撲
(a) 全連接神經網絡;(b) 反饋神經網絡;(c)卷積神經網絡。
根據神經元的連接拓撲可以分為全連接神經網絡、卷積神經網絡、反饋神經網絡等,如圖2所示。
相比於全連接神經網絡,卷積神經網絡通過引入二維特徵圖與突觸核的卷積操作獲得了強大的局部特徵提取能力,被廣泛用於圖像處理領域。
而反饋神經網絡通過引入反饋連接,建立時序動力學模型,被廣泛用於處理語音文本等時序數據。
其實,ANNs模型的建立也是在不同時期中分別借鑑了神經科學的知識:
人工神經網絡的概念以及基本神經元模型於1943年就已提出[2],這正是試圖模擬腦皮層以神經元網絡形式進行信息處理的體現。
卷積神經網絡的局部感受野是受到大腦視覺系統的啟發。
深度神經網絡的層級構建是源於腦皮層的分層通路。
只不過在深度學習的後續發展中,研究者更加偏重把神經網絡視為一個黑匣,用於擬合從輸入到輸出的複雜映射關係:
只需要給網絡的輸出定義一個收斂目標(目標函數,比如每張圖像的輸出對應到正確的類別)並描述為一個優化問題,然後用梯度下降的方式去更新系統參數主要是突觸權重,使得輸出逐漸逼近想要的結果。
原則上網絡越大,特徵提取的能力就會越強,也就需要越多的數據來訓練網絡更新參數使網絡收斂,因此計算量也大幅增加。
故而,深度學習也被稱為數據和算力驅動的智能。雖然深度學習以解決實際應用為目標而與神經科學漸行漸遠,但近兩年也有科學家試圖在大腦中找到梯度下降的證據和吸收新的腦科學成果[3-8]。
深度學習的騰飛之路
深度學習的崛起也並非一蹴而就,是諸多因素相互促進的結晶。20世紀末到21世紀初很長一段時間內神經網絡方法不被多數人看好,其表現也不如傳統機器學習模型,多虧圖靈獎得主Hinton、LeCun和Bengio三位前輩的堅持,才有了今天的成就。
深度學習的飛速發展主要歸功於大型數據庫的誕生(如ImageNet)、高性能計算平臺(如GPUs)的出現、友好開發軟件的耕耘(如Tensorflow/Pytorch等)和神經網絡模型的改進(如卷積神經網中的VGG/Inception/ResNet/DenseNet),缺一不可。
由於成熟的算法、工具和應用場景,深度學習受到學術界和工業界的一致認可。深度學習加速器也現身各大學術頂會,並受到巨頭公司和創業公司的青睞,這其中就包括研發TPU的谷歌、手機內置神經引擎的蘋果以及國內的寒武紀、地平線、深鑑科技、華為、阿里等,當前主要熱門方向為研製運行ANNs模型的高性能雲計算平臺和低功耗終端器件。
脈衝神經網絡
基本模型
與深度學習不同,神經形態計算(neuromorphic computing)是目前智能模型中的又一大主要分支,它更加註重模擬大腦回路的行為,這裡給大家介紹兩類神經形態模型:脈衝神經網絡(Spiking Neural Network, SNN)和神經動力學網絡(Neural Dynamic Network)。
SNN與ANN主要有兩大不同,其一是採用脈衝編碼—spike code(0/1),其二是具有豐富的時間動力學。SNN神經元如圖3所示,其模型可簡單描述為:
其中,
(t)為時間步,t
是時間常數,
u為神經元膜電位,
s為神經元的脈衝輸出,
和
分別為神經元靜息電位和重置電位,
為脈衝發放閾值,
表示每個神經元會累加對應突觸輸入脈衝序列中一定時間窗
內的脈衝信號,
用於刻畫時間衰減效應(距離當前時刻越近的脈衝輸入對膜電位影響越大)。
圖3 脈衝神經元示意圖
135編輯器
雖然上述以微分方程為基礎的SNN神經元模型看起來比ANN模型更為複雜,但它已經是最為簡化的SNN模型了,被稱為洩漏積分發放模型(Leaky Integrate and Fire, LIF)[9],其它更為複雜的模型如Izhikevich[10]和Hodgkin & Huxley[11]僅憑藉現有計算機還難以仿真大規模網絡。
原理上,SNN的時間積分效應可以使得其能夠處理時序問題,尤其是稀疏數據(事實上大腦神經元發放頻率也是非常稀疏的);其膜電位洩漏和閾值發放效應,進一步使得其能夠具有一定的去噪功能(事實上大腦脈衝信號也具有很多噪音,但大腦仍能正常工作)。
這兩個特性,目前的ANN模型都不具備(反饋神經網絡儘管具備時域處理能力,但與SNN很不相同)。雖然理論上有較大潛力,但由於SNN神經元的多變量時空動力學比較複雜,而脈衝發放活動又不可導,導致其無法使用具有全局性的梯度下降算法進行學習。
135編輯器
在相當長一段時間裡,其主要的學習規則都是非監督的腦啟發STDP(spike timing dependent plasticity)規則[12],僅利用突觸兩端神經元的局部脈衝響應來更新突觸權重以滿足學習目標。
雖然STDP具有一定的生物基礎,但它太過於局部化,難以獲得類似梯度下降算法的全局優化能力,導致其在諸多應用中表現差於ANN模型。
直到最近三年,才有研究者通過將預先採用梯度下降算法訓練好的ANN模型轉換為其SNN版本[13,14],或者通過對脈衝發放函數進行導數逼近,進而直接計算每個時刻膜電位和脈衝活動的梯度以實現基於梯度下降的有監督算法學習[15,16],這些努力逐漸使得SNN的應用性能接近目前的ANN模型。
爭議叢生但未來可期
支持SNN的器件通常稱為神經形態器件(如歐洲的SpiNNaker[17]和DYNAP[18],IBM的TrueNorth[19],Intel的Loihi[20]),其研究的動機主要是因為SNN的類腦特性使其更有希望通過構建大規模系統獲得類腦智能。
不過從應用角度出發,目前的神經形態器件大多隻能體現低功耗的特性,這是由於SNN神經元的輸入輸出信號為二值脈衝的緣故,可以去除輸入和突觸權重運算中的笨重乘法,再加之脈衝活動非常稀疏且允許事件驅動的異步電路設計。
而在功能方面,SNN所表現出的性能尚不能與深度學習匹敵,這也是工業界對神經形態方案的熱情有所消退甚至持懷疑和觀望態度的原因。
135編輯器
但筆者認為,目前的神經形態計算還有很大的提升空間,未來仍有可期:
一方面,深度學習的進步是數據、算力、軟件和模型共同進步的結果,非一日之功,而神經形態計算在上述優化上還處於起步階段。
另一方面,理論上SNN具有更豐富的信息響應特性,但其模型優勢距離被充分挖掘還有很長的路要走,究竟什麼任務、什麼信息數據甚至什麼評估標準適合SNN均尚不清晰。
目前的大多數測試基準仍是從ANN中遷移而來,僅僅在圖像數據上和ANN比較識別正確率就判別勝負難免過於狹隘,SNN的專長不應止於此。期待研究者們繼續從各個子領域努力前行,逐步迭代發展。
神經動力學網絡
基本模型
除SNN外,實際上計算神經科學領域的許多神經網絡模型並不是以脈衝形式進行信息編碼的,但保留了膜電位的時間微分動力學,因此這裡稱之為神經動力學網絡(Neural Dynamic Networks)。
這類模型通常用於研究腦回路的響應特性,成果相對分散。這裡給大家介紹比較典型的連續吸引子網絡(Continuous Attractor Neural Network, CANN)[21,22],其神經元模型可以簡單總結為如下:
其中大多數變量含義與SNN類似。此外,
x為神經元在二維空間中的座標位置(如圖4所示,以二維CANN為例),
為兩個對應位置神經元之間的突觸連接權重,
是神經元發放頻率,
為外部刺激,β
和
k為常數。
可以看到,CANN把SNN中“從膜電位到脈衝信號”的轉換調整為了“從膜電位到發放頻率”的轉換,公式中的除法歸一化體現了大腦中普遍存在的神經元抑制作用,使得發放頻率不會無限增長,整個系統趨於穩定。
135編輯器
在CANN中,突觸權重通常配置為高斯峰形狀,即
,相距越近的神經元連接越強,反之越弱,而α
控制著高斯峰的半徑。如此,在沒有外部刺激的時候,CANN模型的神經元發放頻率響應也呈現穩定的高斯函數形狀,稱為響應波包(Bump),表示網絡的一個吸引子狀態。
CANN不僅有簡潔的形式和特殊的動力學特性,在大腦中也具備生物學基礎:
大腦中頭朝向神經元在空間上沿著一個環分佈構成一維CANN,神經元群活動可以預測頭轉動的趨勢。
海馬中的空間神經元(Place Cell)互相連接構成一個二維CANN,神經元活動的波包可以編碼動物的空間位置,支持大腦的空間導航。
少數動物如蝙蝠的空間定位系統甚至會用到三維CANN。
關於CANN的計算原理、生物基礎和應用場景的更多信息,感興趣的讀者可以參考北京大學吳思教授課題組微信公眾號“吳思Lab計算神經科學及類腦計算”最近發佈的CANN專帖【學術思想】連續吸引子神經網絡:神經信息表達的正則化網絡模型。
圖4 二維CANN模型示意圖
135編輯器
CANN的應用場景有很多,這裡主要給大家詳細描述目標追蹤的實現[23]。當圖4中二維神經元陣列對應到視頻中的像素陣列、每個神經元的
來源:腦人言
撰文丨鄧 磊(加州大學-聖塔芭芭拉分校UCSB 博士後)
責編丨高茂森 Soma
排版丨夏獺
科學研究的動機,並非僅僅是出於能看到多酷炫的應用,而是因為我們尚有諸多未知世界需要探尋,這是一切應用的前提。
AI芯片如火如荼
AI芯片是當今人工智能熱潮中不可或缺的一個名詞,且受國際局勢影響愈加受到重視。摩爾定律難以為繼,通用處理器的性能提升速度大為減緩,在晶體管物理微縮和計算體系架構改進帶來的收益之爭中,後者漸處上風。
在此背景下,學術界和工業界紛紛將視野轉向針對特定領域設計高性能的專用芯片,擬將架構設計發揮到極致。
AI芯片作為最為典型的領域專用芯片代表,受到國內外研發單位的高度關注。國外有谷歌、蘋果、英特爾、IBM、英偉達等巨頭領銜,國內也有寒武紀、地平線、深鑑、華為、阿里等公司響應,最近清華大學的天機芯更是登上了Nature雜誌的封面[1],其形勢可謂如日中天。
然而,AI芯片中所謂的“智能”究竟源自於哪些模型,又和我們的大腦有何關係,他們的過去和未來將會怎樣,本文帶你一探究竟。
人工神經網絡
基本模型
機器學習是目前人工智能模型中最卓有成效的一個分支,而深度學習又是當今機器學習的寵兒,其以人工神經網絡(Artificial Neural Network, ANN)為主要模型。
ANN由大量神經元(Neuron)通過突觸(synapse)連接而成,從輸入到輸出呈現層級結構,當層數較多時則被稱為深度神經網絡(Deep Neural Networks)。
圖1 人工神經元示意圖
每個神經元的基本結構如圖1所示,而基本的計算原理為
,其中x
和y
分別為輸入和輸出激活值、
w為突觸連接的權重值、
b為偏置值、
φ為非線性激活函數。
圖2 不同網絡連接拓撲
(a) 全連接神經網絡;(b) 反饋神經網絡;(c)卷積神經網絡。
根據神經元的連接拓撲可以分為全連接神經網絡、卷積神經網絡、反饋神經網絡等,如圖2所示。
相比於全連接神經網絡,卷積神經網絡通過引入二維特徵圖與突觸核的卷積操作獲得了強大的局部特徵提取能力,被廣泛用於圖像處理領域。
而反饋神經網絡通過引入反饋連接,建立時序動力學模型,被廣泛用於處理語音文本等時序數據。
其實,ANNs模型的建立也是在不同時期中分別借鑑了神經科學的知識:
人工神經網絡的概念以及基本神經元模型於1943年就已提出[2],這正是試圖模擬腦皮層以神經元網絡形式進行信息處理的體現。
卷積神經網絡的局部感受野是受到大腦視覺系統的啟發。
深度神經網絡的層級構建是源於腦皮層的分層通路。
只不過在深度學習的後續發展中,研究者更加偏重把神經網絡視為一個黑匣,用於擬合從輸入到輸出的複雜映射關係:
只需要給網絡的輸出定義一個收斂目標(目標函數,比如每張圖像的輸出對應到正確的類別)並描述為一個優化問題,然後用梯度下降的方式去更新系統參數主要是突觸權重,使得輸出逐漸逼近想要的結果。
原則上網絡越大,特徵提取的能力就會越強,也就需要越多的數據來訓練網絡更新參數使網絡收斂,因此計算量也大幅增加。
故而,深度學習也被稱為數據和算力驅動的智能。雖然深度學習以解決實際應用為目標而與神經科學漸行漸遠,但近兩年也有科學家試圖在大腦中找到梯度下降的證據和吸收新的腦科學成果[3-8]。
深度學習的騰飛之路
深度學習的崛起也並非一蹴而就,是諸多因素相互促進的結晶。20世紀末到21世紀初很長一段時間內神經網絡方法不被多數人看好,其表現也不如傳統機器學習模型,多虧圖靈獎得主Hinton、LeCun和Bengio三位前輩的堅持,才有了今天的成就。
深度學習的飛速發展主要歸功於大型數據庫的誕生(如ImageNet)、高性能計算平臺(如GPUs)的出現、友好開發軟件的耕耘(如Tensorflow/Pytorch等)和神經網絡模型的改進(如卷積神經網中的VGG/Inception/ResNet/DenseNet),缺一不可。
由於成熟的算法、工具和應用場景,深度學習受到學術界和工業界的一致認可。深度學習加速器也現身各大學術頂會,並受到巨頭公司和創業公司的青睞,這其中就包括研發TPU的谷歌、手機內置神經引擎的蘋果以及國內的寒武紀、地平線、深鑑科技、華為、阿里等,當前主要熱門方向為研製運行ANNs模型的高性能雲計算平臺和低功耗終端器件。
脈衝神經網絡
基本模型
與深度學習不同,神經形態計算(neuromorphic computing)是目前智能模型中的又一大主要分支,它更加註重模擬大腦回路的行為,這裡給大家介紹兩類神經形態模型:脈衝神經網絡(Spiking Neural Network, SNN)和神經動力學網絡(Neural Dynamic Network)。
SNN與ANN主要有兩大不同,其一是採用脈衝編碼—spike code(0/1),其二是具有豐富的時間動力學。SNN神經元如圖3所示,其模型可簡單描述為:
其中,
(t)為時間步,t
是時間常數,
u為神經元膜電位,
s為神經元的脈衝輸出,
和
分別為神經元靜息電位和重置電位,
為脈衝發放閾值,
表示每個神經元會累加對應突觸輸入脈衝序列中一定時間窗
內的脈衝信號,
用於刻畫時間衰減效應(距離當前時刻越近的脈衝輸入對膜電位影響越大)。
圖3 脈衝神經元示意圖
135編輯器
雖然上述以微分方程為基礎的SNN神經元模型看起來比ANN模型更為複雜,但它已經是最為簡化的SNN模型了,被稱為洩漏積分發放模型(Leaky Integrate and Fire, LIF)[9],其它更為複雜的模型如Izhikevich[10]和Hodgkin & Huxley[11]僅憑藉現有計算機還難以仿真大規模網絡。
原理上,SNN的時間積分效應可以使得其能夠處理時序問題,尤其是稀疏數據(事實上大腦神經元發放頻率也是非常稀疏的);其膜電位洩漏和閾值發放效應,進一步使得其能夠具有一定的去噪功能(事實上大腦脈衝信號也具有很多噪音,但大腦仍能正常工作)。
這兩個特性,目前的ANN模型都不具備(反饋神經網絡儘管具備時域處理能力,但與SNN很不相同)。雖然理論上有較大潛力,但由於SNN神經元的多變量時空動力學比較複雜,而脈衝發放活動又不可導,導致其無法使用具有全局性的梯度下降算法進行學習。
135編輯器
在相當長一段時間裡,其主要的學習規則都是非監督的腦啟發STDP(spike timing dependent plasticity)規則[12],僅利用突觸兩端神經元的局部脈衝響應來更新突觸權重以滿足學習目標。
雖然STDP具有一定的生物基礎,但它太過於局部化,難以獲得類似梯度下降算法的全局優化能力,導致其在諸多應用中表現差於ANN模型。
直到最近三年,才有研究者通過將預先採用梯度下降算法訓練好的ANN模型轉換為其SNN版本[13,14],或者通過對脈衝發放函數進行導數逼近,進而直接計算每個時刻膜電位和脈衝活動的梯度以實現基於梯度下降的有監督算法學習[15,16],這些努力逐漸使得SNN的應用性能接近目前的ANN模型。
爭議叢生但未來可期
支持SNN的器件通常稱為神經形態器件(如歐洲的SpiNNaker[17]和DYNAP[18],IBM的TrueNorth[19],Intel的Loihi[20]),其研究的動機主要是因為SNN的類腦特性使其更有希望通過構建大規模系統獲得類腦智能。
不過從應用角度出發,目前的神經形態器件大多隻能體現低功耗的特性,這是由於SNN神經元的輸入輸出信號為二值脈衝的緣故,可以去除輸入和突觸權重運算中的笨重乘法,再加之脈衝活動非常稀疏且允許事件驅動的異步電路設計。
而在功能方面,SNN所表現出的性能尚不能與深度學習匹敵,這也是工業界對神經形態方案的熱情有所消退甚至持懷疑和觀望態度的原因。
135編輯器
但筆者認為,目前的神經形態計算還有很大的提升空間,未來仍有可期:
一方面,深度學習的進步是數據、算力、軟件和模型共同進步的結果,非一日之功,而神經形態計算在上述優化上還處於起步階段。
另一方面,理論上SNN具有更豐富的信息響應特性,但其模型優勢距離被充分挖掘還有很長的路要走,究竟什麼任務、什麼信息數據甚至什麼評估標準適合SNN均尚不清晰。
目前的大多數測試基準仍是從ANN中遷移而來,僅僅在圖像數據上和ANN比較識別正確率就判別勝負難免過於狹隘,SNN的專長不應止於此。期待研究者們繼續從各個子領域努力前行,逐步迭代發展。
神經動力學網絡
基本模型
除SNN外,實際上計算神經科學領域的許多神經網絡模型並不是以脈衝形式進行信息編碼的,但保留了膜電位的時間微分動力學,因此這裡稱之為神經動力學網絡(Neural Dynamic Networks)。
這類模型通常用於研究腦回路的響應特性,成果相對分散。這裡給大家介紹比較典型的連續吸引子網絡(Continuous Attractor Neural Network, CANN)[21,22],其神經元模型可以簡單總結為如下:
其中大多數變量含義與SNN類似。此外,
x為神經元在二維空間中的座標位置(如圖4所示,以二維CANN為例),
為兩個對應位置神經元之間的突觸連接權重,
是神經元發放頻率,
為外部刺激,β
和
k為常數。
可以看到,CANN把SNN中“從膜電位到脈衝信號”的轉換調整為了“從膜電位到發放頻率”的轉換,公式中的除法歸一化體現了大腦中普遍存在的神經元抑制作用,使得發放頻率不會無限增長,整個系統趨於穩定。
135編輯器
在CANN中,突觸權重通常配置為高斯峰形狀,即
,相距越近的神經元連接越強,反之越弱,而α
控制著高斯峰的半徑。如此,在沒有外部刺激的時候,CANN模型的神經元發放頻率響應也呈現穩定的高斯函數形狀,稱為響應波包(Bump),表示網絡的一個吸引子狀態。
CANN不僅有簡潔的形式和特殊的動力學特性,在大腦中也具備生物學基礎:
大腦中頭朝向神經元在空間上沿著一個環分佈構成一維CANN,神經元群活動可以預測頭轉動的趨勢。
海馬中的空間神經元(Place Cell)互相連接構成一個二維CANN,神經元活動的波包可以編碼動物的空間位置,支持大腦的空間導航。
少數動物如蝙蝠的空間定位系統甚至會用到三維CANN。
關於CANN的計算原理、生物基礎和應用場景的更多信息,感興趣的讀者可以參考北京大學吳思教授課題組微信公眾號“吳思Lab計算神經科學及類腦計算”最近發佈的CANN專帖【學術思想】連續吸引子神經網絡:神經信息表達的正則化網絡模型。
圖4 二維CANN模型示意圖
135編輯器
CANN的應用場景有很多,這裡主要給大家詳細描述目標追蹤的實現[23]。當圖4中二維神經元陣列對應到視頻中的像素陣列、每個神經元的
接收對應位置像素強度的前後幀差分信號刺激時,網絡便可實現目標追蹤。
詳細而言,網絡初始時對目標所在的方框區域初始化為高響應值,其他區域為0;開始運行後,網絡所有神經元按照CANN規則進行計算,而目標所在區域的強差分輸入會牽引著神經元響應波包平滑移動,波包位置對目標進行實時追蹤。突觸權重高斯峰的半徑決定了追蹤的性能:太寬則容易受鄰近目標干擾,太窄則容易跟丟目標。
這種吸引子跟隨外部輸入的牽引而移動是CANN的特有動力學特性,對目標的追蹤也非常平滑自然。除目標追蹤的應用外,波包編碼本身也是一種神經元群編碼的體現,相比於單神經元編碼,更具有魯棒性。
另一方面,一簇CANN神經元可以處理某種模態信息的不同任務,也可以處理不同模態的信息,多簇CANN可以用長程連接進行信息交互,因此CANN也有潛力為大腦提供多模態信息處理的統一框架。
實際應用任重道遠
前面講述的深度學習和SNN都有對應的專用處理芯片,而神經動力學網絡由於本身研究比較分散,應用也不成體系,在硬件中的實現仍較為少見。
MIT曾實現了十多個神經元的簡單CANN模型[24],但並未引起重視。最近,清華大學的類腦芯片—天機芯通過對CANN模型突觸連接的局部約束、數據的低精度化等硬件友好改造,實現了約800幀每秒的超快目標追蹤[1,23]。
目前多數神經動力學網絡還是以復現神經迴路響應模式居多,距離實際應用還任重道遠,需要持續不斷地進行挖掘。
來源:腦人言
撰文丨鄧 磊(加州大學-聖塔芭芭拉分校UCSB 博士後)
責編丨高茂森 Soma
排版丨夏獺
科學研究的動機,並非僅僅是出於能看到多酷炫的應用,而是因為我們尚有諸多未知世界需要探尋,這是一切應用的前提。
AI芯片如火如荼
AI芯片是當今人工智能熱潮中不可或缺的一個名詞,且受國際局勢影響愈加受到重視。摩爾定律難以為繼,通用處理器的性能提升速度大為減緩,在晶體管物理微縮和計算體系架構改進帶來的收益之爭中,後者漸處上風。
在此背景下,學術界和工業界紛紛將視野轉向針對特定領域設計高性能的專用芯片,擬將架構設計發揮到極致。
AI芯片作為最為典型的領域專用芯片代表,受到國內外研發單位的高度關注。國外有谷歌、蘋果、英特爾、IBM、英偉達等巨頭領銜,國內也有寒武紀、地平線、深鑑、華為、阿里等公司響應,最近清華大學的天機芯更是登上了Nature雜誌的封面[1],其形勢可謂如日中天。
然而,AI芯片中所謂的“智能”究竟源自於哪些模型,又和我們的大腦有何關係,他們的過去和未來將會怎樣,本文帶你一探究竟。
人工神經網絡
基本模型
機器學習是目前人工智能模型中最卓有成效的一個分支,而深度學習又是當今機器學習的寵兒,其以人工神經網絡(Artificial Neural Network, ANN)為主要模型。
ANN由大量神經元(Neuron)通過突觸(synapse)連接而成,從輸入到輸出呈現層級結構,當層數較多時則被稱為深度神經網絡(Deep Neural Networks)。
圖1 人工神經元示意圖
每個神經元的基本結構如圖1所示,而基本的計算原理為
,其中x
和y
分別為輸入和輸出激活值、
w為突觸連接的權重值、
b為偏置值、
φ為非線性激活函數。
圖2 不同網絡連接拓撲
(a) 全連接神經網絡;(b) 反饋神經網絡;(c)卷積神經網絡。
根據神經元的連接拓撲可以分為全連接神經網絡、卷積神經網絡、反饋神經網絡等,如圖2所示。
相比於全連接神經網絡,卷積神經網絡通過引入二維特徵圖與突觸核的卷積操作獲得了強大的局部特徵提取能力,被廣泛用於圖像處理領域。
而反饋神經網絡通過引入反饋連接,建立時序動力學模型,被廣泛用於處理語音文本等時序數據。
其實,ANNs模型的建立也是在不同時期中分別借鑑了神經科學的知識:
人工神經網絡的概念以及基本神經元模型於1943年就已提出[2],這正是試圖模擬腦皮層以神經元網絡形式進行信息處理的體現。
卷積神經網絡的局部感受野是受到大腦視覺系統的啟發。
深度神經網絡的層級構建是源於腦皮層的分層通路。
只不過在深度學習的後續發展中,研究者更加偏重把神經網絡視為一個黑匣,用於擬合從輸入到輸出的複雜映射關係:
只需要給網絡的輸出定義一個收斂目標(目標函數,比如每張圖像的輸出對應到正確的類別)並描述為一個優化問題,然後用梯度下降的方式去更新系統參數主要是突觸權重,使得輸出逐漸逼近想要的結果。
原則上網絡越大,特徵提取的能力就會越強,也就需要越多的數據來訓練網絡更新參數使網絡收斂,因此計算量也大幅增加。
故而,深度學習也被稱為數據和算力驅動的智能。雖然深度學習以解決實際應用為目標而與神經科學漸行漸遠,但近兩年也有科學家試圖在大腦中找到梯度下降的證據和吸收新的腦科學成果[3-8]。
深度學習的騰飛之路
深度學習的崛起也並非一蹴而就,是諸多因素相互促進的結晶。20世紀末到21世紀初很長一段時間內神經網絡方法不被多數人看好,其表現也不如傳統機器學習模型,多虧圖靈獎得主Hinton、LeCun和Bengio三位前輩的堅持,才有了今天的成就。
深度學習的飛速發展主要歸功於大型數據庫的誕生(如ImageNet)、高性能計算平臺(如GPUs)的出現、友好開發軟件的耕耘(如Tensorflow/Pytorch等)和神經網絡模型的改進(如卷積神經網中的VGG/Inception/ResNet/DenseNet),缺一不可。
由於成熟的算法、工具和應用場景,深度學習受到學術界和工業界的一致認可。深度學習加速器也現身各大學術頂會,並受到巨頭公司和創業公司的青睞,這其中就包括研發TPU的谷歌、手機內置神經引擎的蘋果以及國內的寒武紀、地平線、深鑑科技、華為、阿里等,當前主要熱門方向為研製運行ANNs模型的高性能雲計算平臺和低功耗終端器件。
脈衝神經網絡
基本模型
與深度學習不同,神經形態計算(neuromorphic computing)是目前智能模型中的又一大主要分支,它更加註重模擬大腦回路的行為,這裡給大家介紹兩類神經形態模型:脈衝神經網絡(Spiking Neural Network, SNN)和神經動力學網絡(Neural Dynamic Network)。
SNN與ANN主要有兩大不同,其一是採用脈衝編碼—spike code(0/1),其二是具有豐富的時間動力學。SNN神經元如圖3所示,其模型可簡單描述為:
其中,
(t)為時間步,t
是時間常數,
u為神經元膜電位,
s為神經元的脈衝輸出,
和
分別為神經元靜息電位和重置電位,
為脈衝發放閾值,
表示每個神經元會累加對應突觸輸入脈衝序列中一定時間窗
內的脈衝信號,
用於刻畫時間衰減效應(距離當前時刻越近的脈衝輸入對膜電位影響越大)。
圖3 脈衝神經元示意圖
135編輯器
雖然上述以微分方程為基礎的SNN神經元模型看起來比ANN模型更為複雜,但它已經是最為簡化的SNN模型了,被稱為洩漏積分發放模型(Leaky Integrate and Fire, LIF)[9],其它更為複雜的模型如Izhikevich[10]和Hodgkin & Huxley[11]僅憑藉現有計算機還難以仿真大規模網絡。
原理上,SNN的時間積分效應可以使得其能夠處理時序問題,尤其是稀疏數據(事實上大腦神經元發放頻率也是非常稀疏的);其膜電位洩漏和閾值發放效應,進一步使得其能夠具有一定的去噪功能(事實上大腦脈衝信號也具有很多噪音,但大腦仍能正常工作)。
這兩個特性,目前的ANN模型都不具備(反饋神經網絡儘管具備時域處理能力,但與SNN很不相同)。雖然理論上有較大潛力,但由於SNN神經元的多變量時空動力學比較複雜,而脈衝發放活動又不可導,導致其無法使用具有全局性的梯度下降算法進行學習。
135編輯器
在相當長一段時間裡,其主要的學習規則都是非監督的腦啟發STDP(spike timing dependent plasticity)規則[12],僅利用突觸兩端神經元的局部脈衝響應來更新突觸權重以滿足學習目標。
雖然STDP具有一定的生物基礎,但它太過於局部化,難以獲得類似梯度下降算法的全局優化能力,導致其在諸多應用中表現差於ANN模型。
直到最近三年,才有研究者通過將預先採用梯度下降算法訓練好的ANN模型轉換為其SNN版本[13,14],或者通過對脈衝發放函數進行導數逼近,進而直接計算每個時刻膜電位和脈衝活動的梯度以實現基於梯度下降的有監督算法學習[15,16],這些努力逐漸使得SNN的應用性能接近目前的ANN模型。
爭議叢生但未來可期
支持SNN的器件通常稱為神經形態器件(如歐洲的SpiNNaker[17]和DYNAP[18],IBM的TrueNorth[19],Intel的Loihi[20]),其研究的動機主要是因為SNN的類腦特性使其更有希望通過構建大規模系統獲得類腦智能。
不過從應用角度出發,目前的神經形態器件大多隻能體現低功耗的特性,這是由於SNN神經元的輸入輸出信號為二值脈衝的緣故,可以去除輸入和突觸權重運算中的笨重乘法,再加之脈衝活動非常稀疏且允許事件驅動的異步電路設計。
而在功能方面,SNN所表現出的性能尚不能與深度學習匹敵,這也是工業界對神經形態方案的熱情有所消退甚至持懷疑和觀望態度的原因。
135編輯器
但筆者認為,目前的神經形態計算還有很大的提升空間,未來仍有可期:
一方面,深度學習的進步是數據、算力、軟件和模型共同進步的結果,非一日之功,而神經形態計算在上述優化上還處於起步階段。
另一方面,理論上SNN具有更豐富的信息響應特性,但其模型優勢距離被充分挖掘還有很長的路要走,究竟什麼任務、什麼信息數據甚至什麼評估標準適合SNN均尚不清晰。
目前的大多數測試基準仍是從ANN中遷移而來,僅僅在圖像數據上和ANN比較識別正確率就判別勝負難免過於狹隘,SNN的專長不應止於此。期待研究者們繼續從各個子領域努力前行,逐步迭代發展。
神經動力學網絡
基本模型
除SNN外,實際上計算神經科學領域的許多神經網絡模型並不是以脈衝形式進行信息編碼的,但保留了膜電位的時間微分動力學,因此這裡稱之為神經動力學網絡(Neural Dynamic Networks)。
這類模型通常用於研究腦回路的響應特性,成果相對分散。這裡給大家介紹比較典型的連續吸引子網絡(Continuous Attractor Neural Network, CANN)[21,22],其神經元模型可以簡單總結為如下:
其中大多數變量含義與SNN類似。此外,
x為神經元在二維空間中的座標位置(如圖4所示,以二維CANN為例),
為兩個對應位置神經元之間的突觸連接權重,
是神經元發放頻率,
為外部刺激,β
和
k為常數。
可以看到,CANN把SNN中“從膜電位到脈衝信號”的轉換調整為了“從膜電位到發放頻率”的轉換,公式中的除法歸一化體現了大腦中普遍存在的神經元抑制作用,使得發放頻率不會無限增長,整個系統趨於穩定。
135編輯器
在CANN中,突觸權重通常配置為高斯峰形狀,即
,相距越近的神經元連接越強,反之越弱,而α
控制著高斯峰的半徑。如此,在沒有外部刺激的時候,CANN模型的神經元發放頻率響應也呈現穩定的高斯函數形狀,稱為響應波包(Bump),表示網絡的一個吸引子狀態。
CANN不僅有簡潔的形式和特殊的動力學特性,在大腦中也具備生物學基礎:
大腦中頭朝向神經元在空間上沿著一個環分佈構成一維CANN,神經元群活動可以預測頭轉動的趨勢。
海馬中的空間神經元(Place Cell)互相連接構成一個二維CANN,神經元活動的波包可以編碼動物的空間位置,支持大腦的空間導航。
少數動物如蝙蝠的空間定位系統甚至會用到三維CANN。
關於CANN的計算原理、生物基礎和應用場景的更多信息,感興趣的讀者可以參考北京大學吳思教授課題組微信公眾號“吳思Lab計算神經科學及類腦計算”最近發佈的CANN專帖【學術思想】連續吸引子神經網絡:神經信息表達的正則化網絡模型。
圖4 二維CANN模型示意圖
135編輯器
CANN的應用場景有很多,這裡主要給大家詳細描述目標追蹤的實現[23]。當圖4中二維神經元陣列對應到視頻中的像素陣列、每個神經元的
接收對應位置像素強度的前後幀差分信號刺激時,網絡便可實現目標追蹤。
詳細而言,網絡初始時對目標所在的方框區域初始化為高響應值,其他區域為0;開始運行後,網絡所有神經元按照CANN規則進行計算,而目標所在區域的強差分輸入會牽引著神經元響應波包平滑移動,波包位置對目標進行實時追蹤。突觸權重高斯峰的半徑決定了追蹤的性能:太寬則容易受鄰近目標干擾,太窄則容易跟丟目標。
這種吸引子跟隨外部輸入的牽引而移動是CANN的特有動力學特性,對目標的追蹤也非常平滑自然。除目標追蹤的應用外,波包編碼本身也是一種神經元群編碼的體現,相比於單神經元編碼,更具有魯棒性。
另一方面,一簇CANN神經元可以處理某種模態信息的不同任務,也可以處理不同模態的信息,多簇CANN可以用長程連接進行信息交互,因此CANN也有潛力為大腦提供多模態信息處理的統一框架。
實際應用任重道遠
前面講述的深度學習和SNN都有對應的專用處理芯片,而神經動力學網絡由於本身研究比較分散,應用也不成體系,在硬件中的實現仍較為少見。
MIT曾實現了十多個神經元的簡單CANN模型[24],但並未引起重視。最近,清華大學的類腦芯片—天機芯通過對CANN模型突觸連接的局部約束、數據的低精度化等硬件友好改造,實現了約800幀每秒的超快目標追蹤[1,23]。
目前多數神經動力學網絡還是以復現神經迴路響應模式居多,距離實際應用還任重道遠,需要持續不斷地進行挖掘。
天機芯
跨域融合思想
上述模型各有特點和優缺點,孰優孰劣尚無定論。與現有深度學習加速器和神經形態器件分別支持ANN和SNN模型不同,天機芯[1]的目標是促進通用人工智能的發展,所以在保持專用芯片高效能的同時需要儘可能提高對上述模型支持的通用性。
由於不同模型的迥異計算原理、信息編碼方式與應用場景,導致其所需的計算與存儲架構以及優化目標相差較大,這點從現有深度學習加速器和神經形態器件的獨立設計和應用體系可以看出來。這裡需要注意的是,分別設計不同模型的專用模塊再簡單放置到一起是行不通的,原因如下。第一,很難確定各自的配置比例,因為現實應用中的工作負載往往是多變的;第二,面積和功耗都不高效,處理單一同構模型時,會導致總體利用率很低;第三,處理混合異構模型時,需要專門的信號轉換單元,增加額外成本降低效率。
135編輯器
在天機芯的設計中,實現異構融合有兩個關鍵點。首先,深入研究大多數目前的主流神經網絡模型,包括人工神經網絡、脈衝神經網絡與神經動力學網絡等,建立一個通用的模型描述框架,並把這些模型進行合理拆解後映射至包括軸突、樹突、突觸、胞體以及互連網絡等基本模塊上,歸納每個模塊應具備的算子功能。每個模塊都最大程度複用不同模型工作模式的存儲和計算資源,所以最終面積只比單一模式高3%。
然後,基於現有神經形態芯片的眾核可擴展架構(每個芯片中有許多個互相連接的基本功能核),並仔細設計上述幾個基本模塊,包括模式可獨立配置的軸突和胞體(輸入/輸出模塊),模式共享的樹突和突觸(運算模塊),以及統一的路由協議和路由網絡(連接模塊)。當軸突和胞體工作在相同模式下,整個網絡可支持典型單一同構模型;當軸突和胞體工作在不同模式下,整個網絡可支持目前尚缺乏研究的混合異構模型,有望推動神經網絡新模型的探索。
無人自行車應用演示
選擇什麼樣的平臺來演示天機芯的基本功能並非易事。首先,這應該是一個類似大腦的多模態系統,覆蓋感知、決策和執行的完整鏈路,並能夠為異構融合的多種模型提供任務支撐,這與目前很多AI系統演示的單一任務不同。其次,這應該是一個能夠與現實環境交互的真實系統,而不是停留在機房實驗。再者,這個系統最好對處理芯片有功耗和實時性要求,以體現專用芯片的優勢。最後,這個系統必須是安全可控的,能夠方便實驗。綜上所述,無人智能自行車平臺應運而生,其具有語音識別、目標探測和追蹤、運動控制、障礙躲避以及自主決策等功能,是一個運行在戶外場景同時對功耗和實時性具有需求的一個嵌入式機器人,算得上是一個五臟俱全的小型類腦平臺。
其中,目標探測採用的是ANN中的卷積神經網絡,在相機採集的圖像中探測目標位置;車身平衡控制採用的是ANN中的全連接神經網絡,根據陀螺儀採集的車身姿態實現對轉向電機的PID控制,保持自行車平衡;語音命令識別採用的是SNN模型,將語音信號轉換為spike脈衝信號特徵後進行命令分類;目標追蹤便是前面介紹過的CANN模型;自主決策是一個有限狀態機,實現上述不同模型的融合通信,因此是一個異構的混合模型。
135編輯器
總結
縱觀當今的AI芯片,從計算機科學和神經科學角度尋求動機,採用了不同的神經網絡模型,呈現了不同的硬件架構設計,應用和性能也各有所長。
筆者認為,在現階段沒有必要急著對各類途徑分出勝負。
一方面應該繼續保持研究的多樣性,使各個領域迭代發展,畢竟每一條路線目前看來都不能保證成為終極方案。
另一方面,面對目前已知的各類神經網絡模型,從數學根本上去探尋他們的表達能力差異從而尋求可控的大一統模型,也是很好的著力點。
科學研究的動機,並非僅僅是出於能看到多酷炫的應用,而是因為我們尚有諸多未知世界需要探尋,這是一切應用的前提。
參考文獻
[1] Pei, Jing, Lei Deng, Sen Song, Mingguo Zhao, Youhui Zhang, Shuang Wu, Guanrui Wang et al. "Towards artificial general intelligence with hybrid Tianjic chip architecture." Nature 572, no. 7767 (2019): 106.
[2] McCulloch W S, Pitts W. A logical calculus of the ideas immanent in nervous activity. Bull Math Biophys, 1943, 5(4): 115–133.
[3] Sacramento, Joao, Rui Ponte Costa, Yoshua Bengio, and Walter Senn. "Dendritic error backpropagation in deep cortical microcircuits." arXiv preprint arXiv:1801.00062 (2017).
[4] Guerguiev, Jordan, Timothy P. Lillicrap, and Blake A. Richards. "Towards deep learning with segregated dendrites." ELife 6 (2017): e22901.
[5] Sabour, Sara, Nicholas Frosst, and Geoffrey E. Hinton. "Dynamic routing between capsules." In Advances in neural information processing systems, pp. 3856-3866. 2017.
[6] Roelfsema, Pieter R., and Anthony Holtmaat. "Control of synaptic plasticity in deep cortical networks." Nature Reviews Neuroscience 19, no. 3 (2018): 166.
[7] Marblestone, Adam H., Greg Wayne, and Konrad P. Kording. "Toward an integration of deep learning and neuroscience." Frontiers in computational neuroscience 10 (2016): 94.
[8] Ullman, Shimon. "Using neuroscience to develop artificial intelligence." Science 363, no. 6428 (2019): 692-693.
[9] Gerstner, Wulfram, Werner M. Kistler, Richard Naud, and Liam Paninski. Neuronal dynamics: From single neurons to networks and models of cognition. Cambridge University Press, 2014.
[10] Izhikevich, Eugene M. "Simple model of spiking neurons." IEEE Transactions on neural networks 14, no. 6 (2003): 1569-1572.
[11] Hodgkin, Alan L., and Andrew F. Huxley. "A quantitative description of membrane current and its application to conduction and excitation in nerve." The Journal of physiology117, no. 4 (1952): 500-544.
[12] Song, Sen, Kenneth D. Miller, and Larry F. Abbott. "Competitive Hebbian learning through spike-timing-dependent synaptic plasticity." Nature neuroscience 3, no. 9 (2000): 919.
[13] Diehl, Peter U., Daniel Neil, Jonathan Binas, Matthew Cook, Shih-Chii Liu, and Michael Pfeiffer. "Fast-classifying, high-accuracy spiking deep networks through weight and threshold balancing." In 2015 International Joint Conference on Neural Networks (IJCNN), pp. 1-8. IEEE, 2015.
[14] Sengupta, Abhronil, Yuting Ye, Robert Wang, Chiao Liu, and Kaushik Roy. "Going deeper in spiking neural networks: VGG and residual architectures." Frontiers in neuroscience 13 (2019).
[15] Wu, Yujie, Lei Deng, Guoqi Li, Jun Zhu, and Luping Shi. "Spatio-temporal backpropagation for training high-performance spiking neural networks." Frontiers in neuroscience 12 (2018).
[16] Wu, Yujie, Lei Deng, Guoqi Li, Jun Zhu, Yuan Xie, and Luping Shi. "Direct training for spiking neural networks: Faster, larger, better." In Proceedings of the AAAI Conference on Artificial Intelligence, vol. 33, pp. 1311-1318. 2019.
[17] Furber, Steve B., Francesco Galluppi, Steve Temple, and Luis A. Plana. "The spinnaker project." Proceedings of the IEEE102, no. 5 (2014): 652-665.
[18] Moradi, Saber, Ning Qiao, Fabio Stefanini, and Giacomo Indiveri. "A scalable multicore architecture with heterogeneous memory structures for dynamic neuromorphic asynchronous processors (dynaps)." IEEE transactions on biomedical circuits and systems 12, no. 1 (2017): 106-122.
[19] Merolla, Paul A., John V. Arthur, Rodrigo Alvarez-Icaza, Andrew S. Cassidy, Jun Sawada, Filipp Akopyan, Bryan L. Jackson et al. "A million spiking-neuron integrated circuit with a scalable communication network and interface." Science345, no. 6197 (2014): 668-673.
[20] Davies, Mike, Narayan Srinivasa, Tsung-Han Lin, Gautham Chinya, Yongqiang Cao, Sri Harsha Choday, Georgios Dimou et al. "Loihi: A neuromorphic manycore processor with on-chip learning." IEEE Micro 38, no. 1 (2018): 82-99.
[21] Wu, Si, Kosuke Hamaguchi, and Shun-ichi Amari. "Dynamics and computation of continuous attractors." Neural computation20, no. 4 (2008): 994-1025.
[22] Fung, CC Alan, KY Michael Wong, and Si Wu. "A moving bump in a continuous manifold: a comprehensive study of the tracking dynamics of continuous attractor neural networks." Neural Computation 22, no. 3 (2010): 752-792.
[23] Deng, Lei, Zhe Zou, Xin Ma, Ling Liang, Guanrui Wang, Xing Hu, Liu Liu, Jing Pei, Guoqi Li, and Yuan Xie. "Fast Object Tracking on a Many-Core Neural Network Chip." Frontiers in neuroscience 12 (2018).
腦人言,與大腦對話