深度學習進入芯片領域,人工智能修成正果的日子不遠了

深度學習進入芯片領域,人工智能修成正果的日子不遠了

2019年人工智能逐步從弱人工智能邁入下一階段,而這一切都離不開強大的芯片。現有深度神經網絡需要用更短的時間、更低功耗完成計算,這就給深度學習計算芯片提出了更高的要求。

總體來看,深度神經網絡對計算芯片的需求主要有以下兩個方面:

一是計算芯片和存儲間海量數據通信需求,這裡有兩個層面,一個是緩存(Cache)和片上存儲(Memory)的要大,另一個是計算單元和存儲之間的數據交互帶寬要大。

二是專用計算能力的提升,解決對卷積、殘差網絡、全連接等計算類型的大量計算需求,在提升運算速度的同時實現降低功耗。總的來說,AI 計算芯片的發展過程可以總結為一直在圍繞如何有效解決存儲與計算單元的提升這兩個問題而展開,成本問題則作為一個舵手控制著終的航向。


深度學習進入芯片領域,人工智能修成正果的日子不遠了


典型 AI 計算芯片的使用現狀

在深度學習訓練環節,除了使用 CPU 或 GPU 進行運算外,現場可編程門陣列( Field-Programmable Gate Array,FPGA)以及專用集成電路(Application Specific Integrated Circuit,ASIC)也發揮了重大作用;而用於終端推斷的計算芯片主要以 ASIC 為主。


深度學習進入芯片領域,人工智能修成正果的日子不遠了


CPU 在深度學習訓練場景下表現不佳。初的深度學習場景是使用CPU為架構搭建的,如初GoogleBrain就是基於CPU組成的。但由於 CPU 其本身是通用計算器,大量芯片核心面積要服務於通用場景的元器件,導致可用於浮點計算的計算單元偏少,無法滿足深度學習特別是訓練環節的大量浮點運算需求,且並行計算效率太低,很快被具有數量眾多的計算單元、具備強大並行計算能力的 GPU 代替。


深度學習進入芯片領域,人工智能修成正果的日子不遠了


GPU 成為目前深度學習訓練的首要選擇。GPU 的關鍵性能是並行計算,適合深度學習計算的主要原因一是高帶寬的緩存有效提升大量數據通信的效率。GPU 的緩存結構為共享緩存,相比於 CPU,GPU線程(Thread)之間的數據通訊不需要訪問全局內存,而在共享內存中就可以直接訪問。二是多計算核心提升並行計算能力。GPU 具有數以千計的計算核心,可實現 10-100 倍於 CPU 的應用吞吐量。同時,基於由 NVIDIA 推出的通用並行計算架構 CUDA,使 GPU 能夠解決複雜的計算問題。其包含的 CUDA 指令集架構(ISA)以及 GPU 內部的並行計算引擎可針對當前深度學習計算進行加速,但是由於深度學習算法還未完全穩定,若深度學習算法發生大的變化,則 GPU 存在無法靈活適配問題。


深度學習進入芯片領域,人工智能修成正果的日子不遠了


FPGA在深度學習加速方面具有可重構、可定製的特點。因FPGA沒有預先定義的指令集概念,也沒有確定的數據位寬,所以可以實現應用場景的高度定製。但 FPGA 的靈活性(通用性)也意味著效率的損失。由於 FPGA 應用往往都需要支持很大的數據吞吐量,這對於內存帶寬和 I/O 互連帶寬要求很高。同時由於邏輯利用率低,引發無效功耗大。FPGA 市場化的主要阻礙是成本高昂,價格在幾十到幾萬美元一片不等,且應用者必須具備電路設計知識和經驗。由於 FPGA 省去了流片過程,在深度學習發展初期成為計算芯片主要解決方案之一,在 GPU 和 ASIC 中取得了權衡,很好的兼顧了處理速度和控制能力。

深度學習進入芯片領域,人工智能修成正果的日子不遠了

ASIC(專用集成電路,Application Specific Integrated Circuit)是不可配置的高度定製專用計算芯片。ASIC 不同於 GPU 和 FPGA 的靈活性,定製化的 ASIC 一旦製造完成將不能更改,所以初期成本高、開發週期長,使得進入門檻高。但 ASIC 作為專用計算芯片性能高於FPGA,相同工藝的ASIC計算芯片比FPGA計算芯片快5-10倍,同時規模效應會使得 ASIC 的成本降低。但高昂的研發成本和研發週期是未來廣泛應用的阻礙。


深度學習進入芯片領域,人工智能修成正果的日子不遠了


ASIC 主要生產企業包括如 Google 的TPU 系列計算芯片,以及國內的寒武紀、地平線等公司。 TPU 的核心為脈動陣列機,其設計思想是將多個運算邏輯單元(ALU)串聯在一起,複用從一個寄存器中讀取的結果,從而有效平衡了運算和 I/O 的需求。但其只適合做信號處理的卷積、信號和圖像處理(signal and image processing),矩陣算術(matrix arithmetic)和一些非數值型應用(non-numeric application)。 另一類 ASIC 代表企業為國內寒武紀,其 DianNao 系列核心思想為結合神經網絡模型的數據局部性特點以及計算特性,進行存儲體系以及專用硬件設計,從而獲取更好的性能加速比以及計算功耗比。 (部分內容來源於網絡如有侵權請聯繫刪除)

歡迎您分享文章,讓更多有需要的人看到。

相關推薦

推薦中...