神經網絡DSP市場湊齊一桌麻將,Cadence Tensilica一落座就準備聽牌

機器學習 GPU 圖像處理 Google EET電子工程專輯 2017-06-03

Cadence公司日前針對車載、監控安防、無人機和移動/可穿戴設備應用,正式公佈業界首款獨立完整的神經網絡處理器—Vision C5 DSP。在16納米制程條件下,C5 DSP所佔用的芯片面積不到1mm2,卻可以實現1TMAC/秒的計算能力(吞吐量較Vision P6 DSP提高4倍),而且功耗遠比CPU、GPU等處理器更低,適合各種嵌入式運算設備使用。

Cadence公司Tensilica事業部市場高級總監Steve Roddy表示,神經網絡技術當前正以“令人難以置信”的速度飛快演進。不僅每隔幾個月就會誕生新的神經網絡算法,而且在2012-2015年這短短的3年時間內,神經網絡算法的複雜度也增加了16倍,遠遠超過摩爾定律的發展速度。如果再考慮到不同應用市場對神經網絡性能的差異化需求,我們“其實很難想象會有廠商願意用2017年的參考設計硬件平臺,去為2019-2020年以後出貨的產品做規劃。而且從市場上現有的解決方案來看,也都很難能夠在低功耗和靈活性之間取得平衡。”

目前,神經網絡算法開發者普遍採用通用型CPU/GPU芯片來執行新的算法。在Steve Roddy看來,儘管CPU/GPU能夠提供很好的編程環境與應用設計靈活性,獲得成本也遠比自己開發一款ASIC芯片低廉,但這種作法更適合在數據中心和雲端,對於功耗、體積和成本均受到嚴格限制的嵌入式設備而言其實並不合適。

“例如視頻監控對實時性要求極高,如果所有數據都需要傳輸到數據中心才能進行處理,代價是極大的。這其中牽扯的不僅是帶寬問題,安全性也不一定能得到保障。”他還列舉了Google和Amazon的語音識別算法區別,“Google Voice把所有語音都放在雲端進行處理,但Amazon Echo就只放置了一部分。從美國市場的反饋來看,Google Voice也確實賣不過Amazon Echo。”

下圖對比了通用型CPU、GPU、神經網絡硬件加速器與Vision C5 DSP在開發易用性、功耗效率、可編程性以及運算性能等四方面的優劣。Steve Roddy堅持認為,利用硬件加速器來執行神經網絡算法絕對是走上了一條不歸路。 因為ASIC芯片從設計到量產,再到最終應用在終端產品上通常需要幾年的時間,在神經網絡發展如此迅猛的情況下,除非芯片設計者能夠“未卜先知”的精準預測出幾年後神經網絡的發展走向,否則這些產品還沒上市就已經過時了。

神經網絡DSP市場湊齊一桌麻將,Cadence Tensilica一落座就準備聽牌

除了產品開發時間的問題,利用硬件加速器與通用處理器共同執行神經網絡算法,牽扯到的另一個問題是數據傳輸。由於神經網絡會牽涉到大量數據傳輸,僅在通用處理器和硬件加速器 間進行數據傳輸就會佔用相當多的處理器資源,並由此帶來可觀的高功耗。

以基於攝像頭的視覺系統為例,目前此類系統在汽車、無人機和安防領域最為常見。這種架構需要兩種最基礎的視覺優化計算模式:首先,利用傳統視覺算法對攝像頭捕捉到的照片或圖像進行增強;其次,使用基於神經網絡的認知算法對物體進行檢測和識別。現有的神經網絡加速器解決方案皆依賴與圖像DSP連接的硬件加速器,神經網絡代碼被分為兩部分,一部分網絡層運行在DSP上,卷積層則運行在硬件加速器上,直接導致架構效率低下,且耗能較高。

“這就是Cadence為什麼決定推出專為神經網絡算法而設計的C5 DSP處理器的根本原因。”Steve Roddy說,一款真正意義上針對嵌入式系統量身定製的高性能、通用型神經網絡解決方案,不僅應該具備極低的功耗,還應擁有高度的可編程能力,以適應未來變化,降低風險。

Vision C5 DSP是專門針對神經網絡進行了特定優化的DSP,可以實現全神經網絡層的計算加速(卷積層、全連接層、池化層和歸一化層),而不僅僅是卷積層的加速。因此,主視覺/圖像DSP能力得以釋放,獨立運行圖像增強應用,Vision C5 DSP則負責執行神經網絡任務。通過移除神經網絡DSP和主視覺/圖像DSP之間的冗餘數據傳輸,Vision C5 DSP的功耗遠低於現有的神經網絡加速器。同時,Vision C5 DSP還提供針對神經網絡的單核編程模型。

神經網絡DSP市場湊齊一桌麻將,Cadence Tensilica一落座就準備聽牌

Cadence方面提供的數據顯示,C5 DSP採用128路8-bit SIMD或64路16-bit SIMD的VLIW SIMD架構,包含1024 8-bit MAC或512 16-bit MAC以確保8-bit和16-bit精度。如果基於AlexNet CNN Benchmark,Vision C5 DSP的計算速度較業界的GPU最快提高6倍;基於Inception V3 CNN benchmark,則有9倍的性能提升。

此外,Vision C5 DSP搭載了Cadence神經網絡Mapping工具鏈,可將Caffe和TensorFlow等映射為在Vision C5 DSP上高度優化過的可執行代碼上,並同時採用了多項係數壓縮/解壓技術,支持未來添加的新計算層、各類內核尺寸、深度和輸入規格,在擴展能力方面超越了程序重編能力有限的CNN硬件加速器。

神經網絡DSP市場湊齊一桌麻將,Cadence Tensilica一落座就準備聽牌

其實在Cadence推出C5 DSP之前,Synopsys、CEVA、VeriSilicon等廠商也都推出過神經網絡DSP IP產品,為何Cadence卻說自己是業界首款?Steve Roddy解釋說,Vision C5 DSP是專門針對神經網絡處理的,而不是像競爭對手的方案一樣,需要由控制、圖像處理和神經網絡硬件加速器三部分共同組成。C5 DSP成功的將後兩部分“合二為一”,提高了圖像處理效率的同時也簡化了架構。“從這個意義上來講,我們確實是業界第一家。”

神經網絡DSP市場湊齊一桌麻將,Cadence Tensilica一落座就準備聽牌

Roddy透露,目前已有客戶正在利用C5 DSP核心開發下一代支持神經網絡算法的SoC芯片。第一顆內建VISION C5 DSP 內核的SoC產品會在2018年量產出貨。

相關推薦

推薦中...