神經網絡DSP市場湊齊一桌麻將，Cadence Tensilica一落座就準備聽牌

機器學習 GPU 圖像處理 Google EET電子工程專輯 2017-06-03

Cadence公司日前針對車載、監控安防、無人機和移動/可穿戴設備應用，正式公佈業界首款獨立完整的神經網絡處理器—Vision C5 DSP。在16納米制程條件下，C5 DSP所佔用的芯片面積不到1mm2，卻可以實現1TMAC/秒的計算能力(吞吐量較Vision P6 DSP提高4倍)，而且功耗遠比CPU、GPU等處理器更低，適合各種嵌入式運算設備使用。

Cadence公司Tensilica事業部市場高級總監Steve Roddy表示，神經網絡技術當前正以“令人難以置信”的速度飛快演進。不僅每隔幾個月就會誕生新的神經網絡算法，而且在2012-2015年這短短的3年時間內，神經網絡算法的複雜度也增加了16倍，遠遠超過摩爾定律的發展速度。如果再考慮到不同應用市場對神經網絡性能的差異化需求，我們“其實很難想象會有廠商願意用2017年的參考設計硬件平臺，去為2019-2020年以後出貨的產品做規劃。而且從市場上現有的解決方案來看，也都很難能夠在低功耗和靈活性之間取得平衡。”

目前，神經網絡算法開發者普遍採用通用型CPU/GPU芯片來執行新的算法。在Steve Roddy看來，儘管CPU/GPU能夠提供很好的編程環境與應用設計靈活性，獲得成本也遠比自己開發一款ASIC芯片低廉，但這種作法更適合在數據中心和雲端，對於功耗、體積和成本均受到嚴格限制的嵌入式設備而言其實並不合適。

“例如視頻監控對實時性要求極高，如果所有數據都需要傳輸到數據中心才能進行處理，代價是極大的。這其中牽扯的不僅是帶寬問題，安全性也不一定能得到保障。”他還列舉了Google和Amazon的語音識別算法區別，“Google Voice把所有語音都放在雲端進行處理，但Amazon Echo就只放置了一部分。從美國市場的反饋來看，Google Voice也確實賣不過Amazon Echo。”

下圖對比了通用型CPU、GPU、神經網絡硬件加速器與Vision C5 DSP在開發易用性、功耗效率、可編程性以及運算性能等四方面的優劣。Steve Roddy堅持認為，利用硬件加速器來執行神經網絡算法絕對是走上了一條不歸路。因為ASIC芯片從設計到量產，再到最終應用在終端產品上通常需要幾年的時間，在神經網絡發展如此迅猛的情況下，除非芯片設計者能夠“未卜先知”的精準預測出幾年後神經網絡的發展走向，否則這些產品還沒上市就已經過時了。

神經網絡DSP市場湊齊一桌麻將，Cadence Tensilica一落座就準備聽牌

除了產品開發時間的問題，利用硬件加速器與通用處理器共同執行神經網絡算法，牽扯到的另一個問題是數據傳輸。由於神經網絡會牽涉到大量數據傳輸，僅在通用處理器和硬件加速器間進行數據傳輸就會佔用相當多的處理器資源，並由此帶來可觀的高功耗。

以基於攝像頭的視覺系統為例，目前此類系統在汽車、無人機和安防領域最為常見。這種架構需要兩種最基礎的視覺優化計算模式：首先，利用傳統視覺算法對攝像頭捕捉到的照片或圖像進行增強；其次，使用基於神經網絡的認知算法對物體進行檢測和識別。現有的神經網絡加速器解決方案皆依賴與圖像DSP連接的硬件加速器，神經網絡代碼被分為兩部分，一部分網絡層運行在DSP上，卷積層則運行在硬件加速器上，直接導致架構效率低下，且耗能較高。

“這就是Cadence為什麼決定推出專為神經網絡算法而設計的C5 DSP處理器的根本原因。”Steve Roddy說，一款真正意義上針對嵌入式系統量身定製的高性能、通用型神經網絡解決方案，不僅應該具備極低的功耗，還應擁有高度的可編程能力，以適應未來變化，降低風險。

Vision C5 DSP是專門針對神經網絡進行了特定優化的DSP，可以實現全神經網絡層的計算加速(卷積層、全連接層、池化層和歸一化層)，而不僅僅是卷積層的加速。因此，主視覺/圖像DSP能力得以釋放，獨立運行圖像增強應用，Vision C5 DSP則負責執行神經網絡任務。通過移除神經網絡DSP和主視覺/圖像DSP之間的冗餘數據傳輸，Vision C5 DSP的功耗遠低於現有的神經網絡加速器。同時，Vision C5 DSP還提供針對神經網絡的單核編程模型。

Cadence方面提供的數據顯示，C5 DSP採用128路8-bit SIMD或64路16-bit SIMD的VLIW SIMD架構，包含1024 8-bit MAC或512 16-bit MAC以確保8-bit和16-bit精度。如果基於AlexNet CNN Benchmark，Vision C5 DSP的計算速度較業界的GPU最快提高6倍；基於Inception V3 CNN benchmark，則有9倍的性能提升。

此外，Vision C5 DSP搭載了Cadence神經網絡Mapping工具鏈，可將Caffe和TensorFlow等映射為在Vision C5 DSP上高度優化過的可執行代碼上，並同時採用了多項係數壓縮/解壓技術，支持未來添加的新計算層、各類內核尺寸、深度和輸入規格，在擴展能力方面超越了程序重編能力有限的CNN硬件加速器。

其實在Cadence推出C5 DSP之前，Synopsys、CEVA、VeriSilicon等廠商也都推出過神經網絡DSP IP產品，為何Cadence卻說自己是業界首款？Steve Roddy解釋說，Vision C5 DSP是專門針對神經網絡處理的，而不是像競爭對手的方案一樣，需要由控制、圖像處理和神經網絡硬件加速器三部分共同組成。C5 DSP成功的將後兩部分“合二為一”，提高了圖像處理效率的同時也簡化了架構。“從這個意義上來講，我們確實是業界第一家。”

Roddy透露，目前已有客戶正在利用C5 DSP核心開發下一代支持神經網絡算法的SoC芯片。第一顆內建VISION C5 DSP 內核的SoC產品會在2018年量產出貨。

神經網絡DSP市場湊齊一桌麻將，Cadence Tensilica一落座就準備聽牌

相關推薦