清華創新架構芯片量產！全球首款可重構超低功耗語音AI芯片

清華大學人工智能技術設計智能家居語音識別技術 GPU 工程師魏少軍軟件大學王博算法人臉識別硬件電腦雲計算英偉達索尼中央處理器 PowerPoint 智能硬件高通北京郵電大學電子工程人生第一份工作智東西 2019-07-01

智東西6月27日消息，最近，脫胎於清華大學微電子所Thinker團隊的AI芯片創企清微智能迎來新進展：

全球首款可重構超低功耗語音人工智能（AI）芯片TX210已實現規模化量產，於6月中旬正式交付市場，而此時清微智能距成立還不到1年。

這是一款語音SoC芯片，針對手機、可穿戴設備、智能家居等多種應用場景的智能終端產品開發，工作功耗不超過2mW，語音活動檢測（VAD）功耗小於100uW，延時不到10ms。

清微智能，拆開來，就是清華、微電子、人工智能，也就代表了這家公司的定位——專注可重構計算芯片，提供以端側為基礎，並向雲側延伸的芯片產品及解決方案。

其核心技術團隊來自清華微電子學研究所（以下簡稱微電子所），其芯片所採用的架構正是中國芯片技術學術領軍者——中國半導體行業協會IC設計分會理事長、清華大學微電子所所長魏少軍教授所帶領研發的可重構計算架構。

今日，智東西來到清微智能的辦公室，和創始人兼CEO王博深入交流，看這家出身“名門”、即將滿1週歲的AI芯片新秀，如何帶著清華大學前沿的創新架構踏入產業的大門，如何快速在逐漸火熱的AI芯片市場站穩腳跟。

謀定而後動，脫胎清華微電子系

清微智能成立於2018年7月，其技術脫胎於清華大學微電子學Thinker團隊。

如今的芯片產業，放眼望去，數不勝數的國內外半導體企業高管從清華大學電子工程系和微電子所走出。

而微電子所的靈魂人物——現任清華大學微電子研究所所長、中國半導體行業協會IC設計分會理事長魏少軍教授，在過去的十幾年間一直深耕於一項核心技術——“軟件定義芯片”，即可重構計算芯片技術。

意識到可重構計算架構對於芯片算力提升和功耗降低的巨大優勢，2006年，魏少軍教授牽頭成立了清華大學可重構計算研究團隊，而這支團隊後來成為清微智能的核心。

2015年，AI復興，對芯片運算能力產生了遠高於傳統芯片的要求，這個時候，沉寂了9年的可重構計算因其與AI算法契合的特性，開始重新進入“聚光燈下”。

自2016年起，基於可重構計算架構，魏少軍教授團隊中的清華大學微納電子系副系主任尹首一副教授帶隊設計研發了4款Thinker系列的低功耗終端AI芯片，分別是實驗性質的驗證芯片Thinker I、人臉識別芯片Thinker II、語音識別芯片Thinker S、語音識別芯片Thinker IM。（AI芯片終極難題被清華大學IC男神解決了!）

這三款芯片的設計方案一問世，就收穫了國際學術界的認可。比如Thinker-I首次出現在2017VLSI國際研討會上時，外界評價它“突破了神經網絡計算和訪存瓶頸，實現了高能效多模態混合神經網絡計算。”

而清微智能CEO王博的本科和碩士均在北京郵電大學計算機通信專業就讀，他與清華大學Thinker團隊的相識，卻來自一段同學緣分。

彼時，王博還在一家雲計算方案提供商工作，負責智能硬件產品，他在做一款人臉識別智能門鎖時，想要找到合適的芯片，卻發現市面上的高通等公司無法滿足他們對能耗比等性能的需求。

尹首一副教授的大學同學是王博的高中同學，兩人因此結識。

王博得知尹首一副教授在帶領Thinker團隊做AI芯片，看到其芯片設計方案擁有出色的能耗比，再經過深入瞭解他們所設計的可重構計算架構的技術，王博對這一架構的擴展性感到認可，覺得這條路線是可行的。

預測到AIoT市場將步入全面爆發期後，2018年7月，王博牽頭在北京中關村成立了清微智能公司，將技術產品化，由王博任CEO，尹首一副教授為首席科學家，歐陽鵬博士任CTO和Thinker芯片主架構師。

Thinker團隊原本就分為兩部分，一部分是尹首一副教授帶領一些博士生從事整個架構的設計和優化工作，另一部分是清華以社招形式招進來的專門負責芯片實現的工程師。

清微智能的初始技術團隊主要來自Thinker團隊中負責實現芯片的工程師們，約一二十人，如今其團隊數量已擴展到70多人。團隊成員來自清華大學、NVIDIA、Sony等知名高校和企業，在半導體行業具備多年經驗。

去年第三季度，清微智能拿到百度戰投領投的近億元天使輪融資，由百度戰投、分眾傳媒、禧筠資本、國隆資本、西子聯合控股等聯合投資，而新一輪融資計劃也將於近期啟動。

而清微智能在成立不足一年的時間，就交出了TX210語音芯片百萬數量級的量產，圖像芯片也將於今年12月量產，這一成就，源自清華大學十多年紮實的技術積累、200多項技術專利。

軟件定義芯片：可重構計算芯片架構

在今年的全球AI芯片峰會GTIC 2019上，魏少軍教授曾展示這樣一張PPT。他將芯片分成三部分：第一部分是可更多編程的，如CPU；第二部分是能少量編程的，如GPU；第三部分是不能編程的，如專用芯片。

除了可編程性，這些不同計算架構的主要差別在於能效。專用芯片到GPU之間有1000倍的能效差距，而1000倍是一個很重要的分界線。

魏少軍教授表示，如果我們的AI芯片做不到比GPU高1000倍的能效，就不能滿足人們在終端側的需求。

傳統的終端AI芯片，主要基於CPU、DSP、GPU、NPU等架構，這些架構本質屬於指令驅動的計算模式，屬於馮·諾依曼架構。

這些架構在具體計算過程中，面向某一特定領域，往往存在高能效和靈活性不可兼得的問題，比如華為旗艦手機中強大的麒麟芯片，就不適用於安防攝像頭、智能家居等場景。

它們需要從指令存儲器中加載指令並解析指令，然後指導執行單元進行計算。在數據計算中，這是一種靈活但是低效的時域計算模式。

此外，在AI芯片的研發過程中，也有團隊利用單指令流多數據流（SIMD）的方式來提高數據複用，從而減少指令解析，但是SIMD面向的是同構的操作，當指令功能變換時，仍需要重複前面的過程。

為了兼具高能效和可編程性，清華大學Thinker團隊致力於研究的是一種無需指令驅動的計算模式，即動態可重構計算架構（CGRA，Coarse grain reconfigurable architecture），也就是上圖紅色區域。

它是一種非馮·諾依曼架構，簡單而言，就是將軟件通過不同的管道輸送到硬件中來執行功能，使得芯片能夠實時地根據軟件/產品的需求改變功能，實現更加靈活的芯片設計。

傳統的芯片需要讓應用來適應架構，而CGRA架構更加靈活，能夠根據數據流的特點，讓軟件來調整芯片的計算能力，在最合理分配和使用算力的同時，成倍節約了數據存儲和傳輸帶寬。

王博介紹說，CGRA架構適合AI、視頻編解碼、語音處理等計算密集型場景，但不適用於以邏輯判斷為主的非計算密集型場景。

CGRA基於數據流圖，面向的是異構的空域計算，一次配置形成固定的電路結構，從而以接近ASIC效率反覆執行，資源利用率和數據複用率高。

同時，相比專用集成電路（ASIC）方式的固定電路結構，它又可以根據應用或者算法進行電路配置，使得硬件重新形成不同的計算電路結構，具有非常強的靈活性。

▲“指令驅動”的時域計算模式 v.s. “數據驅動、動態重構”的空間計算模式

以這個更低能耗和更強靈活性的架構為基礎，清微智能CTO歐陽鵬透露，清微智能在具體的芯片設計上，又做了兩方面深化。

1、支持混合精度計算

主流神經網絡算法具有混合數據精度表示的特點，即不同的神經網絡層可用不同數據位寬來表達中間數據或者權重數據的精度。

然而，傳統AI架構無法高效支持混合精度計算，通常只能支持單一精度計算，或者只能通過擴展資源方式支持少數幾種精度。

相較而言，清微AI芯片產品能支持從1bit-16bit的混合精度計算，同時，不同的神經網絡層可以採用不同的精度表示，可以實時切換精度。

這源自CGRA架構的特點，在具體實現過程中，可重構模式動態重組計算資源和帶寬，根據精度表示，讓計算資源和帶寬接近滿負荷進行計算，從而將混合精度網絡下的計算資源和帶寬的利用率逼近極限，高效支持多種混合精度的神經網絡。

2、優化非神經網絡計算效率

AI算法不止有神經網絡中卷積層、全連接層等邏輯，還有非神經網絡計算邏輯。

比如在人臉檢測和識別中，有NMS（非極大值抑制）以及仿射變換；在語音識別中，有FBANK/MFCC特徵提取以及聲學解碼等。

而與此同時，非神經網絡算法也在快速演進。比如最新NMS已經演化到Soft-NMS。

傳統AI芯片架構強調了神經網絡邏輯的計算效率，卻忽視了非神經網絡邏輯的計算效率。

針對非神經網絡邏輯，一般仍然採用CPU或者DSP進行處理，或者採用ASIC進行固化。

清微AI芯片產品針對神經網絡部分和非神經網絡部分均進行了計算效率考慮。

針對非神經網絡處理邏輯，從算法數據流圖進行空間映射，以接近ASIC效率計算。

同時，其產品通過配置形成不同的電路結構來動態處理不同非神經網絡計算邏輯，在保證靈活性前提下，計算效率有極大提升。

首款語音AI芯片量產，超強能效比

基於創新的CGRA架構，清微智能第一款實現規模化量產的語音AI芯片TX210擁有業界領先的算力、能耗比、時延、面積和成本。

據介紹，TX210採用臺積電40nm ULP工藝，支持WLCSP和QFN兩種產品封裝。

該芯片支持離線語音喚醒功能，支持5個喚醒詞和10個命令詞，還支持聲紋識別。它支持3-5m的遠場語音喚醒和識別，工作頻率為50MHz，延遲不到10ms。

繼承CGRA架構的特點，TX210芯片可編程、可重構，在結構上有著極強的靈活性，支持多比特DNN神經網絡，可以支持1-16bit位寬的神經網絡計算，也支持FFT/MEL FILTER等。

由於語音AI芯片的應用場景非常豐富，可以應用至智能手機、可穿戴智能設備、小家電、大家電、玩具及車載等眾多場景中，而低能耗又是從終端設備到用戶都非常重視的性能。

對此，TX210針對語音交互場景做了更多優化。

比如為了保持在低功耗狀態，它採用多級功耗喚醒模式，只有在通過麥克風檢測到人聲時，它才會被激活，準確監聽到“喚醒詞”後，TX210才會去喚醒處於休眠狀態的主控處理器芯片。

另外，芯片支持一語直達功能，處理器只需要處理喚醒詞之後的語音信號內容。

經過多重優化，TX210將工作功耗控制在2mW內，將語音活動檢測（Voice Activity Detection，VAD）功耗降至100uW內。

該語音AI芯片的另一個特點是用極小的芯片面積支持豐富的接口和電源管理。

TX210的WLCSP封裝面積僅有2.3 x 1.9mm2，適用於手機，藍牙耳機等對體積要求苛刻的應用場景；同時TX210集成了LDO/ADC/BANDGAP/PGA等模擬器件，支持32K crystal輸入，極大降低了用戶的使用成本。

除此之外，在降噪方面，TX210也做了進一步優化，單麥基於深度學習進行降噪，雙麥則是將傳統算法與深度學習相結合，在典型信噪比下，TX210的喚醒識別率達95%，誤識別率小於24小時一次。

據介紹，在TX210正式上市前，清微智能已與一些大型的互聯網公司、智能手機及家電廠商建立了合作關係。

而這只是清微智能基於CGRA架構芯片的開始，他們的視覺芯片預計將在今年12月量產。

王博告訴智東西，目前他們規劃CGRA架構18個月一迭代，下一代架構有望將算力再提高5-10倍。隨著Thinker團隊持續迭代更新CGRA架構，未來其語音芯片和視覺芯片的算力和能效比都將進一步提升。

在算法方面，清微智能在在算法壓縮，量化以及硬件友好化設計方面有長期的積累，並與中科院、清華大學、喬治理工大學等開展了深入合作。

清微智能還研發了一套CGRA軟件開發平臺，這個平臺兼容TensorFlow、Caffe等主流AI框架，可自動完成轉換、解析、編譯、生成等過程。他們自己的編譯平臺，允許用戶從其它框架無縫遷移清微智能的芯片。

清微智能選擇先切入終端AI芯片市場，這與當下的大環境不無關聯。

去年，智能終端產品呈井噴式發展，智能音箱在2018年第四季度的出貨量增長了95％。日前，工信部電子科技委副主任莫瑋曾表示：“中國已成為全球最大的智能終端生產和消費國。”

但業界普遍認為，終端智能的滲透率尚不足1%。這意味著，智能終端市場規模遠未達到預期，也意味著終端AI芯片市場的巨大潛力。

基於CGRA架構研發芯片的不止清微智能一家，美國創企Wave Computing採用這一架構的第二代DPU芯片預計將在明年面世，是一款7nm雲端AI芯片。

至於清微智能是否有進軍雲端AI芯片的計劃，王博表示，Thinker團隊之前曾做出過成功的雲端芯片，考慮到公司規模和投入階段問題，他們想先在端側驗證架構的表現是出色的，等下一階段有了足夠積累，再去做雲端芯片。

創新架構是AI芯片發展的關鍵

目前AI芯片產業化還在起步階段，從算法到算力，能耗比剛剛能滿足用戶基礎的需求。

由於AI計算需要很大算力，但傳統的馮·諾依曼架構在計算密集型任務方面遇到了瓶頸，芯片設計底層架構的創新成為未來持續發展關鍵，王博認為，這也是很多AI創業公司集中出現的原因，大家都在同一起跑線上。

即便採用同一類架構，如CGRA，設計思路在本質上不會有太多差別，但每個處理元素（PE，Processing Element）中怎麼設計、讓它實現怎樣的功能、處理元素之間怎樣連接更高效……這些細節的設計與創新會決定各家芯片的差異。

除了架構創新，工藝、近閾值的技術等方法的進化也很重要，他們能在先進架構的基礎上進一步提升芯片的性能。

王博也談到，做芯片的本質上還是要獨立流片以及建立一個完整的生態系統，而不是把各種功能的IP堆在一起就行。做好芯片的前提，是要擁有大量的芯片行業積累。

芯片還需面臨越來越多的場景去定義創新，才能將前期費用分攤下去，才能盈利，如果沒有幾千萬的場景去支撐，做芯片的意義就不存在了。

對於終端智能而言，上傳雲端的穩定性、延時、隱私、部署成本等問題仍亟待解決，即將出現的5G將使得更多設備能夠聯網互通，使得這些設備對終端智能的要求更加明確和豐富。

結語：終端AI芯片落地新戰在即

從清微智能身上，我們看到更加新穎的一種芯片團隊組合，他們不僅擁有來自學術大牛帶隊研發的前沿創新架構，還擁有產業經驗豐富的工程師們。兩強結合之下，清微智能既擁有高性能+極低功耗的芯片，又能快速推進產品完成變現。

近一兩年，一批新玩家湧入終端AI芯片市場，但撇除那些為了實現垂直化整合或優化自身整體方案的AI算法公司、設備供應商等跨界玩家，市場機會逐漸聚攏在少數擁有創新架構的玩家身上。

終端AI芯片的落地之戰才剛剛開始，技術路徑、覆蓋場景、落地速度、生態擴張等因素都有可能將這些玩家拉開差距，市場將檢驗出誰是能打持久戰的企業。