「TPU和GPU，誰將一統AI芯片」摩爾定律之後一萬倍，10萬+熱文引爆激辯

機器學習 GPU 人工智能大數據新智元 2017-05-28

ƒ 新智元推薦

正當AlphaGo 與柯潔等一眾中國頂尖圍棋高手在烏鎮激戰正酣之際，計算機體系結構專家王逵在新智元專欄的文章（點擊閱讀《CPU和GPU雙低效，摩爾定律之後一萬倍 ——寫於TPU版AlphaGo重出江湖之際》）在專家社群和文章評論區內中引發了熱烈的討論。

楊靜：關於TPU，這篇閱讀最高，沒有之一。
包雲崗：這是我看過的TPU相關文章中寫得最好的一篇了，目前沒有“之一”
方昊：在一堆抄來抄去alphago文章中難得一見的一股清流。
Kuhasu：小夥子寫的非常清晰！我們對衝基金從8年前就開始使用ASIC進行高頻交易，而ASIC在交易領域的實際應用，可以追溯到上世紀九十年代後期。
艾婭軒： 體系結構和AI領域的玩家們，不能錯過的原創，非AI硬件技術細節稿卻深入剖析技術內涵。
ljf：一篇文章看懂一個領域

但對於文章認為TPU代表了未來發展方向這一觀點，很多讀者提出了自己的看法。為此，新智元也採訪了原作者王逵博士。

TPU的生態問題

唐杉：我們在一個芯片項目中各個任務需要的投入（cost），其中最大的部分是Software，Verification和Validation。而Architecture設計只佔其中的很小一部分。這個比例和目前大多數芯片廠商的人員配置也是基本相符的。形成這種趨勢，是因為現在的芯片往往只是一個複雜系統中的一部分。芯片設計廠商（或者方案商）提供給客戶的已經遠遠不止芯片本身，而是一套完整的軟硬件解決方案。Nvidia在Deep learning上的巨大成功，是歸功於它的芯片底層硬件架構，還是它完善的軟硬件生態呢？當然是後者。Google之所以敢於和能夠自己設計TPU芯片，是和Tensorflow佈局和以及data center方面的經驗分不開的。絕大多數deep learning用戶看到的是Tensorflow（或者其它訓練框架）和CUDA，而不是底層硬件（只要硬件別太昂貴）。

孫治平：對於一個AI芯片項目來說，考慮整個軟硬件生態，要比底層硬件架構的設計重要得多，最終給用戶提供一個好用的解決方案，才是王道。

朱晶：做AI ASIC 拿架構說是競爭力的可能還是有不小風險，這玩意兒還得看完整生態。

王逵：我非常同意唐杉博士的觀點，生態才是王道。任何一次芯片架構的革命，都和軟件分不開。當年各種RISC架構如同雨後春筍般湧現，很重要的推動力就是Unix操作系統和C語言編譯器的成熟，有了它們，操作系統和應用程序才能非常低成本地移植到新CPU上。如今各種深度學習的框架就如同Unix，XLA這樣的中間層表示就如同C語言。它們有了開源的成熟方案之後，專用芯片的生態問題會得到極大的緩解。

通用和專用的問題

陳怡然：（這篇文章）觀點還是很獨特的。不過我覺得TPU本質上其實就是ASIC，和以前的DSP專用芯片剛開始的出發點類似。如果說不同，可能面臨的商業應用更廣闊。但最後一定會在通用性和性能之間再次平衡。問題的關鍵不在技術本身，在於找到最佳平衡點。

蔣純：這個ASIC更準確應該叫DSA吧

周楓：寫得淺顯易懂，對技術介紹得不錯。但是ASIC最靠譜的結論不同意，更有可能是ASIC是跑車，滿足特殊需求，GPU才是支持產業的乘用小車，量最大，通用性最好。規模Volume這個東西是決定性的，而優勢都在GPU這邊。看今明年Intel出招吧。

Yubo ： ASIC快於通用處理器是自然的，代價就是應用太過於侷限，就通用和性能之間的平衡還是GPU做得比較到位。

Qianlong ：大家一致叫好，我來說點不一樣的。ASIC不是誰想玩就能玩的，Google敢玩是受夠了公司後又挖包括Patterson等牛人，有大量資金做支撐。另一個原因是投入產出比，對他們來講可以保證自己做完自己用。但是如果給第三方企業用，迭代成本是企業的命脈。買gpu和買asic做AI投入產出比到底誰更好？AI發展這麼快，鬼知道算法會不會半年後就淘汰？專用的一定比通用的快是一定的，但發展前景不好說，體系結構領域很多款拋棄歷史包袱的CPU都失敗了已經說明了這一點。有企業有勇氣做拓路人值得肯定，真心希望能成功！

AHE ：神經網絡的進化速度非常快，除了TensorFlow還有其它的框架都在進化。相信TensorFlow不久就會有新的算法升級。專用的ASIC TPU能兼容嗎？

王逵：專用芯片到底能出多大的量？這個量能不能攤平流片的巨大成本？這是最核心的兩個問題。

首先，我內心裡不認為TPU是ASIC，更合適的詞是DSA（Domain-Specific-Architecture），前者加速某一項功能，後者加速某一類功能。上篇文章篇幅所限，沒有引入DSA的概念。為了能上到足夠大的量，設計DSA必須要避免“半年後就淘汰”，這就是考驗設計功力的地方。

其次，TPU的確只能在DeepLearning這個市場搶GPU的飯碗，但未來這個市場會非常龐大，甚至超過Graphic。當年Google用MapReduce引爆大數據，並沒有為此做芯片，後來學術圈也出了不少加速大數據分析的DSA，Google完全無視；這次AI火爆，它火速做了DSA，為什麼？就是看到了量。

最後，做芯片的成本沒有大家想的那麼大，芯片設計的方法學始終在進步。

有一位朋友講他十幾年前在硅谷初創公司的經歷，做世界第一款萬兆網交換芯片，每次ASIC spin，代價都是幾百萬美金，燒了5億美金產品才最終成熟穩定。如今因為EDA工具的發展和設計流程的進化，絕大多數成熟的IC設計企業都可以做到一次成功。加上28/22nm工藝還在持續減價中。其實如今做芯片的門檻在逐步降低。

TPU的技術細節

ep running ：CPU和GPU“低效”的癥結並不是什麼新聞，為了“通用”“權衡”不得已而為之，專用芯片比CPU高效也人盡皆知，google做了一款人工智能方面的專用加速芯片和博通一直在推出的專用交換芯片沒有什麼本質區別，為啥會感概？通用核心與存儲接口之間的效率問題還是沒有看到被根本解決呀？除了是一款人工智能芯片外，google真正的突破和革命在哪裡？。

jiakai ：並沒有解釋出tpu相對gpu有什麼優勢。後者面臨的計算訪存瓶頸問題前者同樣面臨

王逵：其實文中已經提到了怎麼解決訪存瓶頸問題。因為“Tensor的流動非常規整且可預期；計算密度很高，即每個數據都會歷經非常多次的計算”，所以“不對其上運行的數十萬個小程序做限制”是低效的。至於說怎麼做才是高效的，有很多論文都在講，科普小文就不展開了。

TPU和FPGA

劉丹丹：FPGA註定淪為炮灰，CPU,GPU壟斷地位搖搖欲墜，是不是很多程序員和fpga工程師工作限制越來越大了……

張佺: 優化是市場需求，革新才是發展王道！感覺現在國內好多人都在折騰FPGA，希望大家能有所覺醒吧！

曉冬：反而覺得FPGA的時代早晚會來臨。比如無人駕駛，用GPU的話能接受那種功耗嗎？起碼低碳環保主義者不會買單。無人車不是手機，不會用兩年就換代，從功能升級的角度來看ASIC又遠不如FPGA。如果TPU能夠滿足較低的功耗與較高的靈活性，那恐怕不止Nvidia、Intel、Qualcomm，Xilinx也會慌吧。

王逵：只要有足夠的量，FPGA就不如DSA&ASIC。引用我的一位老師的話：FPGA確實頻率低、功耗高。量大ASIC，量小FPGA，不著急ASIC，快速部署FPGA，硬件不變ASIC，硬件重構FPGA。而今已經是，有錢ASIC，沒錢FPGA。

但FPGA的價值不能被否定，做FPGA非常有前途，例如上文提到的，大數據分析的加速。

熱議：體系結構與工藝設計的關係

謝源：CPU和GPU都是通用架構，而TPU則是針對神經網絡的專用架構，不具有通用性。對於工藝進步（technology scaling）與體系架構（computer architecture）對通用處理器發展歷史上所做的貢獻誰更大的分析，詳細可參斯坦福大學Mark Horowitz教授團隊的文章“CPU DB: Recording Microprocessor History” 文章鏈接http://queue.acm.org/detail.cfm?id=2181798

在過去幾十年歷史上，工藝的進步和體系結構的貢獻是基本相同的。所以前面有人提“體系結構的性能提升很有限，你可以通過工藝改進輕輕鬆鬆獲得一倍以上的性能提升”，是不對的。而且工藝進步和架構創新是相互影響相互作用的。TPU架構的設計者，Norm Jouppi,早在1991年就明確在一篇經典文章“Computer Technology and Architecture: An Evolving Interaction” 中指出了這兩者的關係。（文章鏈接http://dl.acm.org/citation.cfm?id=125812 ）。而體系結構的創新也和新應用相互作用相互影響。比如這一波AI的熱潮，很重要的一個因素是CPU/GPU的計算能力的極大提升。同時AI的應用，也推動了針對神經網絡的專用架構的研究，包括TPU這樣的新架構。所以，新工藝，新應用，和新的體系結構，是相互作用相互影響的。兩週前我在ChinaSys的一個keynote, “Technology-Drive and Application-Driven Architecture Innovation”，就詳細解釋了這樣一個觀點。（鏈接：http://www.ece.ucsb.edu/~yuanxie/ChinaSys2017.pdf）

陳天石：沒有合適的結構和軟硬件間合理的映射，堆再多mac也是空的，效率上不去。這就類似於說，蓋出新的舉世無雙的建築，到底是設計師圖紙重要還是磚塊重要。其實兩者是不能割裂的。沒有這些大師和研發人員，通用處理器根本做不出來。這些漂亮的工作，都是體系結構的貢獻。我不認為有了磚就一定有好的結構。建築為例，不同的設計師做的東西就是不同的。在體系結構領域，通用和專用的討論每隔一段時間就會交替地熱起來，類似正弦曲線。如果摩爾定理接近終結，正弦曲線可能在專用這塊拉到頂了。所謂應用驅動，並不改變體系結構學科的重要性，改變的僅僅是重視通用還是重視專用。這都是體系結構學科內部細分方向的事情。宏觀看，體系結構在每個時刻都非常重要。

CETC趙華龍HUST PhD：我不太同意文章中的部分觀點，並非摩爾定律的終結帶來的體系結構的盛宴，當下體系結構的盛宴是由於新的計算業務形式的大規模流行導致的，是新的ML計算業務模式的風靡才出現了你方唱罷我登場的體系結構大討論。這與摩爾定律的延續沒有明顯因果關係。

如果不考慮計算業務的實際需求，大可以在單位面積內全部集成計算部件，那樣的理論計算能力更會指數級增長，可是那樣的”倚天長劍"沒有辦法在實際應用裡發揮效力，甚至都無法有效運輸數據給計算部件。所以才會是通用處理器諾大一個cpu，一大堆晶體管邏輯都圍著一個alu轉，都為它服務拼命想把它餵飽的現實情況。其實體系結構本身取決於我們實際需要的計算業務模式，神經網絡這類新型計算業務要求的流行與普及才催生了這樣的體系結構出現或新生，如果人類還未曾發現這樣的計算業務對我們有大益處，那也不會有這樣的體系結構，或者說我們不知道構建出這樣的計算能力組織形式有什麼用，那麼度量它的計算能力完成了多少GFLOPS就更沒意義了。而現在有了需求——神經網絡類計算，那這種體系結構及其帶來的GFLOPS計算能力就有了實際意義，就開始出現了所謂類似“一萬倍的增長”，但這種計算能力的所謂增長並非我們在原先的環境下新的發現而出現的增長，而是新的需求使我們的環境發生了變化，才使這樣組織和計量出來的計算能力有了意義。總之，摩爾定律是否延續不與本次盛宴構成因果關係，摩爾定律本身只能算盛宴的基礎，而且目前來看還遠未被終結。

王逵：我個人的看法是，應用需求總是會不斷湧現的，沒有AI，還會有別的，誰知道是啥，但總會有的。就像比爾蓋茨說的，永遠不要低估軟件的力量。人類的創造力對算力的需求，是不會隨著摩爾定律而停息的。當摩爾定律還適用的時候，對於架構，軟件是懶惰的，不想適應新的架構，因為有工藝的免費午餐。但摩爾定律結束了，軟件就不得不考慮適應新的架構，走軟硬結合的路子，才能繼續滿足創造力對算力的需求。

「TPU和GPU，誰將一統AI芯片」摩爾定律之後一萬倍，10萬+熱文引爆激辯

相關推薦