大驚小怪，Google公佈TPU論文怎麼了？

人工智能 Google GPU CPU Xtecher 2017-04-11

都說Google是全球人工智能技術領頭羊，今天放出來的TPU論文就是一個最好的證明。

作者｜李賡

編輯｜陳光

網址｜www.xtecher.com

微信公眾號ID｜Xtecher

早在去年5月中旬的Google I/O大會上，Google就已經透露了自己的Tensor Processing Unit（Tensor處理單元）處理器，簡稱TPU。但相關細節，Google卻遲遲沒有公佈，直到這次TPU論文的發佈。

TPU的最新細節

大驚小怪，Google公佈TPU論文怎麼了？

首先需要指出，TPU是一個人工智能技術專用處理器，在種類上歸屬於ASIC（Application Specific Integrated Circuit，為專門目的而設計的集成電路）。

相比人工智能技術常見的另外幾種處理器CPU（中央處理器）、GPU（圖像處理器）、FPGA（陣列可編程邏輯門陣列），ASIC天生就是為了應用場景而生，所以在性能表現和工作效率上都更加突出。以下是Google硬件工程師 Norm Jouppi 在Google雲計算博客上透露的部分性能信息：

1、在神經網絡層面的操作上，處理速度比當下GPU和CPU快15到30倍；
2、在能效比方面，比GPU和CPU高30到80倍；
3、在代碼上也更加簡單，100到1500行代碼即可以驅動神經網絡；

這要歸功於ASIC本身的特點：處理器的計算部分專門為目標數據設計，100%利用；不需要考慮兼容多種情況，控制配套結構非常簡單，間接提升了能效比；可以在硬件層面對軟件層面提前進行優化，優化到位的情況下可以極大減少API接口的工作量。

大驚小怪，Google公佈TPU論文怎麼了？

Google也專門對比了在人工智能場景下TPU相對於CPU/GPU的能效比表現，不同顏色分別對應不同對比對象的結果（注：TPU'是改進版TPU）。可以看到GPU相對於CPU的領先倍數最多隻有2.9，而TPU'對CPU的領先幅度已經達到了196倍，對GPU的領先幅度也達到了68倍。能效比上的突出表現也能直接進行轉化，為用戶帶來更低的使用成本。

大驚小怪，Google公佈TPU論文怎麼了？

Google另外還對比了單芯片的平臺單位功耗，可以看到TPU在計算任務逐漸加重情況下，功耗浮動不過10%左右。而單CPU服務器的功耗波動接近300%，絕對功耗數字的更高也讓服務器需要配備更多散熱資源，無形中也增加成本。

大驚小怪，Google公佈TPU論文怎麼了？

Google這次也公佈了TPU的真實長相，通過板載的DDR3顆粒、PCIE接口可以看出實際尺寸並不算很大。PCB佈局看上去也並不複雜，TPU在中間，上下是DDR3顆粒陣列，左側是供電部分，右側是剩餘配套零件。

值得注意的是，Google還在論文中增加了一段描述：“這塊電路板也可以安裝在服務器預留的SATA盤位中，但是目前這款卡使用的是 PCIe Gen3 X16接口”。這一方面透露出了TPU的數據吞吐能力，同時也讓人遐想，Google是否會嘗試將其打造成更加通用化的硬件產品，比如適配SATA接口之後對外出售。

業內人士告訴你怎麼看TPU

TPU一出，數倍於CPU、GPU的性能技驚四座。但也有業內人士向Xtecher說出了自己的看法：這個芯片沒有什麼太神奇的地方，雖然性能很驚豔，但是成本也會很高，而且目前TPU並不能單獨使用，還是要配套CPU/GPU。

大驚小怪，Google公佈TPU論文怎麼了？

華登國際合夥人王林也在朋友圈貼出了自己的看法（Xtecher已經獲得了許可）：

1、芯片本身設計難度並不大，以floor plan看，data buffe加上乘加器陣列佔了2/3面積，再去掉比較大的兩個DDR3的PHY，一個PCIE Gen3 x16接口，控制電路只有2%。
2、為了降低功耗，提高性能，目前這款TPU的幾個設計指導原則是：增加數據帶寬，減少和host CPU的交互，不讓乘加器陣列閒著。所以用了24MB的片上Memory，多DDR3接口用於數據交換，4階CISC指令流水線保證MatrixMultiply優先級。帶來的代價就是大的die size，主頻不高。
3、考慮現有生態環境，TPU軟件要和CPU/GPU兼容。
4、稀疏化應是TPU以後的開發重點，論文來頭就提到壓縮到8位整數用於inference已經足夠好了。
5、這麼貴的芯片，我也就是看看......

Xtecher也專門採訪了國內創業公司縱目科技CEO唐悅：

這個東西實際跟視頻解碼一個道理，人工智能你能夠拿CPU來做也可以拿GPU來做，當它算法相對固定之後，你就可以專門去打造專用硬件。實際上各種各樣的東西都能夠實現一個目標，問題在於靈活度和專業性兩個方向如何把握。如果當前算法沒有固定，那就應該多用CPU和GPU，如果算法固定了，那麼就可以嘗試打造專用芯片。而事實上，人工智能恰巧處於這兩個方向的變化當中。
因為之前神經網絡一直在變，完全可編程的GPU更加適合用來探索，CPU以為並行能力比較弱還是定位在通用處理器。但隨著人工智能技術的推進，我們就能夠根據目前人工智能的需求來專門打造芯片，它比本身為圖像運算打造的GPU更加專注，自然效果更好。
這跟很多人現在用FPGA去運算也是一樣的，因為專用的硬件比通用的硬件性能一定更好。反過來說，究竟這個負責人工智能的處理器叫什麼完全沒有所謂。同樣的，這件事Google可以做，高通也在做，這並不是什麼特別的神奇的東西。

Google自己怎麼說？

大驚小怪，Google公佈TPU論文怎麼了？

去年年中，谷歌全球數據中心網絡主管烏爾斯·霍勒澤(Urs H lzle)就曾在公開場合對TPU的一系列問題進行了公開解答：

Google今後還將研發更多這樣的芯片。
Google不會把這種芯片出售給其他公司，不會直接與英特爾或NVIDIA進行競爭。但Google擁有龐大的數據中心，是這兩家公司迄今為止最大的潛在客戶。與此同時，隨著越來越多的企業使用谷歌提供的雲計算服務，它們自己購買服務器(和芯片)的數量就會越來越少，也就給芯片市場帶來進一步的衝擊。
TPU目前（當時）主要用來處理Android手機語音識別所需要的“一部分計算”。GPU已經在一點點出局。GPU太通用了，對於機器學習針對性不強。機器學習本來就不是GPU的設計初衷。
之所以不採用更加方便的方式——直接在FPGA基礎上固化算法，是因為ASIC快得多。

TPU背後的人工智能趨勢？

大驚小怪，Google公佈TPU論文怎麼了？

既然TPU只不過是一顆帶有人工智能“光環”的ASIC，那麼它究竟反映出了什麼趨勢？

首先是專注人工智能領域硬件的市場巨大，雖然CPU/GPU已經提供了通用運算能力，但是性能更好，能效比更高的FPGA、ASIC需求日趨強烈。

二個是隨著人工智能技術的進一步發展，硬件專業化趨勢不可避免。就像比特幣挖礦一樣，主力挖礦設備從CPU到GPU，從GPU到FPGA，最後再到ASIC。

除了Google，很多公司其實也在進行著類似的專業化硬件開發工作，相信不久的將來，一大批專業化硬件的出現將會為人工智能的發展再次注入動力，促進更多應用場景和更優質服務的出現。

總的來看，TPU的確算是人工智能發展歷程中的一個“小里程碑”，但真的沒有什麼好大驚小怪的。

大驚小怪，Google公佈TPU論文怎麼了？

相關推薦