大驚小怪,Google公佈TPU論文怎麼了?

人工智能 Google GPU CPU Xtecher 2017-04-11

大驚小怪,Google公佈TPU論文怎麼了?

都說Google是全球人工智能技術領頭羊,今天放出來的TPU論文就是一個最好的證明。

作者|李賡

編輯|陳光

網址|www.xtecher.com

微信公眾號ID|Xtecher

早在去年5月中旬的Google I/O大會上,Google就已經透露了自己的Tensor Processing Unit(Tensor處理單元)處理器,簡稱TPU。但相關細節,Google卻遲遲沒有公佈,直到這次TPU論文的發佈。

TPU的最新細節

大驚小怪,Google公佈TPU論文怎麼了?

首先需要指出,TPU是一個人工智能技術專用處理器,在種類上歸屬於ASIC(Application Specific Integrated Circuit,為專門目的而設計的集成電路)。

相比人工智能技術常見的另外幾種處理器CPU(中央處理器)、GPU(圖像處理器)、FPGA(陣列可編程邏輯門陣列),ASIC天生就是為了應用場景而生,所以在性能表現和工作效率上都更加突出。以下是Google硬件工程師 Norm Jouppi 在Google雲計算博客上透露的部分性能信息:

1、在神經網絡層面的操作上,處理速度比當下GPU和CPU快15到30倍;

2、在能效比方面,比GPU和CPU高30到80倍;

3、在代碼上也更加簡單,100到1500行代碼即可以驅動神經網絡;

這要歸功於ASIC本身的特點:處理器的計算部分專門為目標數據設計,100%利用;不需要考慮兼容多種情況,控制配套結構非常簡單,間接提升了能效比;可以在硬件層面對軟件層面提前進行優化,優化到位的情況下可以極大減少API接口的工作量。

大驚小怪,Google公佈TPU論文怎麼了?

Google也專門對比了在人工智能場景下TPU相對於CPU/GPU的能效比表現,不同顏色分別對應不同對比對象的結果(注:TPU'是改進版TPU)。可以看到GPU相對於CPU的領先倍數最多隻有2.9,而TPU'對CPU的領先幅度已經達到了196倍,對GPU的領先幅度也達到了68倍。能效比上的突出表現也能直接進行轉化,為用戶帶來更低的使用成本。

大驚小怪,Google公佈TPU論文怎麼了?

Google另外還對比了單芯片的平臺單位功耗,可以看到TPU在計算任務逐漸加重情況下,功耗浮動不過10%左右。而單CPU服務器的功耗波動接近300%,絕對功耗數字的更高也讓服務器需要配備更多散熱資源,無形中也增加成本。

大驚小怪,Google公佈TPU論文怎麼了?

Google這次也公佈了TPU的真實長相,通過板載的DDR3顆粒、PCIE接口可以看出實際尺寸並不算很大。PCB佈局看上去也並不複雜,TPU在中間,上下是DDR3顆粒陣列,左側是供電部分,右側是剩餘配套零件。

值得注意的是,Google還在論文中增加了一段描述:“這塊電路板也可以安裝在服務器預留的SATA盤位中,但是目前這款卡使用的是 PCIe Gen3 X16接口”。這一方面透露出了TPU的數據吞吐能力,同時也讓人遐想,Google是否會嘗試將其打造成更加通用化的硬件產品,比如適配SATA接口之後對外出售。

業內人士告訴你怎麼看TPU

TPU一出,數倍於CPU、GPU的性能技驚四座。但也有業內人士向Xtecher說出了自己的看法:這個芯片沒有什麼太神奇的地方,雖然性能很驚豔,但是成本也會很高,而且目前TPU並不能單獨使用,還是要配套CPU/GPU。

大驚小怪,Google公佈TPU論文怎麼了?

華登國際合夥人王林也在朋友圈貼出了自己的看法(Xtecher已經獲得了許可):

1、芯片本身設計難度並不大,以floor plan看,data buffe加上乘加器陣列佔了2/3面積,再去掉比較大的兩個DDR3的PHY,一個PCIE Gen3 x16接口,控制電路只有2%。

2、為了降低功耗,提高性能,目前這款TPU的幾個設計指導原則是:增加數據帶寬,減少和host CPU的交互,不讓乘加器陣列閒著。所以用了24MB的片上Memory,多DDR3接口用於數據交換,4階CISC指令流水線保證MatrixMultiply優先級。帶來的代價就是大的die size,主頻不高。

3、考慮現有生態環境,TPU軟件要和CPU/GPU兼容。

4、稀疏化應是TPU以後的開發重點,論文來頭就提到壓縮到8位整數用於inference已經足夠好了。

5、這麼貴的芯片,我也就是看看......

Xtecher也專門採訪了國內創業公司縱目科技CEO唐悅:

這個東西實際跟視頻解碼一個道理,人工智能你能夠拿CPU來做也可以拿GPU來做,當它算法相對固定之後,你就可以專門去打造專用硬件。實際上各種各樣的東西都能夠實現一個目標,問題在於靈活度和專業性兩個方向如何把握。如果當前算法沒有固定,那就應該多用CPU和GPU,如果算法固定了,那麼就可以嘗試打造專用芯片。而事實上,人工智能恰巧處於這兩個方向的變化當中。

因為之前神經網絡一直在變,完全可編程的GPU更加適合用來探索,CPU以為並行能力比較弱還是定位在通用處理器。但隨著人工智能技術的推進,我們就能夠根據目前人工智能的需求來專門打造芯片,它比本身為圖像運算打造的GPU更加專注,自然效果更好。

這跟很多人現在用FPGA去運算也是一樣的,因為專用的硬件比通用的硬件性能一定更好。反過來說,究竟這個負責人工智能的處理器叫什麼完全沒有所謂。同樣的,這件事Google可以做,高通也在做,這並不是什麼特別的神奇的東西。

Google自己怎麼說?

大驚小怪,Google公佈TPU論文怎麼了?

去年年中,谷歌全球數據中心網絡主管烏爾斯·霍勒澤(Urs H lzle)就曾在公開場合對TPU的一系列問題進行了公開解答:

Google今後還將研發更多這樣的芯片。

Google不會把這種芯片出售給其他公司,不會直接與英特爾或NVIDIA進行競爭。但Google擁有龐大的數據中心,是這兩家公司迄今為止最大的潛在客戶。與此同時,隨著越來越多的企業使用谷歌提供的雲計算服務,它們自己購買服務器(和芯片)的數量就會越來越少,也就給芯片市場帶來進一步的衝擊。

TPU目前(當時)主要用來處理Android手機語音識別所需要的“一部分計算”。GPU已經在一點點出局。GPU太通用了,對於機器學習針對性不強。機器學習本來就不是GPU的設計初衷 。

之所以不採用更加方便的方式——直接在FPGA基礎上固化算法,是因為ASIC快得多。

TPU背後的人工智能趨勢?

大驚小怪,Google公佈TPU論文怎麼了?

既然TPU只不過是一顆帶有人工智能“光環”的ASIC,那麼它究竟反映出了什麼趨勢?

首先是專注人工智能領域硬件的市場巨大,雖然CPU/GPU已經提供了通用運算能力,但是性能更好,能效比更高的FPGA、ASIC需求日趨強烈。

二個是隨著人工智能技術的進一步發展,硬件專業化趨勢不可避免。就像比特幣挖礦一樣,主力挖礦設備從CPU到GPU,從GPU到FPGA,最後再到ASIC。

除了Google,很多公司其實也在進行著類似的專業化硬件開發工作,相信不久的將來,一大批專業化硬件的出現將會為人工智能的發展再次注入動力,促進更多應用場景和更優質服務的出現。

總的來看,TPU的確算是人工智能發展歷程中的一個“小里程碑”,但真的沒有什麼好大驚小怪的。

相關推薦

推薦中...