第一代是CPU,第二代是GPU,第三代是什麼?AI芯片!

GPU CPU 機器學習 Google 互聯網吐槽家 2017-06-12

先是CPU,後來是GPU。接下來是什麼?人工智能芯片怎麼樣?

要是你還沒有聽說過使用深度神經網絡和深度學習來處理從語音識別到實現自動駕駛汽車各項任務的人工智能和機器學習熱潮,那麼恐怕還沒有聽說過谷歌新的Tensor處理單元(TPU)、英特爾的Lake Crest或者Knupath的Hermosa。多家廠商期望提供針對神經網絡的平臺,這些只是其中的幾個代表。

谷歌TPU

TPU含有一個龐大的8位矩陣乘法單元(見圖1)。它實際上優化了DNN所需要的數字處理,因而不需要大型的浮點數字系統。

第一代是CPU,第二代是GPU,第三代是什麼?AI芯片!

圖1:谷歌的TPU有一個龐大的8位矩陣乘法單元,幫助它為深度神經網絡處理數字。

TPU實際上是由傳統主機CPU通過TPU的PCI Express接口來管理的一種協處理器。TPU芯片的運行速度只有700 MHz,不過說到DNN加速,它卻可以擊敗CPU和GPU系統。雖然沒有明確作為一種DNN處理器,但是它可以處理繁重任務,耗電量卻只有40瓦。它有28 MB的板載內存以及4MB內存(表現為32位累加器用來編譯來自矩陣乘法單元的16位結果)。該芯片使用28納米工藝,晶片尺寸約600 平方毫米。《分析Tensor處理單元在數據中心中的性能》(https://drive.google.com/file/d/0Bx4hafXDDq2EMzRNcy1vSUxtcEk/view)一文介紹了更多的技術細節。

TPU板卡(圖2)的執行速度可達到92 TeraOps/s(TOPS)。這比處理同一任務的CPU和GPU快15倍至30倍,每瓦TOPS方面提升30倍至80倍。用來比較系統的軟件是TensorFlow框架。

第一代是CPU,第二代是GPU,第三代是什麼?AI芯片!

圖2:谷歌的TPU模塊旨在將一排排插槽插入到雲數據中心。

要牢記的一個方面是,TPU比較是針對侷限性方面進行的。大多數CPU是64位平臺,GPU可能擁有更寬的字寬。它們還往往針對更龐大的數據項進行了優化,不過大多數系統支持比較小的字(包括8位向量運算)。同樣,不同的神經網絡應用得益於不同的配置,但是比較小的8位整數已廣泛應用於許多DNN應用。

TPU有五種主要的指令:

  • Read_Host

  • Read_Weights

  • 矩陣乘法/卷積

  • 激活

  • Write_Host

寬度是神經網絡裡面的值,被矩陣乘法單位所使用。激活函數為人工神經元執行非線性操作。

谷歌的TPU有望減少對更龐大數據中心的需要,不然,這種數據中心需要多得多的CPU和GPU來處理人工智能應用,應用領域廣泛:從語音識別及分析、圖像及視頻處理、通過搜索提供服務,到那些小巧的Google Home系統,不一而足。

英特爾Lake Crest

Lake Crest(圖3)是旨在補充多核至強Phi的英特爾平臺的代號。至強Phi負責處理許多人工智能事務,但是面對谷歌的TPU或英特爾的Lake Crester可以更高效地輕鬆處理的應用時卻顯得力不從心。Lake Crest技術最初是由Nervana開發的,這家公司並不隸屬英特爾。

第一代是CPU,第二代是GPU,第三代是什麼?AI芯片!

圖3:英特爾的 Lake Crest使用針對人工智能應用而優化的處理集群。

新芯片將採用眾多先進的功能特性,從多芯片模塊(MCM)設計,到“Flexpoint”架構(擁有十多個專門的多核處理節點,類似TPU的矩陣乘法單元),不一而足。該芯片會有32 GB的高帶寬內存2(HBM2),通過中介層(interposer),可獲得8 TB/s的聚合帶寬。HBM2在高性能的片上系統(SoC)和GPU中司空見慣。Lake Crest沒有任何緩存。軟件將用來優化內存管理。

Lake Crest預計會在2017年面市。

Knupath Hermosa

Knupath的Hermosa(圖4)擁有64個DMA引擎和256個數字信號處理(DSP)核心,組織成8個集群,每個集群的8個核心由Lambda Fabric加以連接。Lambda Fabric還旨在以一種低延遲、高吞吐量的網狀網來連接成千上萬個Hermosa處理器。

第一代是CPU,第二代是GPU,第三代是什麼?AI芯片!

圖4:Knupath的Hermosa多核處理器有256個DSP核心,這些核心採用8個集群來組織,每個集群的8個核心由Lambda Fabric加以連接。

Hermosa有一隻集成的L1路由器,擁有32個端口和1 Tbps帶寬。對外連接包括16個10 Gbps雙向端口。該芯片有72 MB數據內存(分成32排)和2MB程序內存。

雖然Hermosa面向人工智能應用,但是相比更專用的Lake Crest或TPU平臺,它卻更加類似多核至強Phi。Hermosa可提供每秒3840億次浮點運算(384 GFLOPS)的計算能力,耗電量卻只有34瓦,因而非常適合一系列廣泛的應用,而不僅僅是人工智能應用。

GPGPU繼續唱主角(眼下)

英偉達和AMD在GPU平臺方面有既得利益,這些GPU平臺一向是大多數高端神經網絡處理工作的基礎。隨著專門的人工智能芯片變得普及起來,這種情況可能會發生變化。問題在於,這些芯片針對特定應用的定製性有多強、它們有多普及,以及用於不同的應用領域效果有多好。

眼下,像英偉達的Jetson TX2這些GPU平臺用於從無人機到醫療設備的各種系統中。實際上還有可能用於英特爾的小型Curie模塊中的人工智能加速器。一種尺寸適合不了所有需求,但是人工智能對於計算機應用而言的重要性只會越來越強。

相關推薦

推薦中...