英偉達:AI芯片還可以這樣做

來源:本文由公眾號半導體行業觀察(ID:icbank)翻譯自「wikichip」,謝謝。

過去一年,我們看到了來自工業界的新研究芯片的洪流。基於芯片的新設計和新的神經處理器體系結構比比皆是。在早前舉辦的2019年超大規模集成電路(VLSI)研討會上,我們看到了一個由英偉達製作的一個有趣的研究芯片,在這裡我們來披露一下。

研究芯片2018 - RC 18

Nvidia的研究芯片並沒有引人注目的代號。相反,它簡稱為2018研究芯片或“RC 18”。儘管該芯片是在今年早些時候在2019年GPU技術大會(GTC)上首次談到,但直到本月早些時候在日本京都舉行的2019年VLSI研討會上才公佈了技術細節。Nvidia的高級研究科學家Brian Zimmer對該芯片做了詳細介紹。

順便說一下,我們想指出的是,像英特爾和英偉達這樣的半導體公司,出於探索性的原因,通常每年都會設計幾個這樣的研究芯片。以幫助他們瞭解哪些可以工作,哪些在實踐中不能工作,為什麼這樣做,以及涉及到哪些挑戰。從這項研究中獲得的知識將應用到未來的產品中。雖然像英特爾這樣的公司有時會在各種IEEE會議上展示多達幾十個研究芯片,但看到英偉達談論其內部研究芯片的情況相當罕見。

該研究芯片試圖展示幾種不同的技術:

  • 面向對象的邏輯合成

  • 細粒度全局異步局部同步(GALS)SoC設計

  • 裸片到裸片以地為參考的單端串行鏈路(GRS)

  • 可伸縮的( scalable)神經處理器加速器架構

請注意,並非所有內容都經過專門討論。具體而言,未討論面向對象的邏輯綜合方面的開發。

用於推理的神經處理器的一個相對獨特的方面是根據目標市場必須涵蓋的廣泛應用,性能和功率範圍。例如,由於允許的功率預算通常是幾百瓦,數據中心中的推斷可以輕鬆地以每秒儘可能多的操作完成。雖然工程師希望在他們的自動駕駛汽車中擁有這樣的性能,但動力是一個難以克服的障礙。因此,通常選擇一個更平衡的性能power point。同樣的,手機的電量預算只有幾瓦,而在天平的末端是一些邊緣設備,它們只需要幾毫瓦的電量就能延長電池壽命。

很可能,許多神經處理器的另一個獨特之處是,假設它們不受內存限制,那麼隨著計算能力的提高,它們的可擴展性(scala)會更好。擴展能力很適合基於芯片的方法。本研究的主題是能夠使用多個單一裸片來構建多個具有不同功率和性能要求的系統。

英偉達:AI芯片還可以這樣做

Test Chip Overview (VLSI 2019, Nvidia)測試芯片概述(VLSI 2019,Nvidia)

對於這個研究芯片,英偉達決定從一個裸片擴展到36個裸片系統。設計這樣的體系結構有其自身的挑戰。必須證明,這樣的系統能夠從毫瓦擴展到100瓦,並在沿途的每個點上提供成比例的性能縮放。這必須做到從一個裸片直到36個裸片系統都沒有效率損失。為了使更大的系統能夠減少延遲,還必須演示強大的可縮放性,而延遲對於諸如汽車應用程序之類的領域是至關重要的。

裸片

從單裸片到36芯片系統,所有裸片都是相同的。在臺積電16納米節點上製造,每個裸片佔據正好6平方毫米的硅,工業標準尺寸適中,但對於研究芯片來說還不夠大(這將在後面進一步討論)。每個芯片上有一個由16個處理元件組成的網絡,一個存儲中間激活的全局緩衝區,NoC,NoP和一個管理RISC-V內核。

英偉達:AI芯片還可以這樣做

RISC-V Core RISC-V 核心

該芯片採用基於開源Rocket可配置內核的單個RISC-V內核。這是一個有序的5級流水線核心,可與Cortex-A5相媲美,具有更好的面積,性能和功效。

英偉達:AI芯片還可以這樣做

Scaling 縮放

為了將架構縮放成許多小芯片,Nvidia實現了網絡封裝。每個芯片上有八個接地參考信令(GRS)宏。每個羅盤方向有一對用於發送和接收的宏。這些宏可在北,南,東和西方向上發送或接收100 Gbps。

英偉達:AI芯片還可以這樣做

在這項研究中,Nvidia在單個有機基板上組裝了多達36個連接在一起的小芯片。前六個芯片具有連接到外部世界的通用I / O. 包裝本身為47.5毫米×47.5毫米,相對於它所攜帶的模具數量而言相對較小。值得注意的是,Nvidia選擇了標準的有機基板,而不是CoWoS等替代封裝技術,由於經濟原因,它具有更好的I / O密度和凸點間距。對於許多市場來說,硅插入器太昂貴了。

die配置為具有大導線的網狀拓撲,其不能在不損害功率輸送的情況下在die上路由。每個宏都有一個時鐘脈衝和四個數據脈衝。請記住,這是在標準有機基板上使用標準的150μm凸點間距。接地參考信令(GRS)是單端鏈路,旨在利用傳統的廉價有機封裝和電路印刷板。這些是使用單端信令的短距離(約80mm範圍)鏈路。

歷史上,由於其固有的抗噪聲性和較低的功率特性,差分信令已經優選用於這樣的高速信令信道。為了克服其中一些問題,尤其是與同步開關噪聲和信號完整性有關的問題,Nvidia GRS鏈路使用接地作為電壓參考,因為其堅固性和最低阻抗。返回電流僅在地面上流動,信號在相對於地的兩個+ Vs和-Vs電壓源之間對稱驅動(換句話說,信號在地下或地上發送)。這是低擺幅信號,因此您可以看到大約200 mV的峰峰值。時鐘也被轉發。

英偉達:AI芯片還可以這樣做英偉達:AI芯片還可以這樣做

Loading Dat 加載數據

芯片一次在一層上操作,每層可能具有不同的輸入和輸出尺寸以及預定的權重。輸入的特徵在於具有C通道的H乘以W的大小。因此,輸入乘以具有C通道的R乘以S的權重內核大小。因此,輸出激活大小是P乘以K輸出通道的Q倍。

然後,芯片將R x S x C輸入元件乘以R x S x C權重,最後將所有值相加,以創建1x1x1輸出。重複P×Q×K次。輸入在所有芯片之間是均勻分佈的。在每個芯片內,然後將輸入分配到NoC上的所有處理元件。頂部芯片將其輸出傳送到底部芯片,用於累積所有C輸入通道。

英偉達:AI芯片還可以這樣做

Loading Data (PEs) 加載數據(PEs)

實際的tiling 是軟件可編程的,唯一固定的約束是處理元件中只有八個輸入和輸出通道(詳見下一節)。數據到達每個小芯片的全局緩衝區。在單個die內,權重和輸入的分佈遵循與包級分佈相同的方案。輸入在處理元件上傳播,而交叉PE輸出累積向下級聯。

英偉達:AI芯片還可以這樣做

Processing Element處理元件

處理元件是芯片的主力執行單元。除了操作的開始和結束之外,PE在沒有任何全局同步邏輯的情況下自主地操作。復位後操作開始。此時,權重進入並密集存儲在本地32 KiB權重緩衝區中。同樣,輸入激活被饋送到本地8 KiB激活緩衝器。當所有數據都可用時,可以開始MAC操作。有八個通道,每個通道對應一個輸出通道。在每個通道中讀取不同的權重,在讀取一次之後在所有通道上共享輸入。

每個通道是一個 8-wide矢量MAC元件,同時在8個輸入通道上運行。通過8個通道,您可以查看每個週期64個MAC的峰值計算。PE從重量緩衝器讀取每個PxQ(卷積結果的寬度和高度)循環,同時每個循環從輸入緩衝器讀取。

英偉達:AI芯片還可以這樣做

請記住,工作負載在所有PE之間分開。由於每個PE都在處理通道的子集,因此最終值必須通過PE運出,以便彙總輸出。最後,計算輸出激活。

英偉達:AI芯片還可以這樣做

每個PE每個週期能夠進行64位8位乘法累加。每個芯片中有16個PE,每個週期總共執行1024個MAC。

性能

一些相當過時的網絡被用於測試。在AlexNet上,他們報告了32,369個週期的測量延遲,相當於75%的利用率。ResNet-50具有較強的結垢能力。它還表明,相當一部分時間花在多芯片RISC-V同步操作。總而言之,一個芯片可以在161兆赫到2兆赫之間工作,消耗30兆瓦到4w,性能從320 MOPS到4陀螺不等。對於最大的配置36個芯片,多達128個頂部可以實現1.8 GHz的運行和消耗約110 W。

英偉達:AI芯片還可以這樣做英偉達:AI芯片還可以這樣做

更深入的分析

應該注意的第一件事是缺少內存控制器的整個方面。目前,採用具有低帶寬存儲器系統的FPGA。模型逐層操作。目前的設計假設一切都適合片上。隨著FPGA工作的加重,看看如何實現分佈式內存控制器on-die以可伸縮的(scalable)方式完全支持芯片上的這一功能,將是一件有趣的事情。這還必須考慮原始的伸縮(scaling要求。通過從毫瓦到功耗預算的100瓦特,可以預期內存預算和功能的類似縮放。

裸片本身很小。芯片到芯片的互連構成了芯片的很大一部分,但是遠未得到充分利用。用於這項研究的小裸片是其約束的一部分,這是可以理解的。通過我們的測量,收發器佔用的硅比處理元件多出約30%。更加理想的是具有更大的加工元件網格的更強的裸片。互連將能夠支持這一點,並且每個小芯片最終將更加平衡。

還有一個方面是進一步擴展。開發的GRS Nvidia不僅可以縮放到同一封裝中的其他裸片,還可以縮放到多個封裝。看起來英偉達並沒有嘗試向外擴展到一個更大的系統,但是看看144個芯片和半個peta-ops (pop)計算系統的擴展效果一定會很有趣。

鋪墊

該芯片允許Nvidia調查各種技術的影響,包括他們已經研究了超過五年的地面參考信令鏈路。在去年的VLSI研討會上,Bill Dally發表了一個主題演講,他表示類似的信令技術將使Nvidia能夠縮放,因為生產更小的芯片變得更有利,因為前沿節點的成本不斷上升。他概述的一個想法是帶有共同封裝DRAM的2×2 GPU陣列。然後將該板集成在具有2×2個這樣的板的較大板上,總共16個GPU。他進一步建議,然後可以在網格圓環拓撲中縮放這些板。

英偉達:AI芯片還可以這樣做

*免責聲明:本文由作者原創。文章內容系作者個人觀點,半導體行業觀察轉載僅為了傳達一種不同的觀點,不代表半導體行業觀察對該觀點贊同或支持,如果有任何異議,歡迎聯繫半導體行業觀察。

半導體行業觀察

半導體第一垂直媒體

實時 專業 原創 深度

回覆 投稿,看《如何成為“半導體行業觀察”的一員 》

回覆 搜索,還能輕鬆找到其他你感興趣的文章!

相關推薦

推薦中...