做核彈就服黃總!NV全新架構GPU核心解析:211億晶體管

GPU 英偉達 黃仁勳 武器 快科技 2017-05-13

年度GTC技術大會上,NVIDIA CEO黃仁勳首次宣佈了其下一代GPU架構,代號“Volta”(伏特),包括頂級的GV100大核心,以及Tesla V100高性能計算卡。

NVIDIA是在2013年第一次透露Volta架構的,原計劃在Maxwell(麥克斯韋)架構之後上馬,但因為某些原因,臨時增加了一個Pascal(帕斯卡)。

據悉,Volta架構的研發投入達到了30億美元,創造了NVIDIA的歷史新高。

Volta家族的頂級核心代號GV100,將會取代GP100成為新的旗艦。

做核彈就服黃總!NV全新架構GPU核心解析:211億晶體管

它採用臺積電專門為NVIDIA定製的12nm FFN新工藝(N代表NVIDIA),或者說是16nm FinFET的改良升級版,集成多達211億個晶體管,核心面積達到了恐怖的815平方毫米,相比於GP100分別增加了38%、34%,順利成為史上第一大GPU核心。

做核彈就服黃總!NV全新架構GPU核心解析:211億晶體管

其內部擁有5376個32位浮點核心、2688個64位浮點核心(還是2:1),劃分為84組SM陣列、42組TPC陣列、7組GPC陣列,同時搭配336個紋理單元,都比GP100增加了40%,同時還首次加入了672個Tensor Core。

Tensor Core是一種新的核心,專門為深度計算操作加入的,更加剛性,不那麼彈性,但是依然可以編程。

它本質上是一系列ALU單元的集合,可以執行4x4矩陣操作、融合乘加操作(A×B+C),還可以計算兩個4xx 16位浮點矩陣的乘積,再加上一個4x4 16/32位浮點矩陣,得到一個4x4 32位矩陣。

通過在一個單元內執行大規模的矩陣乘積操作,GV100可以獲得更強大的浮點計算性能。單個Tense Core每時鐘週期能執行64個FMA操作(128FLOPS),官方號稱整體性能比Pasal提升4倍。

做核彈就服黃總!NV全新架構GPU核心解析:211億晶體管

每個SM陣列還擁有128KB一級緩存/共享內存,GP100核心則是24KB一級緩存/紋理緩存、64KB共享內存,總的二級緩存容量也從4MB增至6MB,不過每SM 256KB寄存器的規模沒變。

顯存還是搭配HBM2,位寬不變4096-bit,堆疊也是四個,只是頻率提高了25%,但是得益於更好的顯存效率,帶寬增長了50%

新的互連總線NVLink 2可以提供25GB/s的雙向帶寬,提升40%,而且每個核心擁有六條之多(GP100兩條),並支持緩存一致性,預計會搭配IBM Power9處理器。

做核彈就服黃總!NV全新架構GPU核心解析:211億晶體管

NVIDIA還透露,Volta核心及大地改變了SIMT(單指令多線程)的工作方式,32個線程束內的每個CUDA核心都有一定程度的自治,線程同步精度更高,整體效率自然有所提升。

更重要的是,單個線程可以獨立完成然後重新調度到一起,這意味著有限的調度硬件又回到了NVIDIA GPU。

做核彈就服黃總!NV全新架構GPU核心解析:211億晶體管

做核彈就服黃總!NV全新架構GPU核心解析:211億晶體管

說完Volata GV100核心,再來看看首款基於它的產品Tesla V100。

和前任Tesla P100一樣,它也不是滿血的,只開啟了80組SM陣列、5120個流處理器,顯然是出於良品率的考慮。

其加速頻率只有1455MHz,略微降低了一些,但憑藉新的架構和更大規模的計算單元,性能大漲了足足42%:16位浮點30TFlops、32位浮點15TFlops、64位浮點7.5TFlops(4:2:1)。再加上Tensor單元的120TFlops,整體提升多達6-12倍。

Tesla V100還是搭配16GB HBM2,位寬不變,不過頻率從1.4GHz提高到了1.7GHz。

它依然採用了和Tesla P100類似的特殊造型,NVIDIA稱之為SXM2,接口應該也是新的,針腳更多,但暫未透露細節。

Tesla V100的熱設計功耗還是300W,但是號稱效率更高。

Tesla V100將首先以DGX-1V服務器的方式出貨,一臺整合八顆GPU核心,價格14.9萬美元,第三季度發貨。

做核彈就服黃總!NV全新架構GPU核心解析:211億晶體管

另外,NVIDIA還宣佈了兩個PCI-E版本的V100核心產品,其一是250W功耗的全尺寸擴展卡,其二是150W的半高全長樣式,用於高密度計算。

做核彈就服黃總!NV全新架構GPU核心解析:211億晶體管

相關推薦

推薦中...