芯片隨意組合,英偉達將深度學習推向極致


芯片隨意組合,英偉達將深度學習推向極致

【新智元導讀】英偉達詳細介紹了一種微型測試芯片,可以獨立完成底層工作;但當36個芯片團結起來時,性能可以提升32倍。與使用相同精度的先前原型相比,單個芯片的面積效率至少為16倍,能量效率為1.7倍。

如何確保在大型和小型任務之間切換,而不至於犧牲效率呢?顯然把單個的、實驗性的加速器芯片,變成可以隨意組合的模塊化形式,是一個具備可行性的解決方案,這也是英偉達在做的事情。

芯片隨意組合,英偉達將深度學習推向極致

作為GPU動力工廠,英偉達當然希望能夠為各種規模的AI任務提供解決方案:從大規模的數據中心任務、到始終在線的低功耗神經網絡(這些網絡需要監聽語音助理接收到的喚醒詞)。

這不是個簡單的任務,通常來說需要將幾種不同的技術混合使用。可是,這樣的方式顯然不如只部署一種好。

英偉達一直在尋求“one ring to rule them all”的解決方案:是否可以構建一些可擴展的模塊化產品,同時在整個環節中又不過多浪費每個瓦特的效率呢?其首席科學家Bill Dally說,英偉達最終找出了答案。答案是肯定的。

上個月舉行的VLSI研討會上,英偉達詳細介紹了一款小巧的測試芯片,它可以獨立完成底層的工作,也可以在一個模塊中與多達36個同類型芯片緊密聯繫,進行深度學習一類的重任務,而且每個芯片都實現了大致相同的頂級性能。

單個加速器芯片更多的是被設計成為深度學習的執行方,而不是訓練方。工程師測量這種“推理”芯片的性能的方式,通常是根據每焦耳能量或毫米麵積可以進行多少次操作。

芯片隨意組合,英偉達將深度學習推向極致

英偉達原型芯片中,一個峰值可達到每秒4.01 Tera次操作(相當於每秒10000億次)和每毫米1.29 TOPS。

和其他組中使用相同精度的先前原型比,該單芯片的面積效率至少是這些原型的16倍,能量效率至少達到1.7倍。

而當36個芯片連接成為一個芯片系統後,它達到了127.8 TOPS,相當於性能提升了32倍!

通過這項研究,英偉達試圖證明,只用一種技術應對所有場景是可能的、也是可行的。或者,起碼當這些芯片和多芯片模塊中英偉達的網狀網絡連接在一起的時候,可以做得到。

這些模塊基本上是小型印刷電路板或硅片,它們也可以作為一個大型IC處理多個芯片。這種形式正變得越來越流行,因為可以將幾個較小芯片隨意組成系統(通常稱為小芯片,相對單一的更大、更昂貴的大芯片而言)。下圖是多芯片模塊的圖例:

芯片隨意組合,英偉達將深度學習推向極致

Dally解釋道:“多芯片模塊的形式具有很多優勢。不僅適用於未來可擴展的(深度學習)加速器,還適用於構建具有不同功能的加速器的產品版本。”

英偉達多芯片模塊之所以能夠將新的深度學習芯片綁定在一起,關鍵是一個使用了稱為“ground-referenced信號”技術的芯片間網絡。

顧名思義,GRS使用導線上的電壓信號和common ground之間的差來傳輸數據,同時避免了該方法的許多已知缺陷。

它可以使用單根線傳輸25GB/秒的數據,而大多數技術需要一對電線才能達到同樣的速度。使用單線可以提高每秒毫米邊緣流量的數據量,達到每秒高達幾TB的數據量。更重要的是,GRS的功耗僅為每比特幾皮焦。

不止如此,Dally還表示,他們已經完成了一個版本,使得該芯片的TOPS/W實現了翻倍。而他的團隊也在不斷推動新的加速技術,希望達到200 TOP/W的同時,仍然保持可擴展性。

參考鏈接:

https://spectrum.ieee.org/tech-talk/semiconductors/processors/nvidia-chip-takes-deep-learning-to-the-extremes

相關推薦

推薦中...