'4.6萬mm²！40萬核心！全球最大AI芯片意義何在？'

人工智能 GPU 臺灣積體電路製造公司通信技術硬件英偉達軟件算法電腦設計斯坦福大學芯智訊 2019-08-21

當地時間8月18日，半導體行業盛會——Hotchips國際大會在美國斯坦福大學舉行。在此次會上，芯片初創公司Cerebras在Hot Chips上展出了號稱是“世界上最大”的半導體AI芯片Wafer Scale Engine（以下簡稱“WSE”）。

全球最大AI芯片：46225mm²，1.2萬億晶體管

據介紹，WSE芯片基於臺積電16nm工藝，核心面積超過46225mm²，集成了高達1.2萬億個晶體管。這是個什麼概念呢？

目前最大的GPU芯片——NVIDIA用於AI加速的GV100大核心，集成了211億晶體管（核心面積815mm²）。WSE芯片晶體管數量是這個最大的GPU芯片的60倍，面積則是它的56倍多。

全球最大AI芯片：46225mm²，1.2萬億晶體管

據介紹，WSE芯片基於臺積電16nm工藝，核心面積超過46225mm²，集成了高達1.2萬億個晶體管。這是個什麼概念呢？

全球最大AI芯片：46225mm²，1.2萬億晶體管

據介紹，WSE芯片基於臺積電16nm工藝，核心面積超過46225mm²，集成了高達1.2萬億個晶體管。這是個什麼概念呢？

以晶圓的面積來作為比較的話，WSE芯片的面積比8英寸的晶圓的面積還要大，當然，比12英寸的晶圓的面積還是要小一些。也就是說一塊12英寸的晶圓可能只能產出一個WSE芯片，這確實有點嚇人。全球最大芯片確實不是“浪得虛名”。

全球最大AI芯片：46225mm²，1.2萬億晶體管

據介紹，WSE芯片基於臺積電16nm工藝，核心面積超過46225mm²，集成了高達1.2萬億個晶體管。這是個什麼概念呢？

史上最大芯片跟網球對比

Cerebras 表示，如果沒有多年來與臺積電(TSMC)的密切合作，他們不可能取得這個創紀錄的成就。臺積電是全球最大的半導體代工廠，在先進工藝技術方面處於領先地位。WSE芯片由臺積電採用先進的16nm製程技術製造。

400000個AI優化的內核

WSE包含40萬個AI優化的計算內核(compute cores)。這種計算內核被稱為稀疏線性代數核(Sparse Linear Algebra Cores, SLAC)，具有靈活性、可編程性，並針對支持所有神經網絡計算的稀疏線性代數進行了優化。SLAC的可編程性保證了內核能夠在不斷變化的機器學習領域運行所有的神經網絡算法。

全球最大AI芯片：46225mm²，1.2萬億晶體管

據介紹，WSE芯片基於臺積電16nm工藝，核心面積超過46225mm²，集成了高達1.2萬億個晶體管。這是個什麼概念呢？

史上最大芯片跟網球對比

400000個AI優化的內核

由於稀疏線性代數內核是為神經網絡計算進行優化的，因此它們可實現業界最佳利用率——通常是GPU的3倍或4倍。此外，WSE核心還包括Cerebras發明的稀疏捕獲技術，以加速在稀疏工作負載(包含0的工作負載)上的計算性能，比如深度學習。

零在深度學習計算中很普遍。通常，要相乘的向量和矩陣中的大多數元素都是0。然而，乘以0是浪費硅、功率和時間的行為，因為沒有新的信息。

因為GPU和TPU是密集的執行引擎——引擎的設計永遠不會遇到0——所以它們即使在0時也會乘以每一個元素。當50-98%的數據為零時，如深度學習中經常出現的情況一樣，大多數乘法都被浪費了。由於Cerebras的稀疏線性代數核心永遠不會乘以零，所有的零數據都被過濾掉，可以在硬件中跳過，從而可以在其位置上完成有用的工作。

超大的片上內存

內存是每一種計算機體系結構的關鍵組成部分。靠近計算的內存意味著更快的計算、更低的延遲和更好的數據移動效率。高性能的深度學習需要大量的計算和頻繁的數據訪問。這就要求計算核心和內存之間要非常接近，而在GPU中卻不是這樣，GPU中絕大多數內存都很慢，而且離計算核心很遠。

WSE芯片包含了比迄今為止任何芯片都要多的內核和本地內存，並且在一個時鐘週期內擁有18GB的片上內存。WSE上的核心本地內存的集合提供了每秒9 PB的內存帶寬——比最好的GPU大3000倍的片上內存和10000倍的內存帶寬。

低延遲、高帶寬的獨特通信結構

Cerebras WSE芯片內部擁有高達40萬個內核，由於這些內核和片上內存都是集成在單個晶圓上互連的單芯片，核心更靠近內存，所有通信也都在芯片上進行，通信帶寬高、延遲低，因此核心組可以以最高效率進行協作。

此外，WSE上還使用了處理器間通信結構Swarm，它以傳統通信技術功耗的一小部分實現了帶寬的突破和低延遲。Swarm提供了一個低延遲、高帶寬的2D網格，它將WSE上的所有400,000個核連接起來，每秒的帶寬總計達100 petabits。

要知道NVIDIA的NVLink 2.0最大帶寬也不過300GB/s，算下來也就是2.4Tb/s，WSE的內部帶寬是現有水平的3.3萬倍之多。

路由、可靠的消息傳遞和同步都在硬件中處理。消息會自動激活每個到達消息的應用程序處理程序。Swarm為每個神經網絡提供了一個獨特的、優化的通信路徑。軟件根據正在運行的特定用戶定義的神經網絡的結構，配置通過400,000個核心的最優通信路徑，以連接處理器。

典型的消息遍歷一個具有納秒延遲的硬件鏈接。一個Cerebras WSE的總帶寬是每秒100 PB。不需要TCP/IP和MPI等通信軟件，因此可以避免性能損失。這種結構的通信能量成本遠低於遠低於每比特 1 焦耳，比GPU低了近兩個數量級。結合了巨大的帶寬和極低的延遲，Swarm通信結構使 Cerebras WSE比任何當前可用的解決方案學習得更快。

為AI而生

正如前面所介紹的，Cerebras WSE中的46,225平方毫米的芯片面積上包含40萬個AI優化的核心，無緩存、無開銷的計算內核，以及和18千兆字節的本地化分佈式超高速SRAM內存，內存帶寬為每秒9 PB。這些核心通過細粒度、全硬件、片上網狀連接通信網絡連接在一起，可提供每秒100 petabits的總帶寬。更多核心、更多本地內存和低延遲高帶寬結構，共同構成了面向AI加速任務的最佳架構。

“Cerebras WSE”專為人工智能設計而設計，其中包含了不少基礎創新，解決了限制芯片尺寸的長達數十年的技術挑戰 - 如良品率，功率傳送、封裝等，推動了最先進技術的發展和包裝，每個架構決策都是為了優化AI工作的性能。結果是，Cerebras WSE根據工作量提供了數百或數千倍的現有解決方案的性能，只需很小的功耗和空間。”Cerebras Systems首席執行官的Fieldman說。

通過加速神經網絡訓練的所有元素來實現這些性能提升。神經網絡是一種多級計算反饋迴路。輸入在循環中移動速度越快，循環學習的速度越快，即訓練時間越短。可以通過加速循環內的計算和通信來加速輸入的循環速度。

“雖然AI在一般意義上被使用，但沒有兩個數據集或兩個AI任務是相同的。新的AI工作負載不斷湧現，數據集也在不斷變大，”Tirias Research首席分析師兼創始人Jim McGregor在一份聲明中表示。“隨著AI的發展，芯片和平臺解決方案也在不斷髮展。Cerebras WSE是半導體和平臺設計方面的一項驚人的工程成就，它在單個晶圓級的解決方案中提供了超級計算機級的計算能力、高性能內存和帶寬。”

Cerebras面臨的挑戰

Cerebras Systems公司位於美國加州Los Altos，擁有194名員工。Andrew Feldman是Cerebras Systems公司的CEO，他曾創建微型服務器公司SeaMicro，並以3.34億美元的價格賣給了AMD。

全球最大AI芯片：46225mm²，1.2萬億晶體管

據介紹，WSE芯片基於臺積電16nm工藝，核心面積超過46225mm²，集成了高達1.2萬億個晶體管。這是個什麼概念呢？

史上最大芯片跟網球對比

400000個AI優化的內核

零在深度學習計算中很普遍。通常，要相乘的向量和矩陣中的大多數元素都是0。然而，乘以0是浪費硅、功率和時間的行為，因為沒有新的信息。

超大的片上內存

低延遲、高帶寬的獨特通信結構

要知道NVIDIA的NVLink 2.0最大帶寬也不過300GB/s，算下來也就是2.4Tb/s，WSE的內部帶寬是現有水平的3.3萬倍之多。

為AI而生

Cerebras面臨的挑戰

Cerebras CEO Fieldman與 SeaMicro box最初版本合影

芯片尺寸在AI任務中非常重要，因為大尺寸芯片可以更快地處理信息，在更短的時間內給出答案。這能夠減少“訓練時間”，使研究人員能夠測試更多想法，使用更多數據並解決新問題。谷歌、Facebook、OpenAI、騰訊、百度和許多企業都認為，今天制約AI發展的基本限制是訓練模型需要的時間太長。因此，縮短訓練時間有望消除整個行業取得進步的主要瓶頸。

當然，芯片製造商通常不會製造這麼大的芯片。在單個晶片的製造過程中通常會出現一些雜質。如果一種雜質會導致一塊芯片發生故障，那麼晶圓上的多種雜質就會導致多塊芯片出問題。實際製造出的芯片產量僅佔實際工作芯片的一小部分。如果晶圓上只有一個芯片，它有雜質的機率是100％，雜質會使芯片失效。但Cerebras設計的芯片留有冗餘，一種雜質不會導致整個芯片都不能用。

不過即便如此，Cerebras WSE芯片的面積也已經超過了單個8英寸晶圓的面積，這也意味著製造一個WSE芯片可能就需要一個12英寸的晶圓，並且對於這個正方形的芯片來說，用12英寸的晶圓來生產還會有較大的浪費。此外，由於單個12英寸晶圓只能生產一個WSE芯片，這也使得WSE芯片的量產和良率提升將會變得非常的困難，成本也將極其的高昂。

如此大的面積將使得WSE芯片在後續的應用當中也將會遇到很多的問題，比如需要定製巨大的PCB板，貼片也是問題，還需要非常多的周邊器件來配合，這也使得最終的終端產品體積將會非常的巨大，另外其功耗、散熱也是很大的問題。根據官方的數據顯示，WSE芯片的功耗為15千瓦。

所以，有網友質疑稱，“這麼大的芯片貼在PCB上，要是稍微出現熱脹冷縮或者翹曲，焊球陣列可能得崩掉一片”。不過也有業內人士表示，“WSE芯片可以不需要PCB，數據直接接光模塊傳輸”。

此外，要想很好的利用這顆芯片，必須要配套的系統和軟件。官方稱，WSE僅支持在極少數系統中運行，但是並未指出可以在哪些系統中運行。

而且WSE內部擁有40萬個內核，如何合理的調配這40萬個內核也是一個大的難題，如果不能最高效的讓這40萬個內核同時工作，那麼做這麼大個芯片其實是沒有太大意義的。也就是說需要適合的任務和算法來配套發揮出WSE芯片的能力才有實際的意義。這就像超級計算機一樣，如果沒有適合的足夠多的任務來滿負荷運轉，其實是會存在非常大的浪費的。

值得注意的是，隨著摩爾定律的推進越來越困難，芯片的製造封裝開始由傳統的2D轉向2.5D/3D，目前chiplet多個小芯片組合或堆疊在一起的2.5D/3D封裝成為大勢所趨，再加上新的高速互聯技術的不斷湧現，未來，WSE芯片這類的單晶圓芯片在低延遲上的優勢可能將會被進一步弱化，但是WSE芯片所面臨的量產、良率、成本、功耗、散熱等問題卻是非常難以解決的。

編輯：芯智訊-林子綜合自網絡

原文鏈接：

https://venturebeat.com/2019/08/19/cerebras-systems-unveils-a-record-1-2-trillion-transistor-chip-for-ai/amp/?from=timeline

'4.6萬mm²！40萬核心！全球最大AI芯片意義何在？'

相關推薦