業界：開源硬件挑戰 GPU 計算極限

機器學習 GPU 編程語言 Facebook 機器之心 2017-04-12

選自：Nextplarform

機器之心編譯

參與：侯韻楚、黃小天

世界上的 hyperscaler 愈發依賴於機器學習算法，來提供其眾多應用程序中用戶體驗與操作的一個重要部分；因此他們也在挑戰機器學習框架以及被用來部署框架的系統的極限，而這並不值得大驚小怪。Facebook 和微軟在開放計算峰會（the Open Compute Summit）中展示了他們最新的 CPU-GPU 混合設計，並對如何最佳利用 Nvidia 最新的「Pascal」特斯拉加速器提出了一些洞見。

無獨有偶，為支持機器學習工作負載而創建的特殊系統，將會為特定種類的加速傳統型 HPC 工作負載，甚至是 GPU 加速的數據庫工作創建極佳的節點。對這一類有益的系統往往也會對另一類有益，並且 Facebook 和微軟的系統之間存在一定的相似性。例如胖節點將被用作未來「峰會」和「Sierra」超級計算的構建基塊，後者是由IBM、Nvidia 以及 Mellanox 公司組成的美國能源部建立。可以說，對擴展 GPU 計算能力舉足輕重的 NVLink 互連在設計時已經將 hyperscalers 和 HPC 店鋪考慮在內，但如今 hyperscalers 更熱衷於獲取 Pascal GPU 並將它們捆綁進入緊密耦合的計算複合體。他們還能從這方面的大量預算中獲益，而由政府和學術界資助的 HPC 中心存在著一些預算問題。儘管自從去年以來，Nvidia 一直在銷售自己的DGX-1 混合系統，但該系統從未以成為 hyperscalers 或 HPC 中心購買的產品（即數百或數千個節點）為目標，而是想要成為這樣的機器——使被選中的研究人員能在產品首次展示時獲得 Pascal GPU，並由此開始他們在機器學習方面的努力（當然也有例外，如日本 RIKEN 的新型 DGX-1 集群或 Nvidia 自己安裝的集群）。

2015年12月，社交媒體巨頭在 NIP 會議（神經信息處理系統會議，the Neural Information Processing Systems conference ）上公佈了首代服務器 Big Sur ，而 Facebook 在 OCP 峰會上揭幕的 Big Basin ceepie-geepie 系統便是其繼承者。Big Sur 填充了 8 個 Nvidia Tesla M40 加速器，這 8 個加速器可以插入 PCI-Express 3.0 x16 插槽，擁有供CUDA 應用程序使用的 12 GB GDDR5 幀緩衝存儲器，還包括兩個可插入很高機箱的 Haswell Xeon E5 處理器。

通過轉換到具有 16GB HBM 存儲器的 Pascal Teslas 的 SMX 變體，Facebook能夠在 Big Basin 服務器內運行更大的數據集，同時可以在 CUDA 內核與 HBM 存儲器之間提供更多內存帶寬，並驅動其後的更多浮點。通過支持半精度運算，Pascal GPU擁有 64 GB 有效內存，並可能在更大數據集中四倍於有效浮點運算，因此相對於 Maxwell M40 及 Pascal P100 代GPU 加速器 33％的原始容量增長，機器學習模型會大得多。M40 上的單精度運算是 7 萬億次，在 P100 上則是 10 萬億次，因此匹配度為 30％；而移至半精度時它將再次加倍，模型也會更大。

業界：開源硬件挑戰 GPU 計算極限

Facebook 想要通過 Big Basin 的 CPU-GPU 節點，來使計算中的 CPU 部分從 GPU 部分中分離出來。所以 Big Basin 在技術上並不是服務器，而更像 GPU 的外殼——僅僅是一群 GPU 或是 lingo 中的 JBOG；比如去年揭幕的「閃電」NVM-Express 存儲外殼只是一束閃光或 JBOF；又如「Knox」、「Honey Badger」以及新的「Bryce Canyon」陣列也僅僅是一堆磁盤或JBOD。Facebook 目前正在部署一個「Leopard」服務器，它把早期的 Xeon 處理器作為將工作卸載到大型 JBOG 的頭節點，但它將會附加新的「Tioga Pass 」雙插槽系統，即採用英特爾未來的「Skylake」Xeon處理器作為頭節點。這就是將CPU 與 GPU 計算進行分離的含義。如今它們可以彼此獨立地安裝和升級，但只有在設備之間的網絡足夠快時才可能實現。

業界：開源硬件挑戰 GPU 計算極限

Big Basin的主板設計受到了 Nvidia DGX-1 的啟發，並且它像 DGX-1 系統那樣部署了 Pascal P100 顯卡的 SMX2 變體，這種變體的鏈接方式很特殊，能夠將信用卡大小的組件直接安裝在主板上；其他的 Pascal 顯卡具有插入 x16 插槽的 PCI-Express 形狀因子。Big Basin 系統有兩個 board，每個 board 有四個 Pascal SXM2 組件，就像這樣：

業界：開源硬件挑戰 GPU 計算極限

該系統具有四個 PCI-Express 交換機，用於 GPU 彼此間以及與 Xeon 計算複合體的交叉耦合；另外，這兩者之間的分解意味著 Facebook 可以在 AMD Opteron、ARM 或 Power 9 處理器組件間進行互換，而不必更改與系統相關的其他信息。Big Basin 的參數要求 GPU board 必須支持下一代的 SXM2 卡，這意味著「Volta」GPU 將與當前的「Pascal」GPU 插槽兼容，至少在由SXM2組件表示的互連級別方面是這樣。

GPU 使用 4 個 mini-SAS 連接器使主機 Xeon 模塊與 JBOG 外殼相連，而 NVLink 端口則在混合立方體網格中將 GPU 彼此交叉耦合。就像這樣：

業界：開源硬件挑戰 GPU 計算極限

在由廣達電腦旗下的 hyperscale 部門廣達雲科技為 Facebook 構建的 Big Basin 中，有趣的是 NVLink 1.0 端口以 20 Gb /秒的速率運行，但下一代 NVLink 2.0 端口「能使串行器的運行速率達到25.78125Gb/秒」。這個「能使」十分精確，事實上我們知道，NVLink 2.0 端口以及更通用的「Bluelink」端口在 Power9 處理器上的運行速率都在 25 Gb /秒。Facebook 所顯示的 NVLink 拓撲圖表中，有趣的是每個 Pascal 架構的 GPU 都具有 4 個 NVLink 1.0 端口，但 Volta 架構的 GPU 將有6 個 NVLink 2.0 端口。這使 GPU 之間能存在更多的交叉耦合與更緊密的鏈接，對於更大規模但不需要最緊密耦合的NVLink 群集來說也是如此。

Facebook 的 Big Basin 內部有兩種不同的拓撲結構，可通過翻轉 PCI-Express 交換機設置中重定時器顯卡的跳線進行設置。這是第一種拓撲結構：

業界：開源硬件挑戰 GPU 計算極限

這是第二種拓撲結構：

業界：開源硬件挑戰 GPU 計算極限

一個很大的差異是會有 1 個 x16 管道或 2 個 x8 管道離開 GPU 複合體；產生如此巨大差異的原因尚不明確。

設計 Big Basin 的工程師 Kevin Lee 解釋道：「與 Big Basin 相比，我們能在使用 Resnet-50（一個流行圖像分類模型）的測試中達到幾乎 100％的吞吐量改進，這使我們在使用更復雜模型的同時能夠更快地進行實驗」。Facebook 的訓練的是單精度的，所以它顯然看不到在進行雙精度訓練和移動至半精度訓練時那樣的跳躍。

進入 HGX-1

微軟在 OCP 峰會上揭曉的 ceepie-geepie 黑箱已經開始與鴻佰科技（Ingrasys）共同開發，鴻佰科技是一家隸屬於製造商巨頭富士康的 OpenPower 平臺製造商。微軟通過 OCP 峰會發布了機器學習黑箱 HGX-1 的開源代碼，並希望各大公司將其作為機器學習訓練模型的標準。正如上文所言，如果 MPI （Message Passing Interface ）協議能夠被正確移植到具有某種層次結構的 NVLink 和 PCI-Express 上，HGX-1 或許就能為超級計算機群創建一個良好的胖節點。

業界：開源硬件挑戰 GPU 計算極限

微軟的開源服務器項目 Olympus 的 HGX-1 變體與 Big Sur 黑箱相似，它支持 8 個 Pascal SXM2 GPU 模塊，並且在系統內使用 PCI-Express 互連連接 GPU 處理複合體與 Xeon 計算複合體。

發稿時，HGX-1 系統拓撲結構的速度和饋送的相關信息還尚未提供，但 Nvidia 的加速計算部門的副主管 Ian Buck 告訴 The Next Platform ，HGX-1 系統將會在 1 個黑箱之內和多個黑箱之間具有一組級聯式 PCI 交換機。在 1 個黑箱中，這個 PCI-Express 交換複合體允許系統中 2 個 Xeon 處理器的其中 1 個動態性地直接對 1 個、4 個或 8 個 GPU 尋址，而且還允許在使用與 DGX-1 和 Big Basin 系統相同的混合立方體網格的 NVLink 虛擬存儲器上緊密共享數據。微軟正在擴展這種 PCI-Express 網絡，使其能連接多達 4 個 HGX-1 系統，並允許複合體中 8 個 Xeon 處理器中的任何一個有權訪問 32 個 Pascal P100 SXM2 模塊中的數據，並通過使用微軟的 CNTK 開源機器學習框架將 HGX-1 節點的內存和計算能力有效地增加 4 倍。

雖然微軟最初設計 HGX-1 是為了支持 Nvidia Pascal 的計算模塊，這無疑遠未過時且可以採取 Volta 模塊，但不要產生誤解。微軟依舊保留著靈活的選擇權。

微軟 Azure 共享雲的一位傑出工程師 Leendert van Doorn 告訴我們：「HGx-1 的機箱對 Nvidia GPU 進行了優化，但它沒有理由不支持 AMD Radeon GPU 或英特爾 Nervana 的機器學習芯片。」

相關推薦

'理科生：報這5大“計算機類專業”熱門度更高，畢業後就業很容易'

"提到計算機專業，其實經常熱門專業的榜單上，計算機專業都是榜上有名。且已經連續很多年都是如此，未來的相關行業還是很緊缺計算機類畢業生的，且計算機專業的發展方向很廣，所以畢業生的未來有無限可能。但報考計算機類專業也並不是覺得熱門好就業，說報考就能報考的。這類專業最大的優點就是...

電腦技術人生第一份工作編程語言軟件工程軟件中國研究生入學考試信息安全程序設計數據庫 2019-09-18

'麒麟990 5G打造業界最強GPU'

" 手機芯片代表世界芯片的最高水平，因為它不僅需要強大的計算、存儲信息處理能力，同時還需要執行復雜的任務，需要整合各種功能，體積還得小，功耗還要低。這是目前人類芯片要求最複雜的芯片，手機芯片能做好，很大程度上，為做好一切芯片奠定了基礎。2019年9月6日，華為消費者業務CE...

我的第一部5G手機 GPU 智能手機華為手機華為公司人工智能中央處理器硬件軟件通信原汁原味的德系SUV 餘承東 IFA CES PowerPoint 2019-09-15

'程序員的編程基礎知識｜計算機組成原理：計算機的層次與編程語言'

"計算機基礎方面的知識，對於一些非科班出身的同學來講，一直是他們心中的痛，而對於科班出身的同學，很多同學在工作之後，也意識到自身所學知識的不足與欠缺，想回頭補補基礎知識。關於計算機基礎的課程很多，內容繁雜，但無論是相關書籍還是大學課程，都有點脫離工作。特別地，計算機基礎知識...

電腦程序員編程語言硬件中央處理器彙編語言操作系統英特爾 Java 軟件超微半導體編譯器人生第一份工作設計歷史大學 2019-09-13

'學習雲計算需要具備哪些知識結構'

"首先，雲計算需要一個龐大的技術體系作為支撐，隨著雲計算逐漸從IaaS向PaaS和SaaS轉換，雲計算的技術生態也在不斷髮展和完善，雲計算自身的功能邊界也在不斷得到拓展，相信在產業互聯網階段，雲計算將進一步深入到產業領域，打造出更多基於行業的“全棧雲”。從技術體系結構上來看...

雲計算 Linux 數據庫操作系統編程語言技術物聯網 IaaS SaaS Docker Java 人工智能 2019-09-13

'華為發佈麒麟990\'重構\'芯片，全面突破業界極限'

"9月6日，在德國柏林2019德國柏林消費電子展（IFA）上，華為面向全球推出華為最新一代旗艦芯片麒麟990系列，包括麒麟990和麒麟990 5G兩款芯片。而計劃9月19日發佈的華為Mate30系列，將率先採用麒麟990芯片。其中，麒麟990 5G是全球首款旗艦5G SoC...

華為公司我的第一部5G手機技術人工智能 GPU 我想靜靜中央處理器硬件 CES 餘承東原汁原味的德系SUV 單鏡頭反光相機設計大數據攝影最in買手君 IFA 2019-09-11

'挑戰iQOO Pro 5G性能極限：除了5G它還有哪些提升？'

"【手機中國評測】如今5G已經悄然來到了我們的身邊，作為新一代的通訊技術，它在傳輸速率、延時、應用場景等方面都迎來了前所未有的提升。而作為目前市面上被大家成為“最香5G旗艦”的iQOOPro 5G版，以其強悍的性能、極速的5G網絡支持、人性化的遊戲體驗、強悍的拍照素質，在新...

iQOO618強悍單品推薦我的第一部5G手機 3DMark 安兔兔 GPU 硬件中央處理器魯大師軟件技術算法高通攝影 2019-09-08

'計算機科學（CS專業）申請'

"由於美國大學的計算機科學（Computer Science，縮寫CS）研究生專業就業率高，起薪高，就連抽H1B籤的機率也是最高的。因此，申請CS研究生的競爭也是最激烈的。申請者中除了計算機本專業的學生，其他專業如電子工程、自動化、數學、物理、統計，甚至貌似毫不相關的環境工...

電腦操作系統信息安全自動推理大學人工智能數據庫軟件設計卡內基梅隆大學算法機器人物理硬件編程語言人機交互加州大學伯克利分校並行計算數學程序員技術通信土木工程電子工程歷史編譯器演化計算離散數學軟件工程 2019-09-07

'你可能還是低估了雲計算的力量......'

"導讀雲計算就好比自來水的供應模式，IT用戶不需要建造自己的機房，不需要機房維護人員，也不需要購買服務器等設備，就能輕鬆獲取計算資源。然而，如果你只把雲看作一種按需使用計算資源的模式，那你可能還是低估了雲的力量！當我們使用自來水的時候，沒有必要在家自建一座水廠，而是擰開水...

雲計算物聯網美國股市機器學習經濟技術標準普爾投資硬件虛擬現實跳槽那些事兒增強現實人生第一份工作 2019-09-07

'地平線餘凱：車規級AI芯片，引領汽車駛向超級計算機時代'

"9月3日，第二屆全球IC企業家大會暨第十七屆中國國際半導體博覽會（IC China 2019）在上海召開，本屆大會主題為“開放發展合作共贏”，由工業和信息化部、上海市人民政府指導，中國半導體行業協會、中國電子信息產業發展研究院聯合主辦。地平線作為在AI芯片領域的先鋒創業...

人工智能超級計算機電腦無人駕駛算法人機交互設計 GPU 我的第一部5G手機語音識別技術編譯器創業上海眾包能源 Ultrasone 2019-09-06

'先進計算怎樣才能稱得上為“先進”？'

"隨著社會經濟的高速發展，先進計算不僅在天氣預報，生命科學等諸多前沿領域的應用日趨廣泛，在未來智慧城市，物聯網，雲計算，大數據等領域也將不斷開疆拓土。可以說，各種結構化和非結構化數據的爆發，使得先進計算獲得了英雄用武之地。那麼，何謂先進計算，隨著5G和邊緣的落地，對先進計算...

雲計算技術十三五機器學習我的第一部5G手機量子計算理論人工智能物聯網中科曙光深度學習無人駕駛經濟大數據 GPU 2019-09-04

'中國首款車規級自動駕駛芯片發佈：全面開放、算力超GPU 10倍'

"中國首款車規級AI芯片來了。今天（8月30日）在上海人工智能大會期間，邊緣人工智能芯片企業地平線正式宣佈量產中國首款車規級人工智能芯片——征程二代。征程二代是地平線自動駕駛芯片“征程”迭代款，該芯片搭載了地平線自主創新研發的高性能計算架構BPU2.0（Brain Proc...

GPU 無人駕駛技術算法設計 2019世界人工智能大會編譯器人機交互網絡安全工業設計軟件語音識別技術臺灣積體電路製造公司上海 2019-09-04

'DeepMind開源強化學習遊戲框架，25款線上遊戲等你來挑戰'

"選自GitHub機器之心編譯參與：一鳴、思強化學習算法沒有遊戲訓練？DeepMind 開源 OpenSpiel 平臺了。研究者可在線部署遊戲環境，快速開始實驗。強化學習算法廣為人知的一個應用場景便是遊戲了，通過智能體在多玩家遊戲中的表現，研究者可以更好地調整算法和參數細節...

Python Linux 算法 Swift語言 GitHub Debian Ubuntu 編程語言 Windows 撲克中國象棋 2019-09-03

'一種接口應付CPU、GPU等各種硬件，英特爾公佈oneAPI簡化AI開發'

"曉查發自凹非寺量子位報道 | 公眾號 QbitAIAI開發者最怕什麼？硬件不統一，帶來的開發碎片化問題。現在用於AI開發的硬件，不僅有CPU、GPU，還有FPGA、AI專用計算芯片。不同的硬件需要不同的API，甚至是不同的編程語言。將原來開發的AI程序移植到另外一...

英特爾人工智能中央處理器 GPU 編程語言技術軟件英偉達硬件 Facebook 設計程序員黃仁勳編譯器數學 Twitter 深度學習工程師百度 MATLAB 2019-09-03

'中國首款車規級AI芯片來了！地平線喊話特斯拉：計算平臺算力是FSD近3倍'

"遲到了半年多，中國首款車規級人工智能芯片終於來了。8月30日，嵌入式人工智能公司地平線正式宣佈量產中國首款車規級人工智能芯片——征程二代（Journey 2）。該產品基於公司註冊商標的BP（Brain Processing Unit）2.0計算架構，可提供超過4 TOPS...

人工智能無人駕駛設計算法特斯拉汽車屏住呼吸智能汽車來了軟件工業設計 GPU 人機交互語音識別技術超級計算機編譯器上海英偉達英特爾 2019-09-01

'華為華為，重塑計算產業生態，加速人工智能發展'

"8月29日，在上海舉辦的2019世界人工智能大會（WAIC）上，華為常務董事、華為ICT戰略與Marketing總裁汪濤發表了《重塑計算產業生態，加速人工智能發展》的主題演講。汪濤提出，為滿足多樣性算力需求，華為將基於鯤鵬和昇騰，通過開放開源，與客戶、夥伴、開發者及相關組...

人工智能華為公司雲計算無人駕駛 ARM 操作系統 GPU 技術 X86 軟件汪濤上海算法我的第一部5G手機大數據新能源汽車 2019-08-31

'趕追阿里、騰訊，百度發力AI雲計算'

"2B這條賽道，是未來巨頭角力的主戰場，百度發力稍晚，但百度的優勢是AI。近兩年，中國公有云發展熱情空前高漲，一方是阿里、騰訊、金山等先進入者大步踐行，另一方則是華為、百度、浪潮、京東等後發力者的高歌猛進。8月29日，“ABC SUMMIT 2019百度雲智峰會”在北京召開...

百度人工智能百度雲騰訊雲計算阿里巴巴集團雲計算技術騰訊阿里雲計算物聯網機器人金融戴爾英特爾 GPU 華為公司國家電網電信金山軟件能源重慶第二十二屆中國農加工投洽會 2019-08-31

'“算力地球”路子：主流幣中，一定會出現科學與AI計算的通證'

"摘要：優秀的科技公司正在加大邊緣計算的基建投入，第三方算力市場的大門正在敞開。BOINC擁有深厚的用戶基礎，通過引入通證激勵的模式，將會把分佈式計算的用戶和網絡規模擴展到一個全新的高度。路子算力地球聯合創始人兼首席戰略官信息的數字化進程催生了互聯網革命，貨幣的數字化...

分佈式計算地球人工智能區塊鏈數字貨幣比特幣雲計算超級計算機經濟電腦網格計算人生第一份工作 GPU 2019-08-30

'計算機走一條市場新主線，未來三年市場估計有100億市場規模增量'

"今年有望成為自主可控產業拐點之年，展望明後年行業整體增量需求拉動。同時以華為為代表的ICT龍頭企業入局，為行業整體產品方案競爭力、行業市場化程度帶來顯著提升。中信計算機楊澤原認為大國間博弈未來將常態化，國產軟件與操作系統領域的自主可控重要性將持續提升。相關公司：中國軟件、...

操作系統華為公司電腦中央處理器技術信息安全軟件浪潮信息金融用友公司中科曙光 GPU 用友網絡電信人生第一份工作 2019-08-29

'計算機基礎知識的最小集合'

"作者：劉欣來源：公眾號碼農翻身很多人工作後痛感計算機基礎知識的缺乏，那計算機基礎知識都有哪些呢？我覺得首先計算機專業的那六大件：組成原理，操作系統，數據庫，編譯原理，計算機網絡，數據結構（這個說太多遍了，這次不再講了），其次還得加上分佈式的基礎知識，因為現在的系統...

電腦中央處理器 Redis 網絡安全軟件 LISP 虛擬機算法 Tomcat 操作系統 DNS 設計 Memcached 程序員數據庫通信人生第一份工作編程語言馮諾伊曼硬件編譯器 2019-08-29

'計算機軟件著作權登記十問‘實’答，快來看吧'

"1、問：中國的計算機軟件著作權登記的登記機關是哪裡？答：中國版權保護中心。中國版權保護中心是國家新聞出版署、國家版權局直屬事業單位，也是我國唯一的計算機軟件著作權登記機構。2、問：我應該以什麼方式申請計算機軟件著作權登記呢？答：申請計算機軟件著作權登記<微：建築...

軟件算法遊戲引擎法律動漫程序設計編程語言設計 2019-08-29

推薦中...