全方位解讀DeepLearning11深度學習服務器

深度學習 GPU 英偉達英特爾 IT168企業級 IT168企業級 2017-11-03

今天展示的可能是大家最為推崇的一種對深度學習的構建。DeepLearning11搭載10個NVIDIA GeForce GTX 1080 Ti 11GB GPU，是Mellanox的 Infiniband系列，外形尺寸是4.5U。該系統與DeepLearning10之間有重要的區別，主要是添加了8個GTX 1080 Ti顯卡。 DeepLearning11 採用single-root的設計，這種設計已經在深度學習領域中流行起來了。

之前已經有了許多深度學習的構建，很多機器已經投入使用。其中有一些較小的版本，包括之前發佈的DeepLearning01和DeepLearning02。它們僅僅是個開端，但DeepLearning11完全不同。現在這個架構已經被世界前十的超大規模深度學習企業所使用。

DeepLearning11：組件

如果我們要求使用NVIDIA可能會被告知需要購買特斯拉(Tesla)或Quadro卡。但NVIDIA特別要求服務器原始設備製造商(OEM)不要在服務器中使用他們的GTX卡。當然，這僅僅意味著經銷商在交付客戶之前安裝這些卡。

全方位解讀DeepLearning11深度學習服務器

該系統採用的是超微的 SYS-4028GR-TR2，它是市場上主流的高GPU密度系統之一。TR2非常重要，因為它是機箱的single root 版本，不同於DeepLearning10的-TR dual root 系統。

全方位解讀DeepLearning11深度學習服務器

▲DeepLearning11 GTX 1080 Ti Same CPU

與DeepLearning10的構建相似，DeepLearning11具有“隆起”，使系統總體積達到4.5U。你可以從服務器“Humping”趨勢在數據中心的部分了解到更多。它使我們能夠在自己的系統中也使用NVIDIA GeForce GTX卡。

全方位解讀DeepLearning11深度學習服務器

▲超微4028GR-TR/ -TR2

我們正在使用Mellanox ConnectX-3 Pro VPI適配器，它既支持40GbE(主實驗室網絡)也支持56Gbps的 Infiniband(深度學習網絡)。儘管已經在使用它，但是使用FDR Infiniband與RDMA在目前來說還是十分受歡迎的。1GbE或是10GbE的網絡根本不能足夠快地供給這些機器。於是我們在在實驗室中安裝了一個Intel Omni-Path交換機，這將是該實驗室的首個100Gbps結構。

全方位解讀DeepLearning11深度學習服務器

▲Mellanox ConnectX-3 Pro

在CPU和RAM方面，我們使用了2個Intel Xeon E5-2628L V4 CPU和256GB ECC DDR4 RAM。Intel Xeon E5-2650 V4是這些系統的常見芯片，它們是最低端的主流處理器，支持9.6GT / s QPI的速度。而我們正在使用的是英特爾至強E5-2628L V4 CPU，因為單根設計會賦予另一個重要的優勢，將不再只是GPU間的QPI流量。雖然有可能可以使用單個GPU來為系統供電，但是我們仍然使用兩種更高的RAM容量——16GB的RDIMM因為比較便宜。這些系統可以承受高達24個DDR4的LRDIMM從而獲得大量的內存容量。

對於那些使用NVIDIA nccl庫的深度學習者來說，常見的PCIe是非常重要的。這也是許多深入學習的構建不會轉換到更高的PCIe數量的原因，它通常是更高的延遲或是更受限制的設計，如AMD EPYC與Infinity Fabric。

系統成本

在成本明細方面，如果使用英特爾E5-2650 V4芯片，這可能是什麼樣子：

全方位解讀DeepLearning11深度學習服務器

與AWS g2.16大型實例類型相比，總價約16,500美元的投資回收期在90天以內。以下是相關的託管費用。

將DeepLearning11 的10個GPU示例與DeepRearning10的8個GPU進行比較，你可以看到，在整體系統成本方面，大約25%的性能損失較小：

全方位解讀DeepLearning11深度學習服務器

正如人們所想象的那樣，添加更多的gpu意味著系統其餘部分的開銷將有可能超過這些gpu。因此，如果你的應用程序可擴展性比較好，每個系統可能得到10個gpu。

DeepLearning11:環境因素

我們的系統有四個psu，這對於10個 GPU的配置是必要的。為了測試這個，我們讓系統運行一個巨大的模型幾天，看看有多少功耗被使用。以下是是10個GPU服務器的能耗，看起來就像是PDU運行Tensorflow GAN的工作負載的情況:

全方位解讀DeepLearning11深度學習服務器

從上圖可以看到，大約2600W確實是不錯。根據模型在訓練中的位置，這臺機器在3.0 - 3.2kw範圍內，持續功率消耗更高，卻沒有觸及到gpu的功率限制。

這個峰值在深度學習領域上，幾個星期內使用不同的問題和框架，它的高峰值仍不足4kW。使用4kW作為基礎，就可以很容易地計算出這種機器的託管成本。

正如你所看到的，12個月以來，託管成本方面開始縮小硬件成本。但其實，使用的是實際的數據中心實驗室的託管費用。將上述與DeepLearning10的8個gpu進行比較，你可以看到添加500W額外計算的影響:

全方位解讀DeepLearning11深度學習服務器

添加額外的gpu與系統成本相比，會增加運營成本，這是與DeepLearning10相比的狀況。隨後幾年，託管成本將會遠遠超過硬件成本。

DeepLearning11:性能影響

本文最重要的是想要展示從這個新系統中獲得了多少性能。1600美元的系統和1.6萬美元的系統之間存在很大的差異，因此我們預計其影響也會類似。採集了我們的樣本Tensorflow，生成Adversarial Network(GAN)圖像訓練測試用例，並在單卡上運行，然後進入10個GPU系統，用每天的訓練週期來表達結果。這是一個很好的說明如何在系統的購買價格中增加1400美元或更多的例子。

全方位解讀DeepLearning11深度學習服務器

寫在最後

正如人們所想象的那樣，DeepLearning10和DeepLearning11消耗了大量的功耗。僅僅這兩個服務器的平均功率就超過5kW，峰值更高。這對主機有很大的影響，因為在許多機架中增加0.5RU並不重要。大多數的機架其實不能提供25kW +的電源力和冷卻能力以滿足GPU服務器的需求。

最終，我們希望在實驗室中擁有一個重要的Single Root系統，而DeepLearning11及其10個NVIDIA GTX 1080 Ti 11GB GPU則具備這一點。由於我們提倡首先擴大GPU的大小，從每臺機器的GPU數量到多臺機器，DeepLearning11既是一個偉大的頂級單機，同時也是基於設計可以擴展到多臺機器的平臺。

相關推薦

'能否加速破解暗物質之謎？大型強子對撞機，再加上機器學習算法'

"博科園：本文為粒子物理學類大型強子對撞機的每一次質子碰撞都不同，但只有少數是特殊的。這種特殊的碰撞產生了不尋常的粒子（可能是新粒子、違反物理現象等）或者有助於填補我們對宇宙不完整的認識。發現這些碰撞比眾所周知的大海撈針要困難得多，但改變的革新正在路上。費米實驗室的科學家和...

機器學習算法技術 Azure 電腦硬件物理中央處理器麻省理工學院歐洲 GPU 設計摩托車彼得·希格斯 2019-09-19

'深度 | AI賦能醫療器械　5G支持應用創新——智能化醫療軟件發展趨勢分析'

"當前，以人工智能、雲計算、大數據、5G網絡、物聯網等為代表的新一代信息技術迅猛發展，並與醫療器械行業加速融合。可穿戴健康監測設備、人工智能輔助診斷系統等智能化醫療器械加速普及應用，改變傳統疾病預防、檢測、治療模式，為提高健康服務質量提供新手段。傳統醫療軟件主要依託於醫療器...

人工智能技術軟件雲計算大數據深度學習我的第一部5G手機手術兩百年機器人藥品物聯網算法語音識別技術自然語言處理護理數據庫肺癌腫瘤 2019-09-19

'Redmi Note8深度體驗報告，豈止999？'

"在紅米品牌升級為全新的Redmi品牌之前，如果你說紅米Note系列是千元機中性價比最高的那一批機型，我不會覺得有任何不妥；但性價比高是一回事，手機的質感卻又是另一回事，Redmi品牌之前推出的機型，有同價位最強的硬件性能，但在整機質感方面卻並不會讓人有驚豔的感覺。而真正的...

紅米Note 紅米手機照相機小米科技設計音箱 GPU 硬件安兔兔高通耳機原汁原味的德系SUV 三星集團 iPhone 中央處理器大猩猩攝影鐵臂阿童木王者聯盟康寧人工智能 2019-09-18

'如何優化人工智能、機器學習和深度學習的存儲'

"如今的人工智能和深度學習應用程序中使用了大數據集和快速I/O技術，但數據存儲可能會導致性能問題。人們需要了解人工智能和深度學習存儲系統應該具備哪些功能。人工智能技術廣泛應用在機器學習和深度學習中，已經引發了研究和產品開發的爆炸性增長，因為企業發現了創造性的方法，將這些新算...

人工智能深度學習機器學習設計操作系統算法軟件技術分佈式計算 GPU 硬件英偉達工程師人生第一份工作中央處理器電腦固態硬盤 2019-09-16

'解讀iQOO Pro 5G版全方位感官的遊戲體驗，讓專業遊戲手機很尷尬'

"在智能手機時代，手機以輕快、智能、方便的特性而高速發展，另在拍照、辦公、遊戲、聽歌、煲劇等的使用方便、快捷，因此受到大眾的青睞。加上手機廠家的發力，智能手機已真正成為掌上電腦。年輕人在閒下來的時候，不約而同的用手機進行開黑吃雞遊戲。但一些大型主流的遊戲對手機性能要求高，而...

我的第一部5G手機 iQOO618強悍單品推薦智能手機硬件技術 FPS遊戲 Hifi 圖像處理王者聯盟耳機 GPU 掌上游戲機 2019-09-16

'分佈式機器學習之——Spark MLlib並行訓練原理'

"這裡是王喆的機器學習筆記的第二十五篇文章。接下來的幾篇文章希望與大家一同討論一下機器學習模型的分佈式訓練的問題。這個問題在推薦、廣告、搜索領域尤為突出，因為在互聯網場景下，動輒TB甚至PB級的數據量，幾乎不可能利用單點完成機器學習模型的訓練，分佈式機器學習訓練成為唯一...

Spark 機器學習分佈式計算並行計算大數據 GPU 算法 Docker 中央處理器工程師文章物理 2019-09-16

'機器學習和深度學習的區別是什麼'

"機器學習和深度學習是人工智能的兩個子集，在過去兩年中引起了很多關注。如果你在這裡想以最簡單的方式理解這兩個術語，那就沒有比這更好的地方了。人工智能這兩個領域，即機器學習和深度學習，提出了比整個領域組合更多的問題，主要是因為這兩個領域經常混淆並在提到數據統計建模時可以互換使...

機器學習深度學習人工智能算法技術軟件設計高德納集團人生第一份工作維基百科 2019-09-15

'XFX訊景 Radeon RX 5700XT海外版深度評測，第二階梯的非公版'

"開箱既XFX RX 5700XT黑狼版第一款非公版上市以來，後面陸續一大堆非公版緊接而來，按照以往的經驗來看，第一批非公版一般是性能稍微高於或者等於公版（這裡不特指規格用料之類，A/N情況又會不同），而第二批通常是性能更佳的非公版，提升幅度會拉開，還有第三批的話，那基本是...

XFX 技術 GPU 設計 HDMI 3DMark 戰地 2019-09-15

'“深度偽造（Deepfake）”的背後，或許是詐騙犯的狂歡'

"前幾天，雲哥在《騙子的未來？AI人工智能！黑科技！》一文中談到了一款名為“ZAO”的AI換臉軟件。用戶只需要拍攝並上傳幾張自己的臉部照片，就可以用它們來替換電影、電視劇或者小視頻中人物的臉，從而生成以自己為主角的視頻片段。 ▲國內用戶製作並上傳的“朱茵換臉楊冪” 伴隨“...

深度學習技術人工智能網絡安全語音合成軟件巴拉克·侯賽因·奧巴馬微軟陌陌社交網絡唐納德·特朗普 2019-09-15

'全時全鏈路深度數字化，構建數字化時代保險企業的高競爭壁壘'

"對趨勢大判斷，我採用的一般有三種方式：試錯，通過不斷地試錯去逼近最接近未來的主航道；歷史，通過歷史的確定性找到對未來不確定性的一些推演方式；價值鏈，全量梳理各類業務價值鏈，再結合當下的技術和已經觀察到的現象背後的本質，用該本質推演其它環節。潛在方向的七個類別都包含在以上三...

深度學習技術物理頭號大贏家| 理財大賽第二季跳槽那些事兒算法歷史 2019-09-15

'機器學習&深度學習基礎（tensorflow版本實現的算法概述0）'

"tensorflow集成和實現了各種機器學習基礎的算法，可以直接調用。代碼集：https://github.com/ageron/handson-ml監督學習1）決策樹（Decision Tree）和隨機森林決策樹：決策樹是一種樹形結構，為人們提供決策依據，決策樹可以用...

機器學習算法深度學習隨機森林 2019-09-14

'鎂光圍剿+奇夢達鈍刀：中國DRAM內存產業困境解讀'

"中國芯計劃：DRAM & NAND雙線戰略數碼君此前多次撰文跟蹤國產存儲行業近況。相較於前景樂觀的NAND（包括Nor Flash）領域，DRAM市場雷聲來得最早，而雨滴落得最晚。兩者同為計算機存儲要素的核心技術門檻，如何攻克、何時攻克成為當前“中國芯”計劃中非常...

奇夢達技術英飛凌聯華電子西安浪潮集團臺灣固態硬盤美光科技福建跳槽那些事兒英特爾原汁原味的德系SUV 福州證券投資基金文章經濟考古電腦投資 2019-09-14

'英特爾/賽靈思/英偉達都不願聽到的壞消息：服務器市場將放緩增長'

"上次服務器市場衰退已經是差不多十二年前的事情了。考慮到超大規模數據中心和雲建設商購置部署服務器的性質，再加上現在由於中美貿易戰、英國無協議脫歐，導致人們對宏觀經濟問題普遍擔憂，企業間瀰漫著一種不安情緒，服務器支出將不可避免地出現下滑，這是不可避免的事情。不過奇怪的是，這種...

英特爾賽靈思英偉達 X86 IBM 戴爾微軟經濟亞馬遜中央處理器 Google 軟件騰訊 Facebook 阿里巴巴集團百度超微半導體 GPU 惠普618一戰到底設計英國聯想集團人生第一份工作 eBay 2019-09-13

'保險業數字化轉型制勝的關鍵：全時全鏈路深度數字化'

深度學習物理技術算法跳槽那些事兒歷史人生第一份工作 2019-09-13

'又有一本深度學習方面的入門書要與您見面啦'

"小編告訴您一個好消息，有一本最新的深度學習入門書即將要與您見面。喜歡深度學習的朋友們可以關注一下。深度學習案例精粹（Deep Learning By Example）使用TensorFlow框架，輕鬆理解深度學習算法包含大量案例，快速動手實現深度學習任務可下載配套源碼+...

深度學習人工智能算法機器學習自然語言處理電腦人生第一份工作生物醫學 CNN 讀書 2019-09-13

'蘋果新品沒有5g產品華為與蘋果競爭比較全方位打響'

"PK友商，告別五伏一安，產品跌落/防水測試視頻……2019年的蘋果發佈會越來越有“安卓味兒”了。高高在上的蘋果，終於要擼起袖子，下場廝殺了。曾幾何時，蘋果新品發佈會成為科技界的“春晚”，萬人空巷；曾幾何時，新iPhone就是業界風向標，一直被模仿；曾幾何時，在消費者眼中，...

iPhone 我的第一部5G手機華為公司華為手機蘋果公司技術智能手機操作系統軟件硬件英特爾 Apple TV 中央處理器 Mac電腦高通 ARM 餘承東三星集團 iOS Android 設計聯發科技 Mac App Store 通信平板電腦 iPad 耳機 iCloud 蒂姆·庫克人工智能 2019-09-13

'「專利解密」騰訊遊戲是如何利用深度學習技術的'

"集微網消息，2019世界人工智能大會在上海開幕。會上，騰訊董事會主席兼CEO馬化騰在開幕式演講上重點講了關於AI的內容。他表示，一年來，在上海地區，騰訊在人工智能、雲計算等領域都有大幅投入。去年此時，騰訊華東總部在上海成立，目前已擁有超5000人團隊。騰訊電競的6大職業賽...

深度學習騰訊遊戲騰訊 2019世界人工智能大會技術上海人工智能王者聯盟雲計算通信算法馬化騰機器人 2019-09-12

'Deep CARs：使用Pytorch學習框架實現遷移學習'

"全文共13449字，預計學習時長26分鐘或更長圖片來源：https://www.pexels.com/photo/vehicles-parked-inside-elevated-parking-lot-63294/如何讓電腦識別不同的汽車品牌？想用手機拍任何一輛車就能知道...

GPU 人工智能電腦 Kaggle Google 中央處理器深度學習數據庫 JSON 硬件盜夢空間動物 2019-09-12

'學習人工智能 100 天后，我得出 5 個結論'

"2019 年 1 月底，我突然意識到，自己對人工智能瞭解非常有限。目前，人工智能對我們的影響越來越大。它保護我們的郵箱免受垃圾郵件的干擾，提供 Alexa 天氣信息更新，為亞馬遜消費者推薦更精準的商品或者為 Netflix 用戶提供觀影建議。每次當我們打開 Twitter...

人工智能機器學習數學深度學習算法吳恩達播客文化凱文·凱利 Google 設計 Facebook Coursera Twitter 達特茅斯學院 Alexa Internet 程序員技術機器人讓夢發生哈兒微軟科幻小說 Netflix 2019-09-12

'深度學習的完整硬件指南'

"原標題 | A Full Hardware Guide to Deep Learning作者 | Tim Dettmers 譯者 | linlh、呀啦呼（Tufts University）、Ryan222（重慶郵電大學）深度學習是非常消耗計算資源的，毫無疑問這就需要多核高...

深度學習 GPU 中央處理器硬件技術跳槽那些事兒德州儀器 Linux 心理學 Kaggle 市場營銷重慶 2019-09-12

推薦中...