英偉達30億賭注:詳解最強深度學習處理器、GPU雲及新DGX

英偉達 GPU CPU 黃仁勳 量子位 2017-05-14

2017-05-11 兩彈元勳粉絲 量子位

英偉達30億賭注:詳解最強深度學習處理器、GPU雲及新DGX

陳樺 李林 發自 凹非寺

量子位 報道 | 公眾號 QbitAI

昨晚堪稱進行了一次AI“爆炸”,好幾件大事同時發生。

首先,英偉達GTC大會行至高潮,新一代GPU正式發佈,以及多項配套新技術,英偉達股價一夜上漲17%。

其次,微軟Build大會也掀起高潮,軟件巨頭推出智能音箱等新產品,並且在邊緣計算、人工智能等方面投下重注。

這是今天推送的第一篇,量子位先講講英偉達發佈的新一代最強深度學習處理器。今天推送的第二篇,會講講微軟如何押注人工智能。

英偉達CEO黃仁勳昨晚在英偉達GPU技術大會上發佈了新的GPU架構Volta。Volta相對於前代產品性能提升了5倍。共有超過7000名科學家、工程師、創業者和媒體參加了此次大會。

英偉達30億賭注:詳解最強深度學習處理器、GPU雲及新DGX

在兩小時的發佈會上,黃仁勳發佈了多款基於Volta、新的人工智能超級計算機,包括新款英偉達DGX-1深度學習計算機;展示了Isaac機器人訓練模擬器;推出了英偉達GPU雲平臺,幫助開發者獲得最新經過優化的深度學習框架;以及宣佈了與豐田關於新一代自動駕駛汽車的合作。

AI推動了對GPU計算能力的需求

目前,全球有數億用戶依靠基於人工智能的搜索、翻譯,以及語音識別服務。黃仁勳指出,去年,對人工智能創業公司的投資總額達到50億美元。在兩年時間裡,Udacity在線教育平臺上參與人工智能課程的學生增加了100倍,達到2萬人。

這推動了對更龐大人工智能計算能力的需求。兩年前,領先的圖像識別系統需要每秒7000千萬億次浮點運算的計算能力。而目前,處理實時語言翻譯的研究者需要超過每秒100000千萬億次浮點運算的能力。作為對比,全球排名前500的超級計算機峰值性能總和還不到每秒1000千萬億次浮點運算。

摩爾定律的失效

英偉達30億賭注:詳解最強深度學習處理器、GPU雲及新DGX

計算需求的迅速增長恰逢摩爾定律的失效。

目前,傳統CPU單線程性能的每年提升只有1.1倍。而作為對比,GPU性能的提升仍能達到每年1.5倍。這些性能提升來自於芯片技術和軟件技術的發展。

“有人認為,這代表了摩爾定律的失效。”黃仁勳表示,“這正是我們存在的原因。我們意識到,在摩爾定律終結之後,必須找到前進的道路。”

新架構:Volta

其實早在2013年,英偉達就公佈了Volta架構名稱。不過,後來這家公司的架構演進,變成Maxwell、Pascal和Volta。

Volta架構的第一款GPU是GV100,這是Pascal GP100的後繼者,這也是英偉達的新一代GPU旗艦,用以驅動下一代Tesla產品。

英偉達30億賭注:詳解最強深度學習處理器、GPU雲及新DGX

Volta幾乎是一個全新的架構,並不是12nm製程Pascal架構+新的Tensor Cores。在線程執行、調度、核心佈局、內存控制、ISA等方面都有顯著不同。

Tensor Cores是Volta的一種新核心,專門為Tensor深度學習運算設計。這些內核本質上是將用於執行4×4矩陣操作的ALU大量集合在一起,特別是融合了乘法加法(A×B+C),將兩個4×4 FP16矩陣相乘,然後加上一個FP16或者FP32的4×4矩陣,最後生成一個4×4 FP32矩陣。

英偉達30億賭注:詳解最強深度學習處理器、GPU雲及新DGX

這些核心的意義在於,通過在一個單元中執行巨大的矩陣矩陣乘法運算,NVIDIA可以為該操作實現更高數量的FLOPS。

單個Tensor Core每時鐘執行64個FMA操作(總共128 FLOPS),每個SM具有8個這樣的內核,每個SM每個時鐘1024個FLOPS。相比之下,即使採用純FP16操作,SM中的標準CUDA內核只能在每個時鐘產生256個FLOPS。

因此,在可以使用這些內核的情況下,可以實現4倍於Pascal架構的性能。

Volta還使用了最新NVLink,可以提供更大的帶寬。GV100比GP100度兩個NVlinks,一共有6個。

英偉達30億賭注:詳解最強深度學習處理器、GPU雲及新DGX

另外,Volta使用的SIMT(單指令多線程)也有重大改變。32線程內的單個CUDA內核現在具有有限的自主權。線程現在可以在一個細粒度的水平上進行同步,這意味著更高的整體效率。個別線程現在可以產生,然後重新安排在一起。

Tesla V100 GPU

英偉達30億賭注:詳解最強深度學習處理器、GPU雲及新DGX

使用GV100 GPU的第一個產品,是Tesla V100。這也是一款專注深度學習的最新加速處理器。

這款加速處理器搭載了210億個晶體管,使用了臺積電12納米FinFET工藝製造。Tesla V100包含5120個CUDA核心,在64位計算精度下能實現每秒7.5萬億次浮點運算,在32位計算精度下能實現每秒15萬億次浮點運算。

英偉達CEO黃仁勳表示,V100搭載了新的Tensor核心,其中包含4x4的主處理陣列,能並行完成矩陣乘法,以某些精度來看吞吐量達到前一代Pascal架構的12倍。

他同時表示,相對於Pascal架構,V100的通用每秒浮點運算次數為1.5倍,對深度學習訓練的提升達到12倍,而深度學習推理的性能達到6倍。

黃仁勳指出:“在Titax X上需要花幾分鐘完成的任務目前只需要幾秒鐘。”

英偉達將於今年第四季度開始銷售V100。

去年9月,英偉達推出了專用於神經網絡的Pascal GPU。Pascal架構在去年5月的大會上發佈。

英偉達30億賭注:詳解最強深度學習處理器、GPU雲及新DGX

30億美元的賭注

為了Tesla V100,英偉達投入了超過30億美元,而處理器的製造已達到了“光刻工藝的極限”。

Volta將支持新發布的深度學習框架Caffe 2、微軟Cognitive Toolkit、MXNet,以及谷歌TensorFlow。用戶可以很方便地發揮Volta的全部性能。

微軟Azure企業副總裁Jason Zander表示:“我們的雲計算平臺正在部署第二代GPU。我們剛剛宣佈了P40和P100系列產品,但我們也很喜歡Volta。我的工作是吸引人們使用Azure雲計算平臺。人們喜歡使用立即可以上手,不需要等待的產品。我們希望讓數據科學家和開發者專注於自己的模型,而不是底層設施。”

亞馬遜AWS深度學習和人工智能總經理Matt Wood也在發佈會上登臺。他表示:“我們感到非常興奮。在訓練和推理兩方面,我們都看到了性能的優化。我們很高興成為產品發佈的合作伙伴。”

DGX

英偉達30億賭注:詳解最強深度學習處理器、GPU雲及新DGX

新款DGX-1計算機搭載了8顆Volta GPU,售價為14.9萬美元。此外,黃仁勳還發布了新的靜音工作站英偉達DGX Station。這款工作站搭載了4顆V100 GPU,帶來了每秒480萬億次浮點運算能力,售價6.9萬美元。

Isaac機器人訓練模擬器

英偉達30億賭注:詳解最強深度學習處理器、GPU雲及新DGX

黃仁勳此次還展示新的Isaac機器人訓練模擬器。通過該模擬器,機器人可以在虛擬世界中接受訓練,隨後部署至真實世界。在演示中,機器人被訓練打高爾夫球和曲棍球。黃仁勳還表示,這一技術將使製造、醫療和建築等行業的機器人訓練更安全、更快、成本更低。

黃仁勳指出:“我們需要創造一個替代世界。”這一世界要遵守所有的物理定律,需要看起來真實,需要支持在其中的學習。而與真實世界最主要的不同在於,需要加速運轉,使速度更快。

GPU雲

英偉達還推出了GPU雲平臺(NGC),可以讓開發者跨平臺接入最新的深度學習框架,以及利用最新的GPU計算資源。

在深度學習中有兩個挑戰,一個是需要把所需軟件,包括優化後的深度學習框架、庫、操作系統和驅動程序等裝入一個堆棧之中,二是利用最新的GPU計算資源來訓練神經網絡。

為了解決這個問題,英偉達推出了NGC。

英偉達30億賭注:詳解最強深度學習處理器、GPU雲及新DGX

NGC堆棧可以提供眾多的軟件,包括:Caffe,、Caffe2、CNTK、MXNet、TensorFlow、Theano、Torch等框架,以及NVIDIA DIGITS GPU訓練系統,NVIDIA深度學習SDK,英偉達docker,GPU驅動和CUDA等。

英偉達30億賭注:詳解最強深度學習處理器、GPU雲及新DGX

只需要一個英偉達賬號,無論在PC、DGX或者NGC哪一種平臺,用戶都能簡單的開展深度學習工作流程。一句話,英偉達表示使用NGC以後,深度學習的模型從原型到部署都更為容易,並且靈活使用計算資源。

NGC今年第三季度將開始公開測試,定價也將在稍後公佈。

與豐田合作

英偉達30億賭注:詳解最強深度學習處理器、GPU雲及新DGX

黃仁勳宣佈,豐田將在自動駕駛汽車中使用英偉達即將推出的Xavier SOC。這其中包含512核的Volta GPU,能帶來每秒30萬億次浮點運算的深度學習計算能力,功耗只有30瓦。

“從許多方面來看,豐田是一家傳奇性的公司,發明了許多當代管理系統。”黃仁勳表示,“我們雙方的工程團隊將合作開發豐田自動駕駛汽車,並在未來幾年內上路行駛。”

與SAP合作

英偉達30億賭注:詳解最強深度學習處理器、GPU雲及新DGX

黃仁勳還談到了英偉達與SAP的合作。這項合作已幫助SAP開發了多款應用,更好地追蹤品牌曝光,自動從企業應付賬款系統中提取分類數據,以及分析客戶投訴中的非結構化信息,從而更快地找到公司內能解決問題的人。

Project Holodeck

黃仁勳還介紹了一款新工具Project Holodeck,用於在高度仿真的虛擬現實環境中展開協作。在展示Project Holodeck的過程中,他與科尼塞克創始人Christian von Koenigsegg進行了合作,後者位於瑞典。他們共同檢查了價值190萬美元Regera超級跑車的內飾。

【完】

P.S. 開頭已經提到了,英偉達股價昨晚一路狂飆。放個圖感受一下:

英偉達30億賭注:詳解最強深度學習處理器、GPU雲及新DGX

招聘

量子位正在招募編輯記者、運營、產品等崗位,工作地點在北京中關村。相關細節,請在公眾號對話界面,回覆:“招聘”。

相關推薦

推薦中...