在機器學習領域的華山論劍中,Google 打敗了英偉達

2019 年 7 月 11 日,Google 宣佈旗下的 Google Cloud Platform(GCP)在最新一輪的 MLPerf 基準競賽中創造了三個新的表現記錄,這三個記錄都是基於 Cloud TPU v3 Pod 實現的。

Google 表示,利用 Cloud TPU Pod 的強大速度,這三個記錄用了不到兩分鐘的計算時間就得以完成。

MLPerf:機器學習領域的華山論劍

MLPerf 是 2018 年 5 月由 Google、百度、Intel、AMD、哈佛大學和斯坦福大學等企業和學術機構聯合發佈的一款基準測試工具,它的用處是用來測量機器學習軟件和硬件的執行速度,獲得了吳恩達和 Google 機器學習負責人 Jeff Dean 的強烈推薦。

在機器學習領域的華山論劍中,Google 打敗了英偉達

針對 MLPerf 的發佈,吳恩達聲明稱:

AI 正在給各個行業帶來改變,但為了充分這項技術的真正潛力,我們仍然需要更快的硬件與軟件……我們當然希望獲得更強大的資源平臺,而基準測試方案的標準化進程將幫助 AI 技術開發人員創造出此類產品,從而幫助採用者更明智地選擇適合需求的 AI 選項。

Jeff Dean 也在 Twitter 上表示,Google 很高興與眾多大學和企業一起,成為致力於將 MLPerf 作為衡量機器學習性能的通用標準的組織之一。

MLPerf 項目的主要目標包括:

通過公平且實用的衡量標準加快機器學習發展進程。對各競爭系統進行公平比較,同時鼓勵創新以改善業界領先的機器學習技術。保持基準測試的成本合理性,允許所有人蔘與其中。為商業及研究社區提供服務。提供可重複且可靠的測試結果。

在具體的測試項目上,MLPerf 覆蓋了視覺、語言、商業和通用四大領域,包含七項基準測試方案。每個 MLPerf 訓練基準測試的度量標準是:在特定數據集上訓練一個模型使其達到特定性能的總體時間。眾所周知,機器學習任務的訓練時間有很大差異,因此,MLPerf 的最終訓練結果是由指定次數的基準測試時間平均得出的,其中會去掉最低和最高的數字。

MLPerf 的結果根據專區和給定的產品或平臺進行分類,目前有兩種專區,即封閉專區(Closed Division)和開放專區(Open Division)。其中封閉專區會指定使用的模型,並限制批量大小或學習率等超參數的值,它對於對比硬件和軟件系統非常公平。

英偉達成為第一回合最大贏家

2018 年 12 月 12 日,支持 MLPerf 的研究者和工程師們公佈了第一個回合的競賽結果,其中測量了多種機器學習任務在主流機器學習硬件平臺上的訓練時間,包括 Google 的 TPU、英特爾的 CPU 和英偉達的 GPU。其測試基準如下:

在機器學習領域的華山論劍中,Google 打敗了英偉達

通過這次競賽,MLPerf 產生了封閉專區 V0.5 版本,其結果如下:

在機器學習領域的華山論劍中,Google 打敗了英偉達

從結果來看,英偉達在其提交的六個 MLPerf 基準測試結果中取得了最佳性能,其中包括圖像分類、目標實例分割、目標檢測、非循環翻譯、循環翻譯和推薦系統——從而成為最大贏家。

利用 Cloud TPU v3 Pod,Google 五局三勝

2019 年 7 月 10 日,MLPerf 第二回合的競賽結果公佈,其測試標準如下:

在機器學習領域的華山論劍中,Google 打敗了英偉達

基於這輪競賽結果的封閉專區 V0.6 版本如下:

在機器學習領域的華山論劍中,Google 打敗了英偉達

可以看到,根據 MLPerf 封閉專區 0.6 版本所呈現的結果,在基於 Transformer 和 SSD 模型的基準測試項目中,Google Cloud TPU 比英偉達預置 GPU 的最佳表現高出了超過 84%。另外,基於 ResNet-50 模型,Google Cloud TPU 也比英偉達預置 GPU 略微勝出。

在機器學習領域的華山論劍中,Google 打敗了英偉達

在本次競賽中,幫助 Google 勝出的,是 Cloud TPU v3 Pod。

Cloud TPU v3 Pod 是 Google 推出的第三代可擴展雲端超級計算機,其核心特徵就是內置了 Google 自主打造的 TPU 處理器。2019 年 5 月,Google 在 I/O 開發者大會上宣佈了它的測試版並進行了公開預覽。

在機器學習領域的華山論劍中,Google 打敗了英偉達

據雷鋒網瞭解,每一個 Cloud TPU 最高可包含 1024 個單獨的 TPU 芯片,這些芯片通過二維環形網狀網絡連接,TPU 軟件堆棧使用該網絡通過各種高級 API 將多個機架作為一臺機器進行編程;用戶還可以利用 Cloud TPU Pod 的一小部分,稱為“切片”。

在機器學習領域的華山論劍中,Google 打敗了英偉達

Google 方面表示,最新一代 Cloud TPU v3 Pod 採用了液冷式設計,可實現最佳性能;每一個都提供超過 100 petaFLOP 的計算能力;Google 也號稱,就每秒原始數學運算而言 Cloud TPU v3 Pod 與全球五大超級計算機相當,儘管它的數值精度較低。

藉著這次在 MLPerf 第二次結果中出風頭的機會,Google 也不忘在官網推介一下 Cloud TPU v3 Pod 的最新進展。比如說,Recursion Pharmaceuticals 是一家運用計算機視覺技術來處理細胞圖像,通過分析細胞特徵來評估疾病細胞藥後反應結果的公司;以往該公司在通過本地 GPU 訓練模型時需要 24 小時,但利用 Cloud TPU Pod,只需要 15 分鐘就可以完成。

當然,在雷鋒網看來,作為一個典型的技術派,Google 之所以如此著力推進 Cloud TPU 的進展,當然也是希望有更多的開發者參與其中——畢竟雲計算是當前 Google 最為重視的業務之一。

相關推薦

推薦中...