"

很多內行會覺得將英特爾(Intel) Cascade Lake與英偉達(Nvidia) 的圖靈(Turing)放在一起比較不太合適,乍一看,硬件選擇看起來很簡單:Intel Xeon CPU為通用處理器,用於存儲和預處理數據,英偉達 GPU更多用於AI。事實上,這在過去幾年中已成為現實。然而,英偉達的競爭對手一直沒有袖手旁觀 - 尤其是英特爾。從專用的低功耗推理處理器到專用優化的Xeon,英特爾正在瞄準AI市場的各個層面。最終的結果是,在所有這些競爭對手之間,我們看到人工智能從許多不同的方向解決,人工智能時代的硬件爭奪是非常有趣的。

今天我們來看看英特爾的第二代Xeon可擴展處理器,即“Cascade Lake”,它可能是英特爾在AI領域硬件的核心。今年早些時候推出的這些新處理器仍然基於與第一代產品相同的核心Skylake架構,但採用了許多新指令來加速AI性能。

就新技術而言,這肯定是Cascade Lake最有趣的方面。雖然我們可以談論一般CPU性能提升3%到6%,英特爾最昂貴處理器的56核,以及“世界紀錄基準”, 但這些小的改進對於IT世界近期和中期的未來幾乎是無關緊要的。看看英特爾新聞與分析師簡報的第一張PPT就知道了。

"

很多內行會覺得將英特爾(Intel) Cascade Lake與英偉達(Nvidia) 的圖靈(Turing)放在一起比較不太合適,乍一看,硬件選擇看起來很簡單:Intel Xeon CPU為通用處理器,用於存儲和預處理數據,英偉達 GPU更多用於AI。事實上,這在過去幾年中已成為現實。然而,英偉達的競爭對手一直沒有袖手旁觀 - 尤其是英特爾。從專用的低功耗推理處理器到專用優化的Xeon,英特爾正在瞄準AI市場的各個層面。最終的結果是,在所有這些競爭對手之間,我們看到人工智能從許多不同的方向解決,人工智能時代的硬件爭奪是非常有趣的。

今天我們來看看英特爾的第二代Xeon可擴展處理器,即“Cascade Lake”,它可能是英特爾在AI領域硬件的核心。今年早些時候推出的這些新處理器仍然基於與第一代產品相同的核心Skylake架構,但採用了許多新指令來加速AI性能。

就新技術而言,這肯定是Cascade Lake最有趣的方面。雖然我們可以談論一般CPU性能提升3%到6%,英特爾最昂貴處理器的56核,以及“世界紀錄基準”, 但這些小的改進對於IT世界近期和中期的未來幾乎是無關緊要的。看看英特爾新聞與分析師簡報的第一張PPT就知道了。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

物聯網、數據工程和人工智能。這將是增長、創新和未來的主要領域。這就是英特爾的目標。目前,英偉達在這個市場上領域——深度學習和“大規模並行高性能計算”軟件——幾乎處於壟斷地位。由於硬件和軟件方面的一系列因素,大多數軟件都運行在英偉達GPU和集群上。因此,對於普通大眾來說,英偉達似乎擁有“人工智能市場”,這一圖景並不準確,但也不完整。人工智能市場不僅僅是神經網絡推理,特別是,所有為人工智能模型提供數據的事情都很少受到關注。因此,神經網絡和他的終結者機器人佔據了所有的頭條,儘管它們只是圖片的一部分。實際上,AI應用程序的處理網絡更類似於下圖。

"

很多內行會覺得將英特爾(Intel) Cascade Lake與英偉達(Nvidia) 的圖靈(Turing)放在一起比較不太合適,乍一看,硬件選擇看起來很簡單:Intel Xeon CPU為通用處理器,用於存儲和預處理數據,英偉達 GPU更多用於AI。事實上,這在過去幾年中已成為現實。然而,英偉達的競爭對手一直沒有袖手旁觀 - 尤其是英特爾。從專用的低功耗推理處理器到專用優化的Xeon,英特爾正在瞄準AI市場的各個層面。最終的結果是,在所有這些競爭對手之間,我們看到人工智能從許多不同的方向解決,人工智能時代的硬件爭奪是非常有趣的。

今天我們來看看英特爾的第二代Xeon可擴展處理器,即“Cascade Lake”,它可能是英特爾在AI領域硬件的核心。今年早些時候推出的這些新處理器仍然基於與第一代產品相同的核心Skylake架構,但採用了許多新指令來加速AI性能。

就新技術而言,這肯定是Cascade Lake最有趣的方面。雖然我們可以談論一般CPU性能提升3%到6%,英特爾最昂貴處理器的56核,以及“世界紀錄基準”, 但這些小的改進對於IT世界近期和中期的未來幾乎是無關緊要的。看看英特爾新聞與分析師簡報的第一張PPT就知道了。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

物聯網、數據工程和人工智能。這將是增長、創新和未來的主要領域。這就是英特爾的目標。目前,英偉達在這個市場上領域——深度學習和“大規模並行高性能計算”軟件——幾乎處於壟斷地位。由於硬件和軟件方面的一系列因素,大多數軟件都運行在英偉達GPU和集群上。因此,對於普通大眾來說,英偉達似乎擁有“人工智能市場”,這一圖景並不準確,但也不完整。人工智能市場不僅僅是神經網絡推理,特別是,所有為人工智能模型提供數據的事情都很少受到關注。因此,神經網絡和他的終結者機器人佔據了所有的頭條,儘管它們只是圖片的一部分。實際上,AI應用程序的處理網絡更類似於下圖。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

簡而言之,實際的機器學習代碼執行只是構建和AI應用程序所需的軟件工具的一小部分。為什麼?讓我們深入研究一下。

人工智能不僅僅是深度學習

在高層次上,雖然深度學習是人工智能的一種形式,但反過來並不總是正確的,實現AI的應用程序不一定要使用深度學習。許多人工智能應用程序使用“傳統統計”或“傳統”機器學習。畢竟,支持向量機、邏輯迴歸、K-nearest、Naive Bayes和決策樹在自動進行信息分類時仍然非常有用,尤其是在沒有大量數據的情況下。

例如,在自然語言處理中使用條件隨機域(CRF),許多推薦引擎都是基於玻爾茲曼機、交替最小二乘(ALS)等。舉個例子:我們的“大數據”基準測試是最苛刻、最獨特的基準測試之一,它使用ALS算法作為推薦引擎(“協同過濾”)。

當然,神經網絡的應用——它本身就是一個完整的研究領域——正在蓬勃發展,它們的應用往往主導著最新的人工智能應用。神經網絡也是要求最高的工作負載之一,需要大量的處理能力。所有這些都與邏輯迴歸(logistic regression)形成了鮮明對比,後者仍然是最常用的機器學習方法,而且恰好需要更少的處理。

儘管如此,儘管神經網絡是人工智能技術中處理最密集的技術(尤其是具有大量層的技術),但有幾種傳統的機器學習技術也需要大量的處理能力。例如,支持向量機及其複雜的轉換也往往需要大量的計算時間。在我們的Spark測試中,斯坦福大學的NER系統是基於一個有監督的CRF模型,使用標記的英語數據集合。在測試中,它必須處理大量的高達幾百GB的非結構化文本數據。

反過來,處理能力要求的這些差異的原因實際上非常簡單。引用AI專家Wouter Gevaert的表述:

"神經網絡中的每個神經元都可以被視為邏輯迴歸單元。因此,神經網絡就像大量的邏輯迴歸" (當你使用sigmoid作為激活函數時)

然而,儘管神經網絡是人工智能技術中最需要處理的技術(尤其是具有大量層次的人工智能技術),有幾種傳統的機器學習技術也需要大量的處理能力。例如,支持向量機及其複雜的轉換也往往需要大量的計算時間。在我們的Spark測試中,斯坦福大學的NER系統是基於一個有監督的CRF模型,使用標記的英語數據集合。在測試中,它必須處理幾百GB的大量的非結構化文本。

"

很多內行會覺得將英特爾(Intel) Cascade Lake與英偉達(Nvidia) 的圖靈(Turing)放在一起比較不太合適,乍一看,硬件選擇看起來很簡單:Intel Xeon CPU為通用處理器,用於存儲和預處理數據,英偉達 GPU更多用於AI。事實上,這在過去幾年中已成為現實。然而,英偉達的競爭對手一直沒有袖手旁觀 - 尤其是英特爾。從專用的低功耗推理處理器到專用優化的Xeon,英特爾正在瞄準AI市場的各個層面。最終的結果是,在所有這些競爭對手之間,我們看到人工智能從許多不同的方向解決,人工智能時代的硬件爭奪是非常有趣的。

今天我們來看看英特爾的第二代Xeon可擴展處理器,即“Cascade Lake”,它可能是英特爾在AI領域硬件的核心。今年早些時候推出的這些新處理器仍然基於與第一代產品相同的核心Skylake架構,但採用了許多新指令來加速AI性能。

就新技術而言,這肯定是Cascade Lake最有趣的方面。雖然我們可以談論一般CPU性能提升3%到6%,英特爾最昂貴處理器的56核,以及“世界紀錄基準”, 但這些小的改進對於IT世界近期和中期的未來幾乎是無關緊要的。看看英特爾新聞與分析師簡報的第一張PPT就知道了。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

物聯網、數據工程和人工智能。這將是增長、創新和未來的主要領域。這就是英特爾的目標。目前,英偉達在這個市場上領域——深度學習和“大規模並行高性能計算”軟件——幾乎處於壟斷地位。由於硬件和軟件方面的一系列因素,大多數軟件都運行在英偉達GPU和集群上。因此,對於普通大眾來說,英偉達似乎擁有“人工智能市場”,這一圖景並不準確,但也不完整。人工智能市場不僅僅是神經網絡推理,特別是,所有為人工智能模型提供數據的事情都很少受到關注。因此,神經網絡和他的終結者機器人佔據了所有的頭條,儘管它們只是圖片的一部分。實際上,AI應用程序的處理網絡更類似於下圖。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

簡而言之,實際的機器學習代碼執行只是構建和AI應用程序所需的軟件工具的一小部分。為什麼?讓我們深入研究一下。

人工智能不僅僅是深度學習

在高層次上,雖然深度學習是人工智能的一種形式,但反過來並不總是正確的,實現AI的應用程序不一定要使用深度學習。許多人工智能應用程序使用“傳統統計”或“傳統”機器學習。畢竟,支持向量機、邏輯迴歸、K-nearest、Naive Bayes和決策樹在自動進行信息分類時仍然非常有用,尤其是在沒有大量數據的情況下。

例如,在自然語言處理中使用條件隨機域(CRF),許多推薦引擎都是基於玻爾茲曼機、交替最小二乘(ALS)等。舉個例子:我們的“大數據”基準測試是最苛刻、最獨特的基準測試之一,它使用ALS算法作為推薦引擎(“協同過濾”)。

當然,神經網絡的應用——它本身就是一個完整的研究領域——正在蓬勃發展,它們的應用往往主導著最新的人工智能應用。神經網絡也是要求最高的工作負載之一,需要大量的處理能力。所有這些都與邏輯迴歸(logistic regression)形成了鮮明對比,後者仍然是最常用的機器學習方法,而且恰好需要更少的處理。

儘管如此,儘管神經網絡是人工智能技術中處理最密集的技術(尤其是具有大量層的技術),但有幾種傳統的機器學習技術也需要大量的處理能力。例如,支持向量機及其複雜的轉換也往往需要大量的計算時間。在我們的Spark測試中,斯坦福大學的NER系統是基於一個有監督的CRF模型,使用標記的英語數據集合。在測試中,它必須處理大量的高達幾百GB的非結構化文本數據。

反過來,處理能力要求的這些差異的原因實際上非常簡單。引用AI專家Wouter Gevaert的表述:

"神經網絡中的每個神經元都可以被視為邏輯迴歸單元。因此,神經網絡就像大量的邏輯迴歸" (當你使用sigmoid作為激活函數時)

然而,儘管神經網絡是人工智能技術中最需要處理的技術(尤其是具有大量層次的人工智能技術),有幾種傳統的機器學習技術也需要大量的處理能力。例如,支持向量機及其複雜的轉換也往往需要大量的計算時間。在我們的Spark測試中,斯坦福大學的NER系統是基於一個有監督的CRF模型,使用標記的英語數據集合。在測試中,它必須處理幾百GB的大量的非結構化文本。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

當然,大多數分析查詢仍然使用舊的SQL編寫。對於結構化和半結構化數據,對於OLAP多維數據集等,SQL代碼仍然很普遍。由於單個SQL查詢遠不及神經網絡那麼平行 - 在許多情況下它們是100%順序的 - CPU是這項工作的最佳工具。

因此,在實踐中,大多數數據(預處理)和許多人工智能軟件仍然運行在CPU上。GPU主要運行大規模並行的HPC應用程序和神經網絡,這無疑是一個重要的市場,但仍然只是更大的人工智能市場的一部分。這也是為什麼英偉達去年的數據中心收入為30億美元,而英特爾的數據中心收入為200億美元。

"

很多內行會覺得將英特爾(Intel) Cascade Lake與英偉達(Nvidia) 的圖靈(Turing)放在一起比較不太合適,乍一看,硬件選擇看起來很簡單:Intel Xeon CPU為通用處理器,用於存儲和預處理數據,英偉達 GPU更多用於AI。事實上,這在過去幾年中已成為現實。然而,英偉達的競爭對手一直沒有袖手旁觀 - 尤其是英特爾。從專用的低功耗推理處理器到專用優化的Xeon,英特爾正在瞄準AI市場的各個層面。最終的結果是,在所有這些競爭對手之間,我們看到人工智能從許多不同的方向解決,人工智能時代的硬件爭奪是非常有趣的。

今天我們來看看英特爾的第二代Xeon可擴展處理器,即“Cascade Lake”,它可能是英特爾在AI領域硬件的核心。今年早些時候推出的這些新處理器仍然基於與第一代產品相同的核心Skylake架構,但採用了許多新指令來加速AI性能。

就新技術而言,這肯定是Cascade Lake最有趣的方面。雖然我們可以談論一般CPU性能提升3%到6%,英特爾最昂貴處理器的56核,以及“世界紀錄基準”, 但這些小的改進對於IT世界近期和中期的未來幾乎是無關緊要的。看看英特爾新聞與分析師簡報的第一張PPT就知道了。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

物聯網、數據工程和人工智能。這將是增長、創新和未來的主要領域。這就是英特爾的目標。目前,英偉達在這個市場上領域——深度學習和“大規模並行高性能計算”軟件——幾乎處於壟斷地位。由於硬件和軟件方面的一系列因素,大多數軟件都運行在英偉達GPU和集群上。因此,對於普通大眾來說,英偉達似乎擁有“人工智能市場”,這一圖景並不準確,但也不完整。人工智能市場不僅僅是神經網絡推理,特別是,所有為人工智能模型提供數據的事情都很少受到關注。因此,神經網絡和他的終結者機器人佔據了所有的頭條,儘管它們只是圖片的一部分。實際上,AI應用程序的處理網絡更類似於下圖。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

簡而言之,實際的機器學習代碼執行只是構建和AI應用程序所需的軟件工具的一小部分。為什麼?讓我們深入研究一下。

人工智能不僅僅是深度學習

在高層次上,雖然深度學習是人工智能的一種形式,但反過來並不總是正確的,實現AI的應用程序不一定要使用深度學習。許多人工智能應用程序使用“傳統統計”或“傳統”機器學習。畢竟,支持向量機、邏輯迴歸、K-nearest、Naive Bayes和決策樹在自動進行信息分類時仍然非常有用,尤其是在沒有大量數據的情況下。

例如,在自然語言處理中使用條件隨機域(CRF),許多推薦引擎都是基於玻爾茲曼機、交替最小二乘(ALS)等。舉個例子:我們的“大數據”基準測試是最苛刻、最獨特的基準測試之一,它使用ALS算法作為推薦引擎(“協同過濾”)。

當然,神經網絡的應用——它本身就是一個完整的研究領域——正在蓬勃發展,它們的應用往往主導著最新的人工智能應用。神經網絡也是要求最高的工作負載之一,需要大量的處理能力。所有這些都與邏輯迴歸(logistic regression)形成了鮮明對比,後者仍然是最常用的機器學習方法,而且恰好需要更少的處理。

儘管如此,儘管神經網絡是人工智能技術中處理最密集的技術(尤其是具有大量層的技術),但有幾種傳統的機器學習技術也需要大量的處理能力。例如,支持向量機及其複雜的轉換也往往需要大量的計算時間。在我們的Spark測試中,斯坦福大學的NER系統是基於一個有監督的CRF模型,使用標記的英語數據集合。在測試中,它必須處理大量的高達幾百GB的非結構化文本數據。

反過來,處理能力要求的這些差異的原因實際上非常簡單。引用AI專家Wouter Gevaert的表述:

"神經網絡中的每個神經元都可以被視為邏輯迴歸單元。因此,神經網絡就像大量的邏輯迴歸" (當你使用sigmoid作為激活函數時)

然而,儘管神經網絡是人工智能技術中最需要處理的技術(尤其是具有大量層次的人工智能技術),有幾種傳統的機器學習技術也需要大量的處理能力。例如,支持向量機及其複雜的轉換也往往需要大量的計算時間。在我們的Spark測試中,斯坦福大學的NER系統是基於一個有監督的CRF模型,使用標記的英語數據集合。在測試中,它必須處理幾百GB的大量的非結構化文本。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

當然,大多數分析查詢仍然使用舊的SQL編寫。對於結構化和半結構化數據,對於OLAP多維數據集等,SQL代碼仍然很普遍。由於單個SQL查詢遠不及神經網絡那麼平行 - 在許多情況下它們是100%順序的 - CPU是這項工作的最佳工具。

因此,在實踐中,大多數數據(預處理)和許多人工智能軟件仍然運行在CPU上。GPU主要運行大規模並行的HPC應用程序和神經網絡,這無疑是一個重要的市場,但仍然只是更大的人工智能市場的一部分。這也是為什麼英偉達去年的數據中心收入為30億美元,而英特爾的數據中心收入為200億美元。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

然而,使整個情況更加複雜的不僅僅是隻看收入,還要看增長。在數據中心市場,英偉達一直在大幅增長,而英特爾只實現了個位數的增長。隨著新技術的出現,客戶的需求也在不斷變化;對數據分析市場的爭奪已經開始,而且正在加劇。

卷積,循環和可擴展性:尋求平衡

儘管英特爾Xeon Phi協處理器(Xeon Phi協處理器)作為加速器在市場上失敗了,而且已經停產,但英特爾並沒有放棄這個概念。該公司仍希望在人工智能市場佔據更大的份額,包括原本可能進入英偉達的份額。

Naveen提出了一個重點。因為雖然英偉達從未聲稱他們為所有類型的AI提供最好的硬件,但從表面上看整個行業新聞稿中引用最多的基準(ResNet,Inception等),你幾乎可以相信只有一種類型的AI事項。卷積神經網絡(CNN或ConvNets)在基準測試和產品演示中佔據主導地位,因為它們是分析圖像和視頻的最流行的技術。任何可以表示為“2D輸入”的東西都是這些流行神經網絡的輸入層的潛在候選者。

近年來,CNN取得了一些最引人注目的突破。例如,ResNet性能如此受歡迎並不是錯誤的。相關的ImageNet數據庫是斯坦福大學和普林斯頓大學之間的合作,包含了1400萬張圖像。直到最近十年,AI在識別這些圖像方面的表現非常差。美國有線電視新聞網(CNN)以快速的順序改變了這一點,從那以後它一直是最受歡迎的人工智能挑戰之一,因為公司希望能夠比以往更快,更準確地對這個數據庫進行分類。

早在2012年,AlexNet,一個相對簡單的神經網絡,在ImageNet分類競賽中取得了比傳統機器學習技術更好的準確率。在那次測試中,它達到了85%的準確率,幾乎是傳統方法73%準確率的一半。

在2015年,著名的Inception V3在對圖片進行分類時達到了3.58%的錯誤率,這與人類相似(甚至略好於人類)。ImageNet的挑戰變得更加困難,但是由於剩餘的學習,即使不增加層數,CNN也變得更好。這導致了著名的“ResNet”CNN,現在最流行的人工智能基準之一。長話短說,CNNs是人工智能領域的明星。到目前為止,他們得到了最多的關注、測試和研究。

CNN也具有很高的可擴展性:在降低網絡培訓時間時,增加更多GPU(幾乎)線性擴展。

坦率地說,CNN是上天送給英偉達的禮物。這是人們購買昂貴的英偉達 DGX服務器(40萬美元)或購買多臺特斯拉GPU (7k+美元)最常見的原因。

儘管如此,人工智能還有比CNN更多的東西。例如,遞歸神經網絡在語音識別、語言翻譯和時間序列方面也很受歡迎。

這就是MLperf基準計劃如此重要的原因。這是我們第一次獲得CNN未完全統治的基準。

"

很多內行會覺得將英特爾(Intel) Cascade Lake與英偉達(Nvidia) 的圖靈(Turing)放在一起比較不太合適,乍一看,硬件選擇看起來很簡單:Intel Xeon CPU為通用處理器,用於存儲和預處理數據,英偉達 GPU更多用於AI。事實上,這在過去幾年中已成為現實。然而,英偉達的競爭對手一直沒有袖手旁觀 - 尤其是英特爾。從專用的低功耗推理處理器到專用優化的Xeon,英特爾正在瞄準AI市場的各個層面。最終的結果是,在所有這些競爭對手之間,我們看到人工智能從許多不同的方向解決,人工智能時代的硬件爭奪是非常有趣的。

今天我們來看看英特爾的第二代Xeon可擴展處理器,即“Cascade Lake”,它可能是英特爾在AI領域硬件的核心。今年早些時候推出的這些新處理器仍然基於與第一代產品相同的核心Skylake架構,但採用了許多新指令來加速AI性能。

就新技術而言,這肯定是Cascade Lake最有趣的方面。雖然我們可以談論一般CPU性能提升3%到6%,英特爾最昂貴處理器的56核,以及“世界紀錄基準”, 但這些小的改進對於IT世界近期和中期的未來幾乎是無關緊要的。看看英特爾新聞與分析師簡報的第一張PPT就知道了。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

物聯網、數據工程和人工智能。這將是增長、創新和未來的主要領域。這就是英特爾的目標。目前,英偉達在這個市場上領域——深度學習和“大規模並行高性能計算”軟件——幾乎處於壟斷地位。由於硬件和軟件方面的一系列因素,大多數軟件都運行在英偉達GPU和集群上。因此,對於普通大眾來說,英偉達似乎擁有“人工智能市場”,這一圖景並不準確,但也不完整。人工智能市場不僅僅是神經網絡推理,特別是,所有為人工智能模型提供數據的事情都很少受到關注。因此,神經網絡和他的終結者機器人佔據了所有的頭條,儘管它們只是圖片的一部分。實際上,AI應用程序的處理網絡更類似於下圖。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

簡而言之,實際的機器學習代碼執行只是構建和AI應用程序所需的軟件工具的一小部分。為什麼?讓我們深入研究一下。

人工智能不僅僅是深度學習

在高層次上,雖然深度學習是人工智能的一種形式,但反過來並不總是正確的,實現AI的應用程序不一定要使用深度學習。許多人工智能應用程序使用“傳統統計”或“傳統”機器學習。畢竟,支持向量機、邏輯迴歸、K-nearest、Naive Bayes和決策樹在自動進行信息分類時仍然非常有用,尤其是在沒有大量數據的情況下。

例如,在自然語言處理中使用條件隨機域(CRF),許多推薦引擎都是基於玻爾茲曼機、交替最小二乘(ALS)等。舉個例子:我們的“大數據”基準測試是最苛刻、最獨特的基準測試之一,它使用ALS算法作為推薦引擎(“協同過濾”)。

當然,神經網絡的應用——它本身就是一個完整的研究領域——正在蓬勃發展,它們的應用往往主導著最新的人工智能應用。神經網絡也是要求最高的工作負載之一,需要大量的處理能力。所有這些都與邏輯迴歸(logistic regression)形成了鮮明對比,後者仍然是最常用的機器學習方法,而且恰好需要更少的處理。

儘管如此,儘管神經網絡是人工智能技術中處理最密集的技術(尤其是具有大量層的技術),但有幾種傳統的機器學習技術也需要大量的處理能力。例如,支持向量機及其複雜的轉換也往往需要大量的計算時間。在我們的Spark測試中,斯坦福大學的NER系統是基於一個有監督的CRF模型,使用標記的英語數據集合。在測試中,它必須處理大量的高達幾百GB的非結構化文本數據。

反過來,處理能力要求的這些差異的原因實際上非常簡單。引用AI專家Wouter Gevaert的表述:

"神經網絡中的每個神經元都可以被視為邏輯迴歸單元。因此,神經網絡就像大量的邏輯迴歸" (當你使用sigmoid作為激活函數時)

然而,儘管神經網絡是人工智能技術中最需要處理的技術(尤其是具有大量層次的人工智能技術),有幾種傳統的機器學習技術也需要大量的處理能力。例如,支持向量機及其複雜的轉換也往往需要大量的計算時間。在我們的Spark測試中,斯坦福大學的NER系統是基於一個有監督的CRF模型,使用標記的英語數據集合。在測試中,它必須處理幾百GB的大量的非結構化文本。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

當然,大多數分析查詢仍然使用舊的SQL編寫。對於結構化和半結構化數據,對於OLAP多維數據集等,SQL代碼仍然很普遍。由於單個SQL查詢遠不及神經網絡那麼平行 - 在許多情況下它們是100%順序的 - CPU是這項工作的最佳工具。

因此,在實踐中,大多數數據(預處理)和許多人工智能軟件仍然運行在CPU上。GPU主要運行大規模並行的HPC應用程序和神經網絡,這無疑是一個重要的市場,但仍然只是更大的人工智能市場的一部分。這也是為什麼英偉達去年的數據中心收入為30億美元,而英特爾的數據中心收入為200億美元。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

然而,使整個情況更加複雜的不僅僅是隻看收入,還要看增長。在數據中心市場,英偉達一直在大幅增長,而英特爾只實現了個位數的增長。隨著新技術的出現,客戶的需求也在不斷變化;對數據分析市場的爭奪已經開始,而且正在加劇。

卷積,循環和可擴展性:尋求平衡

儘管英特爾Xeon Phi協處理器(Xeon Phi協處理器)作為加速器在市場上失敗了,而且已經停產,但英特爾並沒有放棄這個概念。該公司仍希望在人工智能市場佔據更大的份額,包括原本可能進入英偉達的份額。

Naveen提出了一個重點。因為雖然英偉達從未聲稱他們為所有類型的AI提供最好的硬件,但從表面上看整個行業新聞稿中引用最多的基準(ResNet,Inception等),你幾乎可以相信只有一種類型的AI事項。卷積神經網絡(CNN或ConvNets)在基準測試和產品演示中佔據主導地位,因為它們是分析圖像和視頻的最流行的技術。任何可以表示為“2D輸入”的東西都是這些流行神經網絡的輸入層的潛在候選者。

近年來,CNN取得了一些最引人注目的突破。例如,ResNet性能如此受歡迎並不是錯誤的。相關的ImageNet數據庫是斯坦福大學和普林斯頓大學之間的合作,包含了1400萬張圖像。直到最近十年,AI在識別這些圖像方面的表現非常差。美國有線電視新聞網(CNN)以快速的順序改變了這一點,從那以後它一直是最受歡迎的人工智能挑戰之一,因為公司希望能夠比以往更快,更準確地對這個數據庫進行分類。

早在2012年,AlexNet,一個相對簡單的神經網絡,在ImageNet分類競賽中取得了比傳統機器學習技術更好的準確率。在那次測試中,它達到了85%的準確率,幾乎是傳統方法73%準確率的一半。

在2015年,著名的Inception V3在對圖片進行分類時達到了3.58%的錯誤率,這與人類相似(甚至略好於人類)。ImageNet的挑戰變得更加困難,但是由於剩餘的學習,即使不增加層數,CNN也變得更好。這導致了著名的“ResNet”CNN,現在最流行的人工智能基準之一。長話短說,CNNs是人工智能領域的明星。到目前為止,他們得到了最多的關注、測試和研究。

CNN也具有很高的可擴展性:在降低網絡培訓時間時,增加更多GPU(幾乎)線性擴展。

坦率地說,CNN是上天送給英偉達的禮物。這是人們購買昂貴的英偉達 DGX服務器(40萬美元)或購買多臺特斯拉GPU (7k+美元)最常見的原因。

儘管如此,人工智能還有比CNN更多的東西。例如,遞歸神經網絡在語音識別、語言翻譯和時間序列方面也很受歡迎。

這就是MLperf基準計劃如此重要的原因。這是我們第一次獲得CNN未完全統治的基準。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

快速瀏覽一下MLperf,圖像和對象分類基準當然是CNN,但也表示了RNN(通過神經機器翻譯)和協同過濾。同時,甚至推薦引擎測試也基於神經網絡; 從技術上講,不包括“傳統的”機器學習測試,這是不幸的。但由於這是0.5版本並且該組織正在邀請更多反饋,它肯定是有希望的,一旦它成熟,我們預計它將成為最好的基準。

"

很多內行會覺得將英特爾(Intel) Cascade Lake與英偉達(Nvidia) 的圖靈(Turing)放在一起比較不太合適,乍一看,硬件選擇看起來很簡單:Intel Xeon CPU為通用處理器,用於存儲和預處理數據,英偉達 GPU更多用於AI。事實上,這在過去幾年中已成為現實。然而,英偉達的競爭對手一直沒有袖手旁觀 - 尤其是英特爾。從專用的低功耗推理處理器到專用優化的Xeon,英特爾正在瞄準AI市場的各個層面。最終的結果是,在所有這些競爭對手之間,我們看到人工智能從許多不同的方向解決,人工智能時代的硬件爭奪是非常有趣的。

今天我們來看看英特爾的第二代Xeon可擴展處理器,即“Cascade Lake”,它可能是英特爾在AI領域硬件的核心。今年早些時候推出的這些新處理器仍然基於與第一代產品相同的核心Skylake架構,但採用了許多新指令來加速AI性能。

就新技術而言,這肯定是Cascade Lake最有趣的方面。雖然我們可以談論一般CPU性能提升3%到6%,英特爾最昂貴處理器的56核,以及“世界紀錄基準”, 但這些小的改進對於IT世界近期和中期的未來幾乎是無關緊要的。看看英特爾新聞與分析師簡報的第一張PPT就知道了。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

物聯網、數據工程和人工智能。這將是增長、創新和未來的主要領域。這就是英特爾的目標。目前,英偉達在這個市場上領域——深度學習和“大規模並行高性能計算”軟件——幾乎處於壟斷地位。由於硬件和軟件方面的一系列因素,大多數軟件都運行在英偉達GPU和集群上。因此,對於普通大眾來說,英偉達似乎擁有“人工智能市場”,這一圖景並不準確,但也不完整。人工智能市場不僅僅是神經網絡推理,特別是,所有為人工智能模型提供數據的事情都很少受到關注。因此,神經網絡和他的終結者機器人佔據了所有的頭條,儘管它們只是圖片的一部分。實際上,AI應用程序的處理網絡更類似於下圖。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

簡而言之,實際的機器學習代碼執行只是構建和AI應用程序所需的軟件工具的一小部分。為什麼?讓我們深入研究一下。

人工智能不僅僅是深度學習

在高層次上,雖然深度學習是人工智能的一種形式,但反過來並不總是正確的,實現AI的應用程序不一定要使用深度學習。許多人工智能應用程序使用“傳統統計”或“傳統”機器學習。畢竟,支持向量機、邏輯迴歸、K-nearest、Naive Bayes和決策樹在自動進行信息分類時仍然非常有用,尤其是在沒有大量數據的情況下。

例如,在自然語言處理中使用條件隨機域(CRF),許多推薦引擎都是基於玻爾茲曼機、交替最小二乘(ALS)等。舉個例子:我們的“大數據”基準測試是最苛刻、最獨特的基準測試之一,它使用ALS算法作為推薦引擎(“協同過濾”)。

當然,神經網絡的應用——它本身就是一個完整的研究領域——正在蓬勃發展,它們的應用往往主導著最新的人工智能應用。神經網絡也是要求最高的工作負載之一,需要大量的處理能力。所有這些都與邏輯迴歸(logistic regression)形成了鮮明對比,後者仍然是最常用的機器學習方法,而且恰好需要更少的處理。

儘管如此,儘管神經網絡是人工智能技術中處理最密集的技術(尤其是具有大量層的技術),但有幾種傳統的機器學習技術也需要大量的處理能力。例如,支持向量機及其複雜的轉換也往往需要大量的計算時間。在我們的Spark測試中,斯坦福大學的NER系統是基於一個有監督的CRF模型,使用標記的英語數據集合。在測試中,它必須處理大量的高達幾百GB的非結構化文本數據。

反過來,處理能力要求的這些差異的原因實際上非常簡單。引用AI專家Wouter Gevaert的表述:

"神經網絡中的每個神經元都可以被視為邏輯迴歸單元。因此,神經網絡就像大量的邏輯迴歸" (當你使用sigmoid作為激活函數時)

然而,儘管神經網絡是人工智能技術中最需要處理的技術(尤其是具有大量層次的人工智能技術),有幾種傳統的機器學習技術也需要大量的處理能力。例如,支持向量機及其複雜的轉換也往往需要大量的計算時間。在我們的Spark測試中,斯坦福大學的NER系統是基於一個有監督的CRF模型,使用標記的英語數據集合。在測試中,它必須處理幾百GB的大量的非結構化文本。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

當然,大多數分析查詢仍然使用舊的SQL編寫。對於結構化和半結構化數據,對於OLAP多維數據集等,SQL代碼仍然很普遍。由於單個SQL查詢遠不及神經網絡那麼平行 - 在許多情況下它們是100%順序的 - CPU是這項工作的最佳工具。

因此,在實踐中,大多數數據(預處理)和許多人工智能軟件仍然運行在CPU上。GPU主要運行大規模並行的HPC應用程序和神經網絡,這無疑是一個重要的市場,但仍然只是更大的人工智能市場的一部分。這也是為什麼英偉達去年的數據中心收入為30億美元,而英特爾的數據中心收入為200億美元。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

然而,使整個情況更加複雜的不僅僅是隻看收入,還要看增長。在數據中心市場,英偉達一直在大幅增長,而英特爾只實現了個位數的增長。隨著新技術的出現,客戶的需求也在不斷變化;對數據分析市場的爭奪已經開始,而且正在加劇。

卷積,循環和可擴展性:尋求平衡

儘管英特爾Xeon Phi協處理器(Xeon Phi協處理器)作為加速器在市場上失敗了,而且已經停產,但英特爾並沒有放棄這個概念。該公司仍希望在人工智能市場佔據更大的份額,包括原本可能進入英偉達的份額。

Naveen提出了一個重點。因為雖然英偉達從未聲稱他們為所有類型的AI提供最好的硬件,但從表面上看整個行業新聞稿中引用最多的基準(ResNet,Inception等),你幾乎可以相信只有一種類型的AI事項。卷積神經網絡(CNN或ConvNets)在基準測試和產品演示中佔據主導地位,因為它們是分析圖像和視頻的最流行的技術。任何可以表示為“2D輸入”的東西都是這些流行神經網絡的輸入層的潛在候選者。

近年來,CNN取得了一些最引人注目的突破。例如,ResNet性能如此受歡迎並不是錯誤的。相關的ImageNet數據庫是斯坦福大學和普林斯頓大學之間的合作,包含了1400萬張圖像。直到最近十年,AI在識別這些圖像方面的表現非常差。美國有線電視新聞網(CNN)以快速的順序改變了這一點,從那以後它一直是最受歡迎的人工智能挑戰之一,因為公司希望能夠比以往更快,更準確地對這個數據庫進行分類。

早在2012年,AlexNet,一個相對簡單的神經網絡,在ImageNet分類競賽中取得了比傳統機器學習技術更好的準確率。在那次測試中,它達到了85%的準確率,幾乎是傳統方法73%準確率的一半。

在2015年,著名的Inception V3在對圖片進行分類時達到了3.58%的錯誤率,這與人類相似(甚至略好於人類)。ImageNet的挑戰變得更加困難,但是由於剩餘的學習,即使不增加層數,CNN也變得更好。這導致了著名的“ResNet”CNN,現在最流行的人工智能基準之一。長話短說,CNNs是人工智能領域的明星。到目前為止,他們得到了最多的關注、測試和研究。

CNN也具有很高的可擴展性:在降低網絡培訓時間時,增加更多GPU(幾乎)線性擴展。

坦率地說,CNN是上天送給英偉達的禮物。這是人們購買昂貴的英偉達 DGX服務器(40萬美元)或購買多臺特斯拉GPU (7k+美元)最常見的原因。

儘管如此,人工智能還有比CNN更多的東西。例如,遞歸神經網絡在語音識別、語言翻譯和時間序列方面也很受歡迎。

這就是MLperf基準計劃如此重要的原因。這是我們第一次獲得CNN未完全統治的基準。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

快速瀏覽一下MLperf,圖像和對象分類基準當然是CNN,但也表示了RNN(通過神經機器翻譯)和協同過濾。同時,甚至推薦引擎測試也基於神經網絡; 從技術上講,不包括“傳統的”機器學習測試,這是不幸的。但由於這是0.5版本並且該組織正在邀請更多反饋,它肯定是有希望的,一旦它成熟,我們預計它將成為最好的基準。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

然而,通過戴爾的基準測試,我們可以清楚地看到,並非所有的神經網絡都具有CNN那樣的可擴展性。當您移動到GPU數量的四倍(並添加第二個CPU)時,ResNet CNN很容易翻兩番,而協作過濾方法只提供了50%的更高性能。

事實上,相當多的學術研究都圍繞著優化和適應CNNs展開,這樣它們就可以像處理RNNs一樣處理這些序列建模工作負載,從而可以替代伸縮性較差的RNNs。

英特爾對人工智能的看法

總的來說,英特爾有一個很好的觀點,即存在“廣泛的AI應用”,例如CNN之外的AI生活。在許多現實場景中,傳統的機器學習技術優於CNN,並非所有深度學習都是通過超可擴展的CNN完成的。在其他實際案例中,擁有大量RAM是另一個重要的性能優勢,無論是在訓練模型還是使用它來推斷新數據時。

因此,儘管英偉達在運行CNN方面具有巨大優勢,但高端Xeon 可以在數據分析市場中提供可靠的替代方案。可以肯定的是,沒有人希望新的Cascade Lake Xeon在CNN訓練中勝過英偉達 GPU,但在很多情況下,英特爾可能會說服客戶投資更強大的Xeon而不是昂貴的Tesla加速器:

  • 需要大量內存的人工智能模型的推理

  • 不需要長時間訓練的“輕型”人工智能模型批處理或流處理時間比模型培訓時間更重要的數據體系結構

  • 人工智能模型依賴於傳統的“非神經網絡”統計模型

因此,英特爾或許有機會將英偉達擋在門外,直到他們在CNN工作負載中為英偉達的GPU找到一個合理的替代方案。英特爾一直在為Xeons可伸縮系列產品瘋狂地添加功能,並優化其軟件堆棧,以對抗英偉達的人工智能霸主地位。優化的人工智能軟件,如英特爾自己的Python發行版,英特爾數學內核庫用於深度學習,甚至英特爾數據分析加速庫——主要用於傳統的機器學習……

"

很多內行會覺得將英特爾(Intel) Cascade Lake與英偉達(Nvidia) 的圖靈(Turing)放在一起比較不太合適,乍一看,硬件選擇看起來很簡單:Intel Xeon CPU為通用處理器,用於存儲和預處理數據,英偉達 GPU更多用於AI。事實上,這在過去幾年中已成為現實。然而,英偉達的競爭對手一直沒有袖手旁觀 - 尤其是英特爾。從專用的低功耗推理處理器到專用優化的Xeon,英特爾正在瞄準AI市場的各個層面。最終的結果是,在所有這些競爭對手之間,我們看到人工智能從許多不同的方向解決,人工智能時代的硬件爭奪是非常有趣的。

今天我們來看看英特爾的第二代Xeon可擴展處理器,即“Cascade Lake”,它可能是英特爾在AI領域硬件的核心。今年早些時候推出的這些新處理器仍然基於與第一代產品相同的核心Skylake架構,但採用了許多新指令來加速AI性能。

就新技術而言,這肯定是Cascade Lake最有趣的方面。雖然我們可以談論一般CPU性能提升3%到6%,英特爾最昂貴處理器的56核,以及“世界紀錄基準”, 但這些小的改進對於IT世界近期和中期的未來幾乎是無關緊要的。看看英特爾新聞與分析師簡報的第一張PPT就知道了。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

物聯網、數據工程和人工智能。這將是增長、創新和未來的主要領域。這就是英特爾的目標。目前,英偉達在這個市場上領域——深度學習和“大規模並行高性能計算”軟件——幾乎處於壟斷地位。由於硬件和軟件方面的一系列因素,大多數軟件都運行在英偉達GPU和集群上。因此,對於普通大眾來說,英偉達似乎擁有“人工智能市場”,這一圖景並不準確,但也不完整。人工智能市場不僅僅是神經網絡推理,特別是,所有為人工智能模型提供數據的事情都很少受到關注。因此,神經網絡和他的終結者機器人佔據了所有的頭條,儘管它們只是圖片的一部分。實際上,AI應用程序的處理網絡更類似於下圖。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

簡而言之,實際的機器學習代碼執行只是構建和AI應用程序所需的軟件工具的一小部分。為什麼?讓我們深入研究一下。

人工智能不僅僅是深度學習

在高層次上,雖然深度學習是人工智能的一種形式,但反過來並不總是正確的,實現AI的應用程序不一定要使用深度學習。許多人工智能應用程序使用“傳統統計”或“傳統”機器學習。畢竟,支持向量機、邏輯迴歸、K-nearest、Naive Bayes和決策樹在自動進行信息分類時仍然非常有用,尤其是在沒有大量數據的情況下。

例如,在自然語言處理中使用條件隨機域(CRF),許多推薦引擎都是基於玻爾茲曼機、交替最小二乘(ALS)等。舉個例子:我們的“大數據”基準測試是最苛刻、最獨特的基準測試之一,它使用ALS算法作為推薦引擎(“協同過濾”)。

當然,神經網絡的應用——它本身就是一個完整的研究領域——正在蓬勃發展,它們的應用往往主導著最新的人工智能應用。神經網絡也是要求最高的工作負載之一,需要大量的處理能力。所有這些都與邏輯迴歸(logistic regression)形成了鮮明對比,後者仍然是最常用的機器學習方法,而且恰好需要更少的處理。

儘管如此,儘管神經網絡是人工智能技術中處理最密集的技術(尤其是具有大量層的技術),但有幾種傳統的機器學習技術也需要大量的處理能力。例如,支持向量機及其複雜的轉換也往往需要大量的計算時間。在我們的Spark測試中,斯坦福大學的NER系統是基於一個有監督的CRF模型,使用標記的英語數據集合。在測試中,它必須處理大量的高達幾百GB的非結構化文本數據。

反過來,處理能力要求的這些差異的原因實際上非常簡單。引用AI專家Wouter Gevaert的表述:

"神經網絡中的每個神經元都可以被視為邏輯迴歸單元。因此,神經網絡就像大量的邏輯迴歸" (當你使用sigmoid作為激活函數時)

然而,儘管神經網絡是人工智能技術中最需要處理的技術(尤其是具有大量層次的人工智能技術),有幾種傳統的機器學習技術也需要大量的處理能力。例如,支持向量機及其複雜的轉換也往往需要大量的計算時間。在我們的Spark測試中,斯坦福大學的NER系統是基於一個有監督的CRF模型,使用標記的英語數據集合。在測試中,它必須處理幾百GB的大量的非結構化文本。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

當然,大多數分析查詢仍然使用舊的SQL編寫。對於結構化和半結構化數據,對於OLAP多維數據集等,SQL代碼仍然很普遍。由於單個SQL查詢遠不及神經網絡那麼平行 - 在許多情況下它們是100%順序的 - CPU是這項工作的最佳工具。

因此,在實踐中,大多數數據(預處理)和許多人工智能軟件仍然運行在CPU上。GPU主要運行大規模並行的HPC應用程序和神經網絡,這無疑是一個重要的市場,但仍然只是更大的人工智能市場的一部分。這也是為什麼英偉達去年的數據中心收入為30億美元,而英特爾的數據中心收入為200億美元。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

然而,使整個情況更加複雜的不僅僅是隻看收入,還要看增長。在數據中心市場,英偉達一直在大幅增長,而英特爾只實現了個位數的增長。隨著新技術的出現,客戶的需求也在不斷變化;對數據分析市場的爭奪已經開始,而且正在加劇。

卷積,循環和可擴展性:尋求平衡

儘管英特爾Xeon Phi協處理器(Xeon Phi協處理器)作為加速器在市場上失敗了,而且已經停產,但英特爾並沒有放棄這個概念。該公司仍希望在人工智能市場佔據更大的份額,包括原本可能進入英偉達的份額。

Naveen提出了一個重點。因為雖然英偉達從未聲稱他們為所有類型的AI提供最好的硬件,但從表面上看整個行業新聞稿中引用最多的基準(ResNet,Inception等),你幾乎可以相信只有一種類型的AI事項。卷積神經網絡(CNN或ConvNets)在基準測試和產品演示中佔據主導地位,因為它們是分析圖像和視頻的最流行的技術。任何可以表示為“2D輸入”的東西都是這些流行神經網絡的輸入層的潛在候選者。

近年來,CNN取得了一些最引人注目的突破。例如,ResNet性能如此受歡迎並不是錯誤的。相關的ImageNet數據庫是斯坦福大學和普林斯頓大學之間的合作,包含了1400萬張圖像。直到最近十年,AI在識別這些圖像方面的表現非常差。美國有線電視新聞網(CNN)以快速的順序改變了這一點,從那以後它一直是最受歡迎的人工智能挑戰之一,因為公司希望能夠比以往更快,更準確地對這個數據庫進行分類。

早在2012年,AlexNet,一個相對簡單的神經網絡,在ImageNet分類競賽中取得了比傳統機器學習技術更好的準確率。在那次測試中,它達到了85%的準確率,幾乎是傳統方法73%準確率的一半。

在2015年,著名的Inception V3在對圖片進行分類時達到了3.58%的錯誤率,這與人類相似(甚至略好於人類)。ImageNet的挑戰變得更加困難,但是由於剩餘的學習,即使不增加層數,CNN也變得更好。這導致了著名的“ResNet”CNN,現在最流行的人工智能基準之一。長話短說,CNNs是人工智能領域的明星。到目前為止,他們得到了最多的關注、測試和研究。

CNN也具有很高的可擴展性:在降低網絡培訓時間時,增加更多GPU(幾乎)線性擴展。

坦率地說,CNN是上天送給英偉達的禮物。這是人們購買昂貴的英偉達 DGX服務器(40萬美元)或購買多臺特斯拉GPU (7k+美元)最常見的原因。

儘管如此,人工智能還有比CNN更多的東西。例如,遞歸神經網絡在語音識別、語言翻譯和時間序列方面也很受歡迎。

這就是MLperf基準計劃如此重要的原因。這是我們第一次獲得CNN未完全統治的基準。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

快速瀏覽一下MLperf,圖像和對象分類基準當然是CNN,但也表示了RNN(通過神經機器翻譯)和協同過濾。同時,甚至推薦引擎測試也基於神經網絡; 從技術上講,不包括“傳統的”機器學習測試,這是不幸的。但由於這是0.5版本並且該組織正在邀請更多反饋,它肯定是有希望的,一旦它成熟,我們預計它將成為最好的基準。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

然而,通過戴爾的基準測試,我們可以清楚地看到,並非所有的神經網絡都具有CNN那樣的可擴展性。當您移動到GPU數量的四倍(並添加第二個CPU)時,ResNet CNN很容易翻兩番,而協作過濾方法只提供了50%的更高性能。

事實上,相當多的學術研究都圍繞著優化和適應CNNs展開,這樣它們就可以像處理RNNs一樣處理這些序列建模工作負載,從而可以替代伸縮性較差的RNNs。

英特爾對人工智能的看法

總的來說,英特爾有一個很好的觀點,即存在“廣泛的AI應用”,例如CNN之外的AI生活。在許多現實場景中,傳統的機器學習技術優於CNN,並非所有深度學習都是通過超可擴展的CNN完成的。在其他實際案例中,擁有大量RAM是另一個重要的性能優勢,無論是在訓練模型還是使用它來推斷新數據時。

因此,儘管英偉達在運行CNN方面具有巨大優勢,但高端Xeon 可以在數據分析市場中提供可靠的替代方案。可以肯定的是,沒有人希望新的Cascade Lake Xeon在CNN訓練中勝過英偉達 GPU,但在很多情況下,英特爾可能會說服客戶投資更強大的Xeon而不是昂貴的Tesla加速器:

  • 需要大量內存的人工智能模型的推理

  • 不需要長時間訓練的“輕型”人工智能模型批處理或流處理時間比模型培訓時間更重要的數據體系結構

  • 人工智能模型依賴於傳統的“非神經網絡”統計模型

因此,英特爾或許有機會將英偉達擋在門外,直到他們在CNN工作負載中為英偉達的GPU找到一個合理的替代方案。英特爾一直在為Xeons可伸縮系列產品瘋狂地添加功能,並優化其軟件堆棧,以對抗英偉達的人工智能霸主地位。優化的人工智能軟件,如英特爾自己的Python發行版,英特爾數學內核庫用於深度學習,甚至英特爾數據分析加速庫——主要用於傳統的機器學習……

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

總而言之,對於第二代英特爾至強可擴展處理器,該公司在深度學習(DL)Boost名稱下添加了新的AI硬件功能。這主要包括矢量神經網絡指令(VNNI)集,它可以在一個指令中執行之前需要三個指令。然而,即便更進一步,第三代Xeon可擴展處理器Cooper Lake將增加對bfloat16的支持,進一步提高培訓性能。

總之,英特爾試圖重新佔領“更輕的AI工作負載”市場,同時在數據分析市場的其他部分站穩腳跟,同時在其產品組合中添加非常專業的硬件(FPGA,ASIC)。這對英特爾在IT市場的競爭力至關重要。英特爾一再表示,數據中心集團(DCG)或“企業部分”預計將成為該公司未來幾年的主要增長引擎。

英偉達的答案

英偉達不止一次證明,它可以憑藉出色的願景和戰略戰勝競爭對手。英偉達明白將所有神經網絡擴展為CNN並不容易,並且有很多應用要麼運行在除神經網絡之外的其他方法上,要麼是內存密集型而不是計算密集型。

在GTC Europe,英偉達推出了一個新的數據科學平臺,供企業使用,該平臺建立在英偉達新的“RAPIDS”框架之上。基本思想是數據管道的GPU加速不應侷限於深度學習。

"

很多內行會覺得將英特爾(Intel) Cascade Lake與英偉達(Nvidia) 的圖靈(Turing)放在一起比較不太合適,乍一看,硬件選擇看起來很簡單:Intel Xeon CPU為通用處理器,用於存儲和預處理數據,英偉達 GPU更多用於AI。事實上,這在過去幾年中已成為現實。然而,英偉達的競爭對手一直沒有袖手旁觀 - 尤其是英特爾。從專用的低功耗推理處理器到專用優化的Xeon,英特爾正在瞄準AI市場的各個層面。最終的結果是,在所有這些競爭對手之間,我們看到人工智能從許多不同的方向解決,人工智能時代的硬件爭奪是非常有趣的。

今天我們來看看英特爾的第二代Xeon可擴展處理器,即“Cascade Lake”,它可能是英特爾在AI領域硬件的核心。今年早些時候推出的這些新處理器仍然基於與第一代產品相同的核心Skylake架構,但採用了許多新指令來加速AI性能。

就新技術而言,這肯定是Cascade Lake最有趣的方面。雖然我們可以談論一般CPU性能提升3%到6%,英特爾最昂貴處理器的56核,以及“世界紀錄基準”, 但這些小的改進對於IT世界近期和中期的未來幾乎是無關緊要的。看看英特爾新聞與分析師簡報的第一張PPT就知道了。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

物聯網、數據工程和人工智能。這將是增長、創新和未來的主要領域。這就是英特爾的目標。目前,英偉達在這個市場上領域——深度學習和“大規模並行高性能計算”軟件——幾乎處於壟斷地位。由於硬件和軟件方面的一系列因素,大多數軟件都運行在英偉達GPU和集群上。因此,對於普通大眾來說,英偉達似乎擁有“人工智能市場”,這一圖景並不準確,但也不完整。人工智能市場不僅僅是神經網絡推理,特別是,所有為人工智能模型提供數據的事情都很少受到關注。因此,神經網絡和他的終結者機器人佔據了所有的頭條,儘管它們只是圖片的一部分。實際上,AI應用程序的處理網絡更類似於下圖。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

簡而言之,實際的機器學習代碼執行只是構建和AI應用程序所需的軟件工具的一小部分。為什麼?讓我們深入研究一下。

人工智能不僅僅是深度學習

在高層次上,雖然深度學習是人工智能的一種形式,但反過來並不總是正確的,實現AI的應用程序不一定要使用深度學習。許多人工智能應用程序使用“傳統統計”或“傳統”機器學習。畢竟,支持向量機、邏輯迴歸、K-nearest、Naive Bayes和決策樹在自動進行信息分類時仍然非常有用,尤其是在沒有大量數據的情況下。

例如,在自然語言處理中使用條件隨機域(CRF),許多推薦引擎都是基於玻爾茲曼機、交替最小二乘(ALS)等。舉個例子:我們的“大數據”基準測試是最苛刻、最獨特的基準測試之一,它使用ALS算法作為推薦引擎(“協同過濾”)。

當然,神經網絡的應用——它本身就是一個完整的研究領域——正在蓬勃發展,它們的應用往往主導著最新的人工智能應用。神經網絡也是要求最高的工作負載之一,需要大量的處理能力。所有這些都與邏輯迴歸(logistic regression)形成了鮮明對比,後者仍然是最常用的機器學習方法,而且恰好需要更少的處理。

儘管如此,儘管神經網絡是人工智能技術中處理最密集的技術(尤其是具有大量層的技術),但有幾種傳統的機器學習技術也需要大量的處理能力。例如,支持向量機及其複雜的轉換也往往需要大量的計算時間。在我們的Spark測試中,斯坦福大學的NER系統是基於一個有監督的CRF模型,使用標記的英語數據集合。在測試中,它必須處理大量的高達幾百GB的非結構化文本數據。

反過來,處理能力要求的這些差異的原因實際上非常簡單。引用AI專家Wouter Gevaert的表述:

"神經網絡中的每個神經元都可以被視為邏輯迴歸單元。因此,神經網絡就像大量的邏輯迴歸" (當你使用sigmoid作為激活函數時)

然而,儘管神經網絡是人工智能技術中最需要處理的技術(尤其是具有大量層次的人工智能技術),有幾種傳統的機器學習技術也需要大量的處理能力。例如,支持向量機及其複雜的轉換也往往需要大量的計算時間。在我們的Spark測試中,斯坦福大學的NER系統是基於一個有監督的CRF模型,使用標記的英語數據集合。在測試中,它必須處理幾百GB的大量的非結構化文本。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

當然,大多數分析查詢仍然使用舊的SQL編寫。對於結構化和半結構化數據,對於OLAP多維數據集等,SQL代碼仍然很普遍。由於單個SQL查詢遠不及神經網絡那麼平行 - 在許多情況下它們是100%順序的 - CPU是這項工作的最佳工具。

因此,在實踐中,大多數數據(預處理)和許多人工智能軟件仍然運行在CPU上。GPU主要運行大規模並行的HPC應用程序和神經網絡,這無疑是一個重要的市場,但仍然只是更大的人工智能市場的一部分。這也是為什麼英偉達去年的數據中心收入為30億美元,而英特爾的數據中心收入為200億美元。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

然而,使整個情況更加複雜的不僅僅是隻看收入,還要看增長。在數據中心市場,英偉達一直在大幅增長,而英特爾只實現了個位數的增長。隨著新技術的出現,客戶的需求也在不斷變化;對數據分析市場的爭奪已經開始,而且正在加劇。

卷積,循環和可擴展性:尋求平衡

儘管英特爾Xeon Phi協處理器(Xeon Phi協處理器)作為加速器在市場上失敗了,而且已經停產,但英特爾並沒有放棄這個概念。該公司仍希望在人工智能市場佔據更大的份額,包括原本可能進入英偉達的份額。

Naveen提出了一個重點。因為雖然英偉達從未聲稱他們為所有類型的AI提供最好的硬件,但從表面上看整個行業新聞稿中引用最多的基準(ResNet,Inception等),你幾乎可以相信只有一種類型的AI事項。卷積神經網絡(CNN或ConvNets)在基準測試和產品演示中佔據主導地位,因為它們是分析圖像和視頻的最流行的技術。任何可以表示為“2D輸入”的東西都是這些流行神經網絡的輸入層的潛在候選者。

近年來,CNN取得了一些最引人注目的突破。例如,ResNet性能如此受歡迎並不是錯誤的。相關的ImageNet數據庫是斯坦福大學和普林斯頓大學之間的合作,包含了1400萬張圖像。直到最近十年,AI在識別這些圖像方面的表現非常差。美國有線電視新聞網(CNN)以快速的順序改變了這一點,從那以後它一直是最受歡迎的人工智能挑戰之一,因為公司希望能夠比以往更快,更準確地對這個數據庫進行分類。

早在2012年,AlexNet,一個相對簡單的神經網絡,在ImageNet分類競賽中取得了比傳統機器學習技術更好的準確率。在那次測試中,它達到了85%的準確率,幾乎是傳統方法73%準確率的一半。

在2015年,著名的Inception V3在對圖片進行分類時達到了3.58%的錯誤率,這與人類相似(甚至略好於人類)。ImageNet的挑戰變得更加困難,但是由於剩餘的學習,即使不增加層數,CNN也變得更好。這導致了著名的“ResNet”CNN,現在最流行的人工智能基準之一。長話短說,CNNs是人工智能領域的明星。到目前為止,他們得到了最多的關注、測試和研究。

CNN也具有很高的可擴展性:在降低網絡培訓時間時,增加更多GPU(幾乎)線性擴展。

坦率地說,CNN是上天送給英偉達的禮物。這是人們購買昂貴的英偉達 DGX服務器(40萬美元)或購買多臺特斯拉GPU (7k+美元)最常見的原因。

儘管如此,人工智能還有比CNN更多的東西。例如,遞歸神經網絡在語音識別、語言翻譯和時間序列方面也很受歡迎。

這就是MLperf基準計劃如此重要的原因。這是我們第一次獲得CNN未完全統治的基準。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

快速瀏覽一下MLperf,圖像和對象分類基準當然是CNN,但也表示了RNN(通過神經機器翻譯)和協同過濾。同時,甚至推薦引擎測試也基於神經網絡; 從技術上講,不包括“傳統的”機器學習測試,這是不幸的。但由於這是0.5版本並且該組織正在邀請更多反饋,它肯定是有希望的,一旦它成熟,我們預計它將成為最好的基準。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

然而,通過戴爾的基準測試,我們可以清楚地看到,並非所有的神經網絡都具有CNN那樣的可擴展性。當您移動到GPU數量的四倍(並添加第二個CPU)時,ResNet CNN很容易翻兩番,而協作過濾方法只提供了50%的更高性能。

事實上,相當多的學術研究都圍繞著優化和適應CNNs展開,這樣它們就可以像處理RNNs一樣處理這些序列建模工作負載,從而可以替代伸縮性較差的RNNs。

英特爾對人工智能的看法

總的來說,英特爾有一個很好的觀點,即存在“廣泛的AI應用”,例如CNN之外的AI生活。在許多現實場景中,傳統的機器學習技術優於CNN,並非所有深度學習都是通過超可擴展的CNN完成的。在其他實際案例中,擁有大量RAM是另一個重要的性能優勢,無論是在訓練模型還是使用它來推斷新數據時。

因此,儘管英偉達在運行CNN方面具有巨大優勢,但高端Xeon 可以在數據分析市場中提供可靠的替代方案。可以肯定的是,沒有人希望新的Cascade Lake Xeon在CNN訓練中勝過英偉達 GPU,但在很多情況下,英特爾可能會說服客戶投資更強大的Xeon而不是昂貴的Tesla加速器:

  • 需要大量內存的人工智能模型的推理

  • 不需要長時間訓練的“輕型”人工智能模型批處理或流處理時間比模型培訓時間更重要的數據體系結構

  • 人工智能模型依賴於傳統的“非神經網絡”統計模型

因此,英特爾或許有機會將英偉達擋在門外,直到他們在CNN工作負載中為英偉達的GPU找到一個合理的替代方案。英特爾一直在為Xeons可伸縮系列產品瘋狂地添加功能,並優化其軟件堆棧,以對抗英偉達的人工智能霸主地位。優化的人工智能軟件,如英特爾自己的Python發行版,英特爾數學內核庫用於深度學習,甚至英特爾數據分析加速庫——主要用於傳統的機器學習……

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

總而言之,對於第二代英特爾至強可擴展處理器,該公司在深度學習(DL)Boost名稱下添加了新的AI硬件功能。這主要包括矢量神經網絡指令(VNNI)集,它可以在一個指令中執行之前需要三個指令。然而,即便更進一步,第三代Xeon可擴展處理器Cooper Lake將增加對bfloat16的支持,進一步提高培訓性能。

總之,英特爾試圖重新佔領“更輕的AI工作負載”市場,同時在數據分析市場的其他部分站穩腳跟,同時在其產品組合中添加非常專業的硬件(FPGA,ASIC)。這對英特爾在IT市場的競爭力至關重要。英特爾一再表示,數據中心集團(DCG)或“企業部分”預計將成為該公司未來幾年的主要增長引擎。

英偉達的答案

英偉達不止一次證明,它可以憑藉出色的願景和戰略戰勝競爭對手。英偉達明白將所有神經網絡擴展為CNN並不容易,並且有很多應用要麼運行在除神經網絡之外的其他方法上,要麼是內存密集型而不是計算密集型。

在GTC Europe,英偉達推出了一個新的數據科學平臺,供企業使用,該平臺建立在英偉達新的“RAPIDS”框架之上。基本思想是數據管道的GPU加速不應侷限於深度學習。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

例如,CuDF允許數據科學家將數據加載到GPU內存中並對其進行批處理,類似於Pandas(用於操作數據的python庫)。cuML是目前有限的GPU加速機器學習庫集合。最終,Scikit-Learn工具包中提供的大多數(全部?)機器學習算法應該是GPU加速的,並且可以在cuML中使用。

英偉達還添加了一個柱狀內存數據庫Apache Arrow。這是因為GPU在向量上運行,因此有利於內存中的柱狀佈局。

通過利用Apache arrow作為“中央數據庫”,英偉達避免了大量開銷。

確保存在典型Python庫(如Sci-Kit和Pandas)的GPU加速版本是朝著正確方向邁出的一步。但是Pandas僅適用於較輕的“數據科學探索”任務。通過與Databricks合作確保RAPIDS也用於重型,分佈式“數據處理”框架Spark,英偉達正在邁出下一步,突破“深度學習”角色,並向“NVIDIA”展開其餘部分數據管道。

"

很多內行會覺得將英特爾(Intel) Cascade Lake與英偉達(Nvidia) 的圖靈(Turing)放在一起比較不太合適,乍一看,硬件選擇看起來很簡單:Intel Xeon CPU為通用處理器,用於存儲和預處理數據,英偉達 GPU更多用於AI。事實上,這在過去幾年中已成為現實。然而,英偉達的競爭對手一直沒有袖手旁觀 - 尤其是英特爾。從專用的低功耗推理處理器到專用優化的Xeon,英特爾正在瞄準AI市場的各個層面。最終的結果是,在所有這些競爭對手之間,我們看到人工智能從許多不同的方向解決,人工智能時代的硬件爭奪是非常有趣的。

今天我們來看看英特爾的第二代Xeon可擴展處理器,即“Cascade Lake”,它可能是英特爾在AI領域硬件的核心。今年早些時候推出的這些新處理器仍然基於與第一代產品相同的核心Skylake架構,但採用了許多新指令來加速AI性能。

就新技術而言,這肯定是Cascade Lake最有趣的方面。雖然我們可以談論一般CPU性能提升3%到6%,英特爾最昂貴處理器的56核,以及“世界紀錄基準”, 但這些小的改進對於IT世界近期和中期的未來幾乎是無關緊要的。看看英特爾新聞與分析師簡報的第一張PPT就知道了。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

物聯網、數據工程和人工智能。這將是增長、創新和未來的主要領域。這就是英特爾的目標。目前,英偉達在這個市場上領域——深度學習和“大規模並行高性能計算”軟件——幾乎處於壟斷地位。由於硬件和軟件方面的一系列因素,大多數軟件都運行在英偉達GPU和集群上。因此,對於普通大眾來說,英偉達似乎擁有“人工智能市場”,這一圖景並不準確,但也不完整。人工智能市場不僅僅是神經網絡推理,特別是,所有為人工智能模型提供數據的事情都很少受到關注。因此,神經網絡和他的終結者機器人佔據了所有的頭條,儘管它們只是圖片的一部分。實際上,AI應用程序的處理網絡更類似於下圖。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

簡而言之,實際的機器學習代碼執行只是構建和AI應用程序所需的軟件工具的一小部分。為什麼?讓我們深入研究一下。

人工智能不僅僅是深度學習

在高層次上,雖然深度學習是人工智能的一種形式,但反過來並不總是正確的,實現AI的應用程序不一定要使用深度學習。許多人工智能應用程序使用“傳統統計”或“傳統”機器學習。畢竟,支持向量機、邏輯迴歸、K-nearest、Naive Bayes和決策樹在自動進行信息分類時仍然非常有用,尤其是在沒有大量數據的情況下。

例如,在自然語言處理中使用條件隨機域(CRF),許多推薦引擎都是基於玻爾茲曼機、交替最小二乘(ALS)等。舉個例子:我們的“大數據”基準測試是最苛刻、最獨特的基準測試之一,它使用ALS算法作為推薦引擎(“協同過濾”)。

當然,神經網絡的應用——它本身就是一個完整的研究領域——正在蓬勃發展,它們的應用往往主導著最新的人工智能應用。神經網絡也是要求最高的工作負載之一,需要大量的處理能力。所有這些都與邏輯迴歸(logistic regression)形成了鮮明對比,後者仍然是最常用的機器學習方法,而且恰好需要更少的處理。

儘管如此,儘管神經網絡是人工智能技術中處理最密集的技術(尤其是具有大量層的技術),但有幾種傳統的機器學習技術也需要大量的處理能力。例如,支持向量機及其複雜的轉換也往往需要大量的計算時間。在我們的Spark測試中,斯坦福大學的NER系統是基於一個有監督的CRF模型,使用標記的英語數據集合。在測試中,它必須處理大量的高達幾百GB的非結構化文本數據。

反過來,處理能力要求的這些差異的原因實際上非常簡單。引用AI專家Wouter Gevaert的表述:

"神經網絡中的每個神經元都可以被視為邏輯迴歸單元。因此,神經網絡就像大量的邏輯迴歸" (當你使用sigmoid作為激活函數時)

然而,儘管神經網絡是人工智能技術中最需要處理的技術(尤其是具有大量層次的人工智能技術),有幾種傳統的機器學習技術也需要大量的處理能力。例如,支持向量機及其複雜的轉換也往往需要大量的計算時間。在我們的Spark測試中,斯坦福大學的NER系統是基於一個有監督的CRF模型,使用標記的英語數據集合。在測試中,它必須處理幾百GB的大量的非結構化文本。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

當然,大多數分析查詢仍然使用舊的SQL編寫。對於結構化和半結構化數據,對於OLAP多維數據集等,SQL代碼仍然很普遍。由於單個SQL查詢遠不及神經網絡那麼平行 - 在許多情況下它們是100%順序的 - CPU是這項工作的最佳工具。

因此,在實踐中,大多數數據(預處理)和許多人工智能軟件仍然運行在CPU上。GPU主要運行大規模並行的HPC應用程序和神經網絡,這無疑是一個重要的市場,但仍然只是更大的人工智能市場的一部分。這也是為什麼英偉達去年的數據中心收入為30億美元,而英特爾的數據中心收入為200億美元。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

然而,使整個情況更加複雜的不僅僅是隻看收入,還要看增長。在數據中心市場,英偉達一直在大幅增長,而英特爾只實現了個位數的增長。隨著新技術的出現,客戶的需求也在不斷變化;對數據分析市場的爭奪已經開始,而且正在加劇。

卷積,循環和可擴展性:尋求平衡

儘管英特爾Xeon Phi協處理器(Xeon Phi協處理器)作為加速器在市場上失敗了,而且已經停產,但英特爾並沒有放棄這個概念。該公司仍希望在人工智能市場佔據更大的份額,包括原本可能進入英偉達的份額。

Naveen提出了一個重點。因為雖然英偉達從未聲稱他們為所有類型的AI提供最好的硬件,但從表面上看整個行業新聞稿中引用最多的基準(ResNet,Inception等),你幾乎可以相信只有一種類型的AI事項。卷積神經網絡(CNN或ConvNets)在基準測試和產品演示中佔據主導地位,因為它們是分析圖像和視頻的最流行的技術。任何可以表示為“2D輸入”的東西都是這些流行神經網絡的輸入層的潛在候選者。

近年來,CNN取得了一些最引人注目的突破。例如,ResNet性能如此受歡迎並不是錯誤的。相關的ImageNet數據庫是斯坦福大學和普林斯頓大學之間的合作,包含了1400萬張圖像。直到最近十年,AI在識別這些圖像方面的表現非常差。美國有線電視新聞網(CNN)以快速的順序改變了這一點,從那以後它一直是最受歡迎的人工智能挑戰之一,因為公司希望能夠比以往更快,更準確地對這個數據庫進行分類。

早在2012年,AlexNet,一個相對簡單的神經網絡,在ImageNet分類競賽中取得了比傳統機器學習技術更好的準確率。在那次測試中,它達到了85%的準確率,幾乎是傳統方法73%準確率的一半。

在2015年,著名的Inception V3在對圖片進行分類時達到了3.58%的錯誤率,這與人類相似(甚至略好於人類)。ImageNet的挑戰變得更加困難,但是由於剩餘的學習,即使不增加層數,CNN也變得更好。這導致了著名的“ResNet”CNN,現在最流行的人工智能基準之一。長話短說,CNNs是人工智能領域的明星。到目前為止,他們得到了最多的關注、測試和研究。

CNN也具有很高的可擴展性:在降低網絡培訓時間時,增加更多GPU(幾乎)線性擴展。

坦率地說,CNN是上天送給英偉達的禮物。這是人們購買昂貴的英偉達 DGX服務器(40萬美元)或購買多臺特斯拉GPU (7k+美元)最常見的原因。

儘管如此,人工智能還有比CNN更多的東西。例如,遞歸神經網絡在語音識別、語言翻譯和時間序列方面也很受歡迎。

這就是MLperf基準計劃如此重要的原因。這是我們第一次獲得CNN未完全統治的基準。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

快速瀏覽一下MLperf,圖像和對象分類基準當然是CNN,但也表示了RNN(通過神經機器翻譯)和協同過濾。同時,甚至推薦引擎測試也基於神經網絡; 從技術上講,不包括“傳統的”機器學習測試,這是不幸的。但由於這是0.5版本並且該組織正在邀請更多反饋,它肯定是有希望的,一旦它成熟,我們預計它將成為最好的基準。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

然而,通過戴爾的基準測試,我們可以清楚地看到,並非所有的神經網絡都具有CNN那樣的可擴展性。當您移動到GPU數量的四倍(並添加第二個CPU)時,ResNet CNN很容易翻兩番,而協作過濾方法只提供了50%的更高性能。

事實上,相當多的學術研究都圍繞著優化和適應CNNs展開,這樣它們就可以像處理RNNs一樣處理這些序列建模工作負載,從而可以替代伸縮性較差的RNNs。

英特爾對人工智能的看法

總的來說,英特爾有一個很好的觀點,即存在“廣泛的AI應用”,例如CNN之外的AI生活。在許多現實場景中,傳統的機器學習技術優於CNN,並非所有深度學習都是通過超可擴展的CNN完成的。在其他實際案例中,擁有大量RAM是另一個重要的性能優勢,無論是在訓練模型還是使用它來推斷新數據時。

因此,儘管英偉達在運行CNN方面具有巨大優勢,但高端Xeon 可以在數據分析市場中提供可靠的替代方案。可以肯定的是,沒有人希望新的Cascade Lake Xeon在CNN訓練中勝過英偉達 GPU,但在很多情況下,英特爾可能會說服客戶投資更強大的Xeon而不是昂貴的Tesla加速器:

  • 需要大量內存的人工智能模型的推理

  • 不需要長時間訓練的“輕型”人工智能模型批處理或流處理時間比模型培訓時間更重要的數據體系結構

  • 人工智能模型依賴於傳統的“非神經網絡”統計模型

因此,英特爾或許有機會將英偉達擋在門外,直到他們在CNN工作負載中為英偉達的GPU找到一個合理的替代方案。英特爾一直在為Xeons可伸縮系列產品瘋狂地添加功能,並優化其軟件堆棧,以對抗英偉達的人工智能霸主地位。優化的人工智能軟件,如英特爾自己的Python發行版,英特爾數學內核庫用於深度學習,甚至英特爾數據分析加速庫——主要用於傳統的機器學習……

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

總而言之,對於第二代英特爾至強可擴展處理器,該公司在深度學習(DL)Boost名稱下添加了新的AI硬件功能。這主要包括矢量神經網絡指令(VNNI)集,它可以在一個指令中執行之前需要三個指令。然而,即便更進一步,第三代Xeon可擴展處理器Cooper Lake將增加對bfloat16的支持,進一步提高培訓性能。

總之,英特爾試圖重新佔領“更輕的AI工作負載”市場,同時在數據分析市場的其他部分站穩腳跟,同時在其產品組合中添加非常專業的硬件(FPGA,ASIC)。這對英特爾在IT市場的競爭力至關重要。英特爾一再表示,數據中心集團(DCG)或“企業部分”預計將成為該公司未來幾年的主要增長引擎。

英偉達的答案

英偉達不止一次證明,它可以憑藉出色的願景和戰略戰勝競爭對手。英偉達明白將所有神經網絡擴展為CNN並不容易,並且有很多應用要麼運行在除神經網絡之外的其他方法上,要麼是內存密集型而不是計算密集型。

在GTC Europe,英偉達推出了一個新的數據科學平臺,供企業使用,該平臺建立在英偉達新的“RAPIDS”框架之上。基本思想是數據管道的GPU加速不應侷限於深度學習。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

例如,CuDF允許數據科學家將數據加載到GPU內存中並對其進行批處理,類似於Pandas(用於操作數據的python庫)。cuML是目前有限的GPU加速機器學習庫集合。最終,Scikit-Learn工具包中提供的大多數(全部?)機器學習算法應該是GPU加速的,並且可以在cuML中使用。

英偉達還添加了一個柱狀內存數據庫Apache Arrow。這是因為GPU在向量上運行,因此有利於內存中的柱狀佈局。

通過利用Apache arrow作為“中央數據庫”,英偉達避免了大量開銷。

確保存在典型Python庫(如Sci-Kit和Pandas)的GPU加速版本是朝著正確方向邁出的一步。但是Pandas僅適用於較輕的“數據科學探索”任務。通過與Databricks合作確保RAPIDS也用於重型,分佈式“數據處理”框架Spark,英偉達正在邁出下一步,突破“深度學習”角色,並向“NVIDIA”展開其餘部分數據管道。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

然而,細節決定成敗。將GPU添加到經過多年優化的框架中,以便最優地使用CPU內核和服務器中可用的大量RAM,這並不容易。Spark被構建為運行在幾十個強大的服務器內核上,而不是運行在數千個微不足道的GPU內核上。Spark已經過優化,可以在服務器節點集群上運行,使其看起來像是RAM內存和核心的一個大塊。混合兩種內存(RAM和GPU VRAM)並保持Spark的分佈式計算特性並不容易。

其次,挑選最適合GPU的機器學習算法是一回事,但確保它們在基於gpu的機器上運行良好是另一回事。最後,在可預見的將來,GPU的內存仍然少於CPU,即使是一致的平臺也不能解決系統RAM的速度只是局部VRAM速度的一小部分的問題。

誰將贏得下一個企業市場?

在最後一個投資者日,英偉達的一張PPT清楚地表明瞭企業領域的下一場戰鬥將是什麼:數據分析。請注意昂貴的雙Xeon“Skylake”Scalable如何被視為基線。這是一個相當的聲明; 將最新的英特爾動力系統之一降低到一個完全優秀的簡單基線。

"

很多內行會覺得將英特爾(Intel) Cascade Lake與英偉達(Nvidia) 的圖靈(Turing)放在一起比較不太合適,乍一看,硬件選擇看起來很簡單:Intel Xeon CPU為通用處理器,用於存儲和預處理數據,英偉達 GPU更多用於AI。事實上,這在過去幾年中已成為現實。然而,英偉達的競爭對手一直沒有袖手旁觀 - 尤其是英特爾。從專用的低功耗推理處理器到專用優化的Xeon,英特爾正在瞄準AI市場的各個層面。最終的結果是,在所有這些競爭對手之間,我們看到人工智能從許多不同的方向解決,人工智能時代的硬件爭奪是非常有趣的。

今天我們來看看英特爾的第二代Xeon可擴展處理器,即“Cascade Lake”,它可能是英特爾在AI領域硬件的核心。今年早些時候推出的這些新處理器仍然基於與第一代產品相同的核心Skylake架構,但採用了許多新指令來加速AI性能。

就新技術而言,這肯定是Cascade Lake最有趣的方面。雖然我們可以談論一般CPU性能提升3%到6%,英特爾最昂貴處理器的56核,以及“世界紀錄基準”, 但這些小的改進對於IT世界近期和中期的未來幾乎是無關緊要的。看看英特爾新聞與分析師簡報的第一張PPT就知道了。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

物聯網、數據工程和人工智能。這將是增長、創新和未來的主要領域。這就是英特爾的目標。目前,英偉達在這個市場上領域——深度學習和“大規模並行高性能計算”軟件——幾乎處於壟斷地位。由於硬件和軟件方面的一系列因素,大多數軟件都運行在英偉達GPU和集群上。因此,對於普通大眾來說,英偉達似乎擁有“人工智能市場”,這一圖景並不準確,但也不完整。人工智能市場不僅僅是神經網絡推理,特別是,所有為人工智能模型提供數據的事情都很少受到關注。因此,神經網絡和他的終結者機器人佔據了所有的頭條,儘管它們只是圖片的一部分。實際上,AI應用程序的處理網絡更類似於下圖。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

簡而言之,實際的機器學習代碼執行只是構建和AI應用程序所需的軟件工具的一小部分。為什麼?讓我們深入研究一下。

人工智能不僅僅是深度學習

在高層次上,雖然深度學習是人工智能的一種形式,但反過來並不總是正確的,實現AI的應用程序不一定要使用深度學習。許多人工智能應用程序使用“傳統統計”或“傳統”機器學習。畢竟,支持向量機、邏輯迴歸、K-nearest、Naive Bayes和決策樹在自動進行信息分類時仍然非常有用,尤其是在沒有大量數據的情況下。

例如,在自然語言處理中使用條件隨機域(CRF),許多推薦引擎都是基於玻爾茲曼機、交替最小二乘(ALS)等。舉個例子:我們的“大數據”基準測試是最苛刻、最獨特的基準測試之一,它使用ALS算法作為推薦引擎(“協同過濾”)。

當然,神經網絡的應用——它本身就是一個完整的研究領域——正在蓬勃發展,它們的應用往往主導著最新的人工智能應用。神經網絡也是要求最高的工作負載之一,需要大量的處理能力。所有這些都與邏輯迴歸(logistic regression)形成了鮮明對比,後者仍然是最常用的機器學習方法,而且恰好需要更少的處理。

儘管如此,儘管神經網絡是人工智能技術中處理最密集的技術(尤其是具有大量層的技術),但有幾種傳統的機器學習技術也需要大量的處理能力。例如,支持向量機及其複雜的轉換也往往需要大量的計算時間。在我們的Spark測試中,斯坦福大學的NER系統是基於一個有監督的CRF模型,使用標記的英語數據集合。在測試中,它必須處理大量的高達幾百GB的非結構化文本數據。

反過來,處理能力要求的這些差異的原因實際上非常簡單。引用AI專家Wouter Gevaert的表述:

"神經網絡中的每個神經元都可以被視為邏輯迴歸單元。因此,神經網絡就像大量的邏輯迴歸" (當你使用sigmoid作為激活函數時)

然而,儘管神經網絡是人工智能技術中最需要處理的技術(尤其是具有大量層次的人工智能技術),有幾種傳統的機器學習技術也需要大量的處理能力。例如,支持向量機及其複雜的轉換也往往需要大量的計算時間。在我們的Spark測試中,斯坦福大學的NER系統是基於一個有監督的CRF模型,使用標記的英語數據集合。在測試中,它必須處理幾百GB的大量的非結構化文本。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

當然,大多數分析查詢仍然使用舊的SQL編寫。對於結構化和半結構化數據,對於OLAP多維數據集等,SQL代碼仍然很普遍。由於單個SQL查詢遠不及神經網絡那麼平行 - 在許多情況下它們是100%順序的 - CPU是這項工作的最佳工具。

因此,在實踐中,大多數數據(預處理)和許多人工智能軟件仍然運行在CPU上。GPU主要運行大規模並行的HPC應用程序和神經網絡,這無疑是一個重要的市場,但仍然只是更大的人工智能市場的一部分。這也是為什麼英偉達去年的數據中心收入為30億美元,而英特爾的數據中心收入為200億美元。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

然而,使整個情況更加複雜的不僅僅是隻看收入,還要看增長。在數據中心市場,英偉達一直在大幅增長,而英特爾只實現了個位數的增長。隨著新技術的出現,客戶的需求也在不斷變化;對數據分析市場的爭奪已經開始,而且正在加劇。

卷積,循環和可擴展性:尋求平衡

儘管英特爾Xeon Phi協處理器(Xeon Phi協處理器)作為加速器在市場上失敗了,而且已經停產,但英特爾並沒有放棄這個概念。該公司仍希望在人工智能市場佔據更大的份額,包括原本可能進入英偉達的份額。

Naveen提出了一個重點。因為雖然英偉達從未聲稱他們為所有類型的AI提供最好的硬件,但從表面上看整個行業新聞稿中引用最多的基準(ResNet,Inception等),你幾乎可以相信只有一種類型的AI事項。卷積神經網絡(CNN或ConvNets)在基準測試和產品演示中佔據主導地位,因為它們是分析圖像和視頻的最流行的技術。任何可以表示為“2D輸入”的東西都是這些流行神經網絡的輸入層的潛在候選者。

近年來,CNN取得了一些最引人注目的突破。例如,ResNet性能如此受歡迎並不是錯誤的。相關的ImageNet數據庫是斯坦福大學和普林斯頓大學之間的合作,包含了1400萬張圖像。直到最近十年,AI在識別這些圖像方面的表現非常差。美國有線電視新聞網(CNN)以快速的順序改變了這一點,從那以後它一直是最受歡迎的人工智能挑戰之一,因為公司希望能夠比以往更快,更準確地對這個數據庫進行分類。

早在2012年,AlexNet,一個相對簡單的神經網絡,在ImageNet分類競賽中取得了比傳統機器學習技術更好的準確率。在那次測試中,它達到了85%的準確率,幾乎是傳統方法73%準確率的一半。

在2015年,著名的Inception V3在對圖片進行分類時達到了3.58%的錯誤率,這與人類相似(甚至略好於人類)。ImageNet的挑戰變得更加困難,但是由於剩餘的學習,即使不增加層數,CNN也變得更好。這導致了著名的“ResNet”CNN,現在最流行的人工智能基準之一。長話短說,CNNs是人工智能領域的明星。到目前為止,他們得到了最多的關注、測試和研究。

CNN也具有很高的可擴展性:在降低網絡培訓時間時,增加更多GPU(幾乎)線性擴展。

坦率地說,CNN是上天送給英偉達的禮物。這是人們購買昂貴的英偉達 DGX服務器(40萬美元)或購買多臺特斯拉GPU (7k+美元)最常見的原因。

儘管如此,人工智能還有比CNN更多的東西。例如,遞歸神經網絡在語音識別、語言翻譯和時間序列方面也很受歡迎。

這就是MLperf基準計劃如此重要的原因。這是我們第一次獲得CNN未完全統治的基準。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

快速瀏覽一下MLperf,圖像和對象分類基準當然是CNN,但也表示了RNN(通過神經機器翻譯)和協同過濾。同時,甚至推薦引擎測試也基於神經網絡; 從技術上講,不包括“傳統的”機器學習測試,這是不幸的。但由於這是0.5版本並且該組織正在邀請更多反饋,它肯定是有希望的,一旦它成熟,我們預計它將成為最好的基準。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

然而,通過戴爾的基準測試,我們可以清楚地看到,並非所有的神經網絡都具有CNN那樣的可擴展性。當您移動到GPU數量的四倍(並添加第二個CPU)時,ResNet CNN很容易翻兩番,而協作過濾方法只提供了50%的更高性能。

事實上,相當多的學術研究都圍繞著優化和適應CNNs展開,這樣它們就可以像處理RNNs一樣處理這些序列建模工作負載,從而可以替代伸縮性較差的RNNs。

英特爾對人工智能的看法

總的來說,英特爾有一個很好的觀點,即存在“廣泛的AI應用”,例如CNN之外的AI生活。在許多現實場景中,傳統的機器學習技術優於CNN,並非所有深度學習都是通過超可擴展的CNN完成的。在其他實際案例中,擁有大量RAM是另一個重要的性能優勢,無論是在訓練模型還是使用它來推斷新數據時。

因此,儘管英偉達在運行CNN方面具有巨大優勢,但高端Xeon 可以在數據分析市場中提供可靠的替代方案。可以肯定的是,沒有人希望新的Cascade Lake Xeon在CNN訓練中勝過英偉達 GPU,但在很多情況下,英特爾可能會說服客戶投資更強大的Xeon而不是昂貴的Tesla加速器:

  • 需要大量內存的人工智能模型的推理

  • 不需要長時間訓練的“輕型”人工智能模型批處理或流處理時間比模型培訓時間更重要的數據體系結構

  • 人工智能模型依賴於傳統的“非神經網絡”統計模型

因此,英特爾或許有機會將英偉達擋在門外,直到他們在CNN工作負載中為英偉達的GPU找到一個合理的替代方案。英特爾一直在為Xeons可伸縮系列產品瘋狂地添加功能,並優化其軟件堆棧,以對抗英偉達的人工智能霸主地位。優化的人工智能軟件,如英特爾自己的Python發行版,英特爾數學內核庫用於深度學習,甚至英特爾數據分析加速庫——主要用於傳統的機器學習……

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

總而言之,對於第二代英特爾至強可擴展處理器,該公司在深度學習(DL)Boost名稱下添加了新的AI硬件功能。這主要包括矢量神經網絡指令(VNNI)集,它可以在一個指令中執行之前需要三個指令。然而,即便更進一步,第三代Xeon可擴展處理器Cooper Lake將增加對bfloat16的支持,進一步提高培訓性能。

總之,英特爾試圖重新佔領“更輕的AI工作負載”市場,同時在數據分析市場的其他部分站穩腳跟,同時在其產品組合中添加非常專業的硬件(FPGA,ASIC)。這對英特爾在IT市場的競爭力至關重要。英特爾一再表示,數據中心集團(DCG)或“企業部分”預計將成為該公司未來幾年的主要增長引擎。

英偉達的答案

英偉達不止一次證明,它可以憑藉出色的願景和戰略戰勝競爭對手。英偉達明白將所有神經網絡擴展為CNN並不容易,並且有很多應用要麼運行在除神經網絡之外的其他方法上,要麼是內存密集型而不是計算密集型。

在GTC Europe,英偉達推出了一個新的數據科學平臺,供企業使用,該平臺建立在英偉達新的“RAPIDS”框架之上。基本思想是數據管道的GPU加速不應侷限於深度學習。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

例如,CuDF允許數據科學家將數據加載到GPU內存中並對其進行批處理,類似於Pandas(用於操作數據的python庫)。cuML是目前有限的GPU加速機器學習庫集合。最終,Scikit-Learn工具包中提供的大多數(全部?)機器學習算法應該是GPU加速的,並且可以在cuML中使用。

英偉達還添加了一個柱狀內存數據庫Apache Arrow。這是因為GPU在向量上運行,因此有利於內存中的柱狀佈局。

通過利用Apache arrow作為“中央數據庫”,英偉達避免了大量開銷。

確保存在典型Python庫(如Sci-Kit和Pandas)的GPU加速版本是朝著正確方向邁出的一步。但是Pandas僅適用於較輕的“數據科學探索”任務。通過與Databricks合作確保RAPIDS也用於重型,分佈式“數據處理”框架Spark,英偉達正在邁出下一步,突破“深度學習”角色,並向“NVIDIA”展開其餘部分數據管道。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

然而,細節決定成敗。將GPU添加到經過多年優化的框架中,以便最優地使用CPU內核和服務器中可用的大量RAM,這並不容易。Spark被構建為運行在幾十個強大的服務器內核上,而不是運行在數千個微不足道的GPU內核上。Spark已經過優化,可以在服務器節點集群上運行,使其看起來像是RAM內存和核心的一個大塊。混合兩種內存(RAM和GPU VRAM)並保持Spark的分佈式計算特性並不容易。

其次,挑選最適合GPU的機器學習算法是一回事,但確保它們在基於gpu的機器上運行良好是另一回事。最後,在可預見的將來,GPU的內存仍然少於CPU,即使是一致的平臺也不能解決系統RAM的速度只是局部VRAM速度的一小部分的問題。

誰將贏得下一個企業市場?

在最後一個投資者日,英偉達的一張PPT清楚地表明瞭企業領域的下一場戰鬥將是什麼:數據分析。請注意昂貴的雙Xeon“Skylake”Scalable如何被視為基線。這是一個相當的聲明; 將最新的英特爾動力系統之一降低到一個完全優秀的簡單基線。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

英偉達的整個商業模式圍繞著這樣一個理論:購買昂貴的硬件,如DGXs和特斯拉,對你的TCO有好處(“買得越多,省得越多”)。不要購買5000臺服務器,而是購買50臺DGX。儘管DGX消耗的功率增加了5倍,而且耗資12萬美元而不是9,000美元,但你的狀況會好得多。當然,這是最好的營銷方式,也可能是最差的營銷方式,這取決於你如何看待它。但即使這些數字略有誇大,這也是一個強有力的信息:“從我們的深度學習的大本營到英特爾當前的增長市場(推論、高性能計算和機器學習),我們將以巨大優勢擊敗英特爾。”

不相信嗎?這就是英偉達和IDC對市場演變的看法。

"

很多內行會覺得將英特爾(Intel) Cascade Lake與英偉達(Nvidia) 的圖靈(Turing)放在一起比較不太合適,乍一看,硬件選擇看起來很簡單:Intel Xeon CPU為通用處理器,用於存儲和預處理數據,英偉達 GPU更多用於AI。事實上,這在過去幾年中已成為現實。然而,英偉達的競爭對手一直沒有袖手旁觀 - 尤其是英特爾。從專用的低功耗推理處理器到專用優化的Xeon,英特爾正在瞄準AI市場的各個層面。最終的結果是,在所有這些競爭對手之間,我們看到人工智能從許多不同的方向解決,人工智能時代的硬件爭奪是非常有趣的。

今天我們來看看英特爾的第二代Xeon可擴展處理器,即“Cascade Lake”,它可能是英特爾在AI領域硬件的核心。今年早些時候推出的這些新處理器仍然基於與第一代產品相同的核心Skylake架構,但採用了許多新指令來加速AI性能。

就新技術而言,這肯定是Cascade Lake最有趣的方面。雖然我們可以談論一般CPU性能提升3%到6%,英特爾最昂貴處理器的56核,以及“世界紀錄基準”, 但這些小的改進對於IT世界近期和中期的未來幾乎是無關緊要的。看看英特爾新聞與分析師簡報的第一張PPT就知道了。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

物聯網、數據工程和人工智能。這將是增長、創新和未來的主要領域。這就是英特爾的目標。目前,英偉達在這個市場上領域——深度學習和“大規模並行高性能計算”軟件——幾乎處於壟斷地位。由於硬件和軟件方面的一系列因素,大多數軟件都運行在英偉達GPU和集群上。因此,對於普通大眾來說,英偉達似乎擁有“人工智能市場”,這一圖景並不準確,但也不完整。人工智能市場不僅僅是神經網絡推理,特別是,所有為人工智能模型提供數據的事情都很少受到關注。因此,神經網絡和他的終結者機器人佔據了所有的頭條,儘管它們只是圖片的一部分。實際上,AI應用程序的處理網絡更類似於下圖。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

簡而言之,實際的機器學習代碼執行只是構建和AI應用程序所需的軟件工具的一小部分。為什麼?讓我們深入研究一下。

人工智能不僅僅是深度學習

在高層次上,雖然深度學習是人工智能的一種形式,但反過來並不總是正確的,實現AI的應用程序不一定要使用深度學習。許多人工智能應用程序使用“傳統統計”或“傳統”機器學習。畢竟,支持向量機、邏輯迴歸、K-nearest、Naive Bayes和決策樹在自動進行信息分類時仍然非常有用,尤其是在沒有大量數據的情況下。

例如,在自然語言處理中使用條件隨機域(CRF),許多推薦引擎都是基於玻爾茲曼機、交替最小二乘(ALS)等。舉個例子:我們的“大數據”基準測試是最苛刻、最獨特的基準測試之一,它使用ALS算法作為推薦引擎(“協同過濾”)。

當然,神經網絡的應用——它本身就是一個完整的研究領域——正在蓬勃發展,它們的應用往往主導著最新的人工智能應用。神經網絡也是要求最高的工作負載之一,需要大量的處理能力。所有這些都與邏輯迴歸(logistic regression)形成了鮮明對比,後者仍然是最常用的機器學習方法,而且恰好需要更少的處理。

儘管如此,儘管神經網絡是人工智能技術中處理最密集的技術(尤其是具有大量層的技術),但有幾種傳統的機器學習技術也需要大量的處理能力。例如,支持向量機及其複雜的轉換也往往需要大量的計算時間。在我們的Spark測試中,斯坦福大學的NER系統是基於一個有監督的CRF模型,使用標記的英語數據集合。在測試中,它必須處理大量的高達幾百GB的非結構化文本數據。

反過來,處理能力要求的這些差異的原因實際上非常簡單。引用AI專家Wouter Gevaert的表述:

"神經網絡中的每個神經元都可以被視為邏輯迴歸單元。因此,神經網絡就像大量的邏輯迴歸" (當你使用sigmoid作為激活函數時)

然而,儘管神經網絡是人工智能技術中最需要處理的技術(尤其是具有大量層次的人工智能技術),有幾種傳統的機器學習技術也需要大量的處理能力。例如,支持向量機及其複雜的轉換也往往需要大量的計算時間。在我們的Spark測試中,斯坦福大學的NER系統是基於一個有監督的CRF模型,使用標記的英語數據集合。在測試中,它必須處理幾百GB的大量的非結構化文本。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

當然,大多數分析查詢仍然使用舊的SQL編寫。對於結構化和半結構化數據,對於OLAP多維數據集等,SQL代碼仍然很普遍。由於單個SQL查詢遠不及神經網絡那麼平行 - 在許多情況下它們是100%順序的 - CPU是這項工作的最佳工具。

因此,在實踐中,大多數數據(預處理)和許多人工智能軟件仍然運行在CPU上。GPU主要運行大規模並行的HPC應用程序和神經網絡,這無疑是一個重要的市場,但仍然只是更大的人工智能市場的一部分。這也是為什麼英偉達去年的數據中心收入為30億美元,而英特爾的數據中心收入為200億美元。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

然而,使整個情況更加複雜的不僅僅是隻看收入,還要看增長。在數據中心市場,英偉達一直在大幅增長,而英特爾只實現了個位數的增長。隨著新技術的出現,客戶的需求也在不斷變化;對數據分析市場的爭奪已經開始,而且正在加劇。

卷積,循環和可擴展性:尋求平衡

儘管英特爾Xeon Phi協處理器(Xeon Phi協處理器)作為加速器在市場上失敗了,而且已經停產,但英特爾並沒有放棄這個概念。該公司仍希望在人工智能市場佔據更大的份額,包括原本可能進入英偉達的份額。

Naveen提出了一個重點。因為雖然英偉達從未聲稱他們為所有類型的AI提供最好的硬件,但從表面上看整個行業新聞稿中引用最多的基準(ResNet,Inception等),你幾乎可以相信只有一種類型的AI事項。卷積神經網絡(CNN或ConvNets)在基準測試和產品演示中佔據主導地位,因為它們是分析圖像和視頻的最流行的技術。任何可以表示為“2D輸入”的東西都是這些流行神經網絡的輸入層的潛在候選者。

近年來,CNN取得了一些最引人注目的突破。例如,ResNet性能如此受歡迎並不是錯誤的。相關的ImageNet數據庫是斯坦福大學和普林斯頓大學之間的合作,包含了1400萬張圖像。直到最近十年,AI在識別這些圖像方面的表現非常差。美國有線電視新聞網(CNN)以快速的順序改變了這一點,從那以後它一直是最受歡迎的人工智能挑戰之一,因為公司希望能夠比以往更快,更準確地對這個數據庫進行分類。

早在2012年,AlexNet,一個相對簡單的神經網絡,在ImageNet分類競賽中取得了比傳統機器學習技術更好的準確率。在那次測試中,它達到了85%的準確率,幾乎是傳統方法73%準確率的一半。

在2015年,著名的Inception V3在對圖片進行分類時達到了3.58%的錯誤率,這與人類相似(甚至略好於人類)。ImageNet的挑戰變得更加困難,但是由於剩餘的學習,即使不增加層數,CNN也變得更好。這導致了著名的“ResNet”CNN,現在最流行的人工智能基準之一。長話短說,CNNs是人工智能領域的明星。到目前為止,他們得到了最多的關注、測試和研究。

CNN也具有很高的可擴展性:在降低網絡培訓時間時,增加更多GPU(幾乎)線性擴展。

坦率地說,CNN是上天送給英偉達的禮物。這是人們購買昂貴的英偉達 DGX服務器(40萬美元)或購買多臺特斯拉GPU (7k+美元)最常見的原因。

儘管如此,人工智能還有比CNN更多的東西。例如,遞歸神經網絡在語音識別、語言翻譯和時間序列方面也很受歡迎。

這就是MLperf基準計劃如此重要的原因。這是我們第一次獲得CNN未完全統治的基準。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

快速瀏覽一下MLperf,圖像和對象分類基準當然是CNN,但也表示了RNN(通過神經機器翻譯)和協同過濾。同時,甚至推薦引擎測試也基於神經網絡; 從技術上講,不包括“傳統的”機器學習測試,這是不幸的。但由於這是0.5版本並且該組織正在邀請更多反饋,它肯定是有希望的,一旦它成熟,我們預計它將成為最好的基準。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

然而,通過戴爾的基準測試,我們可以清楚地看到,並非所有的神經網絡都具有CNN那樣的可擴展性。當您移動到GPU數量的四倍(並添加第二個CPU)時,ResNet CNN很容易翻兩番,而協作過濾方法只提供了50%的更高性能。

事實上,相當多的學術研究都圍繞著優化和適應CNNs展開,這樣它們就可以像處理RNNs一樣處理這些序列建模工作負載,從而可以替代伸縮性較差的RNNs。

英特爾對人工智能的看法

總的來說,英特爾有一個很好的觀點,即存在“廣泛的AI應用”,例如CNN之外的AI生活。在許多現實場景中,傳統的機器學習技術優於CNN,並非所有深度學習都是通過超可擴展的CNN完成的。在其他實際案例中,擁有大量RAM是另一個重要的性能優勢,無論是在訓練模型還是使用它來推斷新數據時。

因此,儘管英偉達在運行CNN方面具有巨大優勢,但高端Xeon 可以在數據分析市場中提供可靠的替代方案。可以肯定的是,沒有人希望新的Cascade Lake Xeon在CNN訓練中勝過英偉達 GPU,但在很多情況下,英特爾可能會說服客戶投資更強大的Xeon而不是昂貴的Tesla加速器:

  • 需要大量內存的人工智能模型的推理

  • 不需要長時間訓練的“輕型”人工智能模型批處理或流處理時間比模型培訓時間更重要的數據體系結構

  • 人工智能模型依賴於傳統的“非神經網絡”統計模型

因此,英特爾或許有機會將英偉達擋在門外,直到他們在CNN工作負載中為英偉達的GPU找到一個合理的替代方案。英特爾一直在為Xeons可伸縮系列產品瘋狂地添加功能,並優化其軟件堆棧,以對抗英偉達的人工智能霸主地位。優化的人工智能軟件,如英特爾自己的Python發行版,英特爾數學內核庫用於深度學習,甚至英特爾數據分析加速庫——主要用於傳統的機器學習……

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

總而言之,對於第二代英特爾至強可擴展處理器,該公司在深度學習(DL)Boost名稱下添加了新的AI硬件功能。這主要包括矢量神經網絡指令(VNNI)集,它可以在一個指令中執行之前需要三個指令。然而,即便更進一步,第三代Xeon可擴展處理器Cooper Lake將增加對bfloat16的支持,進一步提高培訓性能。

總之,英特爾試圖重新佔領“更輕的AI工作負載”市場,同時在數據分析市場的其他部分站穩腳跟,同時在其產品組合中添加非常專業的硬件(FPGA,ASIC)。這對英特爾在IT市場的競爭力至關重要。英特爾一再表示,數據中心集團(DCG)或“企業部分”預計將成為該公司未來幾年的主要增長引擎。

英偉達的答案

英偉達不止一次證明,它可以憑藉出色的願景和戰略戰勝競爭對手。英偉達明白將所有神經網絡擴展為CNN並不容易,並且有很多應用要麼運行在除神經網絡之外的其他方法上,要麼是內存密集型而不是計算密集型。

在GTC Europe,英偉達推出了一個新的數據科學平臺,供企業使用,該平臺建立在英偉達新的“RAPIDS”框架之上。基本思想是數據管道的GPU加速不應侷限於深度學習。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

例如,CuDF允許數據科學家將數據加載到GPU內存中並對其進行批處理,類似於Pandas(用於操作數據的python庫)。cuML是目前有限的GPU加速機器學習庫集合。最終,Scikit-Learn工具包中提供的大多數(全部?)機器學習算法應該是GPU加速的,並且可以在cuML中使用。

英偉達還添加了一個柱狀內存數據庫Apache Arrow。這是因為GPU在向量上運行,因此有利於內存中的柱狀佈局。

通過利用Apache arrow作為“中央數據庫”,英偉達避免了大量開銷。

確保存在典型Python庫(如Sci-Kit和Pandas)的GPU加速版本是朝著正確方向邁出的一步。但是Pandas僅適用於較輕的“數據科學探索”任務。通過與Databricks合作確保RAPIDS也用於重型,分佈式“數據處理”框架Spark,英偉達正在邁出下一步,突破“深度學習”角色,並向“NVIDIA”展開其餘部分數據管道。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

然而,細節決定成敗。將GPU添加到經過多年優化的框架中,以便最優地使用CPU內核和服務器中可用的大量RAM,這並不容易。Spark被構建為運行在幾十個強大的服務器內核上,而不是運行在數千個微不足道的GPU內核上。Spark已經過優化,可以在服務器節點集群上運行,使其看起來像是RAM內存和核心的一個大塊。混合兩種內存(RAM和GPU VRAM)並保持Spark的分佈式計算特性並不容易。

其次,挑選最適合GPU的機器學習算法是一回事,但確保它們在基於gpu的機器上運行良好是另一回事。最後,在可預見的將來,GPU的內存仍然少於CPU,即使是一致的平臺也不能解決系統RAM的速度只是局部VRAM速度的一小部分的問題。

誰將贏得下一個企業市場?

在最後一個投資者日,英偉達的一張PPT清楚地表明瞭企業領域的下一場戰鬥將是什麼:數據分析。請注意昂貴的雙Xeon“Skylake”Scalable如何被視為基線。這是一個相當的聲明; 將最新的英特爾動力系統之一降低到一個完全優秀的簡單基線。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

英偉達的整個商業模式圍繞著這樣一個理論:購買昂貴的硬件,如DGXs和特斯拉,對你的TCO有好處(“買得越多,省得越多”)。不要購買5000臺服務器,而是購買50臺DGX。儘管DGX消耗的功率增加了5倍,而且耗資12萬美元而不是9,000美元,但你的狀況會好得多。當然,這是最好的營銷方式,也可能是最差的營銷方式,這取決於你如何看待它。但即使這些數字略有誇大,這也是一個強有力的信息:“從我們的深度學習的大本營到英特爾當前的增長市場(推論、高性能計算和機器學習),我們將以巨大優勢擊敗英特爾。”

不相信嗎?這就是英偉達和IDC對市場演變的看法。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

目前,在總計1000億美元的市場中,計算密集型或高性能子市場約為370億美元。英偉達認為,這個子市場將在2023年翻一番,他們將能夠解決500億美元的問題。換句話說,從廣義上講,數據分析市場將幾乎佔整個服務器市場的一半。

即使這是一種高估,但很明顯,時代在變,而且風險非常高。神經網絡更適合GPU,但如果英特爾可以確保大多數數據管道在CPU上運行得更好,並且您只需要GPU用於最密集和可擴展的神經網絡,那麼它將使英偉達重新回到更適合的角色。另一方面,另一方面,如果英偉達能夠加速更大一部分數據傳輸,它將征服大部分屬於英特爾並迅速擴展的市場。在這場激烈的戰鬥中,IBM和AMD必須確保他們獲得市場份額。IBM將提供更好的基於英偉達 GPU的服務器,AMD將嘗試構建合適的軟件生態系統。

測試筆記

隨著市場的發展,很明顯,除了AMD和ARM之外,英偉達的專業產品對英特爾在數據中心及其他領域的主導地位構成了真正的威脅。因此,對於我們今天的測試,我們將專注於機器學習,並瞭解英特爾新推出的DL Boosted產品如何應對ML領域的競爭。

當然,在英特爾方面,我們正在關注該公司新的Cascade Lake Xeon可擴展CPU。該公司提供了28個核心型號中的兩個,其中包括165瓦Xeon Platinum8176,以及更快的205瓦Xeon Platinum8280。

用於與Cascade Lake的比較評測,我們使用了英偉達最新的“圖靈(Turing)”泰坦(Titan)RTX卡。雖然這些並不是真正的數據中心卡,但它們是基於Turing的,這意味著它們提供了英偉達最新的功能。在我工作的大學裡,我們的深度學習研究人員使用這些GPU來訓練人工智能模型,因為泰坦卡價格低廉,而且有大量GPU內存可用。

另外,Titan RTX卡可以同時用於訓練(混合FP32/16)作為推理(FP16和INT8)。目前的特斯拉仍然基於英偉達的Volta架構,該架構沒有可供推斷的INT8。

最後,不排除,我們也包括AMD的第一代EPYC平臺在我們所有的測試。AMD沒有像英特爾那樣的硬件策略,也沒有像VNNI那樣的具體指令,但最近該公司提供了各種各樣的驚喜。

測試基準配置和方法

我們所有的測試都是在Ubuntu Server18.04 LTS上進行的。您會注意到DRAM容量因我們的服務器配置而異。這當然是因為Xeons可以訪問六個內存通道,而EPYC CPU有八個通道。據我們所知,我們所有的測試都適合128GB,因此DRAM容量對性能影響不大。但它會對總能耗產生影響,我們將對此進行討論。

最後但並非最不重要的是,我們要注意性能圖表是如何進行顏色編碼的。Orange是AMD的EPYC,深藍色是Intel最好的(Cascade Lake / Skylake-SP),淺藍色是上一代Xeon(Xeon E5-v4)。Gray已被用於即將被替換的Xeon v1。

"

很多內行會覺得將英特爾(Intel) Cascade Lake與英偉達(Nvidia) 的圖靈(Turing)放在一起比較不太合適,乍一看,硬件選擇看起來很簡單:Intel Xeon CPU為通用處理器,用於存儲和預處理數據,英偉達 GPU更多用於AI。事實上,這在過去幾年中已成為現實。然而,英偉達的競爭對手一直沒有袖手旁觀 - 尤其是英特爾。從專用的低功耗推理處理器到專用優化的Xeon,英特爾正在瞄準AI市場的各個層面。最終的結果是,在所有這些競爭對手之間,我們看到人工智能從許多不同的方向解決,人工智能時代的硬件爭奪是非常有趣的。

今天我們來看看英特爾的第二代Xeon可擴展處理器,即“Cascade Lake”,它可能是英特爾在AI領域硬件的核心。今年早些時候推出的這些新處理器仍然基於與第一代產品相同的核心Skylake架構,但採用了許多新指令來加速AI性能。

就新技術而言,這肯定是Cascade Lake最有趣的方面。雖然我們可以談論一般CPU性能提升3%到6%,英特爾最昂貴處理器的56核,以及“世界紀錄基準”, 但這些小的改進對於IT世界近期和中期的未來幾乎是無關緊要的。看看英特爾新聞與分析師簡報的第一張PPT就知道了。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

物聯網、數據工程和人工智能。這將是增長、創新和未來的主要領域。這就是英特爾的目標。目前,英偉達在這個市場上領域——深度學習和“大規模並行高性能計算”軟件——幾乎處於壟斷地位。由於硬件和軟件方面的一系列因素,大多數軟件都運行在英偉達GPU和集群上。因此,對於普通大眾來說,英偉達似乎擁有“人工智能市場”,這一圖景並不準確,但也不完整。人工智能市場不僅僅是神經網絡推理,特別是,所有為人工智能模型提供數據的事情都很少受到關注。因此,神經網絡和他的終結者機器人佔據了所有的頭條,儘管它們只是圖片的一部分。實際上,AI應用程序的處理網絡更類似於下圖。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

簡而言之,實際的機器學習代碼執行只是構建和AI應用程序所需的軟件工具的一小部分。為什麼?讓我們深入研究一下。

人工智能不僅僅是深度學習

在高層次上,雖然深度學習是人工智能的一種形式,但反過來並不總是正確的,實現AI的應用程序不一定要使用深度學習。許多人工智能應用程序使用“傳統統計”或“傳統”機器學習。畢竟,支持向量機、邏輯迴歸、K-nearest、Naive Bayes和決策樹在自動進行信息分類時仍然非常有用,尤其是在沒有大量數據的情況下。

例如,在自然語言處理中使用條件隨機域(CRF),許多推薦引擎都是基於玻爾茲曼機、交替最小二乘(ALS)等。舉個例子:我們的“大數據”基準測試是最苛刻、最獨特的基準測試之一,它使用ALS算法作為推薦引擎(“協同過濾”)。

當然,神經網絡的應用——它本身就是一個完整的研究領域——正在蓬勃發展,它們的應用往往主導著最新的人工智能應用。神經網絡也是要求最高的工作負載之一,需要大量的處理能力。所有這些都與邏輯迴歸(logistic regression)形成了鮮明對比,後者仍然是最常用的機器學習方法,而且恰好需要更少的處理。

儘管如此,儘管神經網絡是人工智能技術中處理最密集的技術(尤其是具有大量層的技術),但有幾種傳統的機器學習技術也需要大量的處理能力。例如,支持向量機及其複雜的轉換也往往需要大量的計算時間。在我們的Spark測試中,斯坦福大學的NER系統是基於一個有監督的CRF模型,使用標記的英語數據集合。在測試中,它必須處理大量的高達幾百GB的非結構化文本數據。

反過來,處理能力要求的這些差異的原因實際上非常簡單。引用AI專家Wouter Gevaert的表述:

"神經網絡中的每個神經元都可以被視為邏輯迴歸單元。因此,神經網絡就像大量的邏輯迴歸" (當你使用sigmoid作為激活函數時)

然而,儘管神經網絡是人工智能技術中最需要處理的技術(尤其是具有大量層次的人工智能技術),有幾種傳統的機器學習技術也需要大量的處理能力。例如,支持向量機及其複雜的轉換也往往需要大量的計算時間。在我們的Spark測試中,斯坦福大學的NER系統是基於一個有監督的CRF模型,使用標記的英語數據集合。在測試中,它必須處理幾百GB的大量的非結構化文本。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

當然,大多數分析查詢仍然使用舊的SQL編寫。對於結構化和半結構化數據,對於OLAP多維數據集等,SQL代碼仍然很普遍。由於單個SQL查詢遠不及神經網絡那麼平行 - 在許多情況下它們是100%順序的 - CPU是這項工作的最佳工具。

因此,在實踐中,大多數數據(預處理)和許多人工智能軟件仍然運行在CPU上。GPU主要運行大規模並行的HPC應用程序和神經網絡,這無疑是一個重要的市場,但仍然只是更大的人工智能市場的一部分。這也是為什麼英偉達去年的數據中心收入為30億美元,而英特爾的數據中心收入為200億美元。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

然而,使整個情況更加複雜的不僅僅是隻看收入,還要看增長。在數據中心市場,英偉達一直在大幅增長,而英特爾只實現了個位數的增長。隨著新技術的出現,客戶的需求也在不斷變化;對數據分析市場的爭奪已經開始,而且正在加劇。

卷積,循環和可擴展性:尋求平衡

儘管英特爾Xeon Phi協處理器(Xeon Phi協處理器)作為加速器在市場上失敗了,而且已經停產,但英特爾並沒有放棄這個概念。該公司仍希望在人工智能市場佔據更大的份額,包括原本可能進入英偉達的份額。

Naveen提出了一個重點。因為雖然英偉達從未聲稱他們為所有類型的AI提供最好的硬件,但從表面上看整個行業新聞稿中引用最多的基準(ResNet,Inception等),你幾乎可以相信只有一種類型的AI事項。卷積神經網絡(CNN或ConvNets)在基準測試和產品演示中佔據主導地位,因為它們是分析圖像和視頻的最流行的技術。任何可以表示為“2D輸入”的東西都是這些流行神經網絡的輸入層的潛在候選者。

近年來,CNN取得了一些最引人注目的突破。例如,ResNet性能如此受歡迎並不是錯誤的。相關的ImageNet數據庫是斯坦福大學和普林斯頓大學之間的合作,包含了1400萬張圖像。直到最近十年,AI在識別這些圖像方面的表現非常差。美國有線電視新聞網(CNN)以快速的順序改變了這一點,從那以後它一直是最受歡迎的人工智能挑戰之一,因為公司希望能夠比以往更快,更準確地對這個數據庫進行分類。

早在2012年,AlexNet,一個相對簡單的神經網絡,在ImageNet分類競賽中取得了比傳統機器學習技術更好的準確率。在那次測試中,它達到了85%的準確率,幾乎是傳統方法73%準確率的一半。

在2015年,著名的Inception V3在對圖片進行分類時達到了3.58%的錯誤率,這與人類相似(甚至略好於人類)。ImageNet的挑戰變得更加困難,但是由於剩餘的學習,即使不增加層數,CNN也變得更好。這導致了著名的“ResNet”CNN,現在最流行的人工智能基準之一。長話短說,CNNs是人工智能領域的明星。到目前為止,他們得到了最多的關注、測試和研究。

CNN也具有很高的可擴展性:在降低網絡培訓時間時,增加更多GPU(幾乎)線性擴展。

坦率地說,CNN是上天送給英偉達的禮物。這是人們購買昂貴的英偉達 DGX服務器(40萬美元)或購買多臺特斯拉GPU (7k+美元)最常見的原因。

儘管如此,人工智能還有比CNN更多的東西。例如,遞歸神經網絡在語音識別、語言翻譯和時間序列方面也很受歡迎。

這就是MLperf基準計劃如此重要的原因。這是我們第一次獲得CNN未完全統治的基準。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

快速瀏覽一下MLperf,圖像和對象分類基準當然是CNN,但也表示了RNN(通過神經機器翻譯)和協同過濾。同時,甚至推薦引擎測試也基於神經網絡; 從技術上講,不包括“傳統的”機器學習測試,這是不幸的。但由於這是0.5版本並且該組織正在邀請更多反饋,它肯定是有希望的,一旦它成熟,我們預計它將成為最好的基準。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

然而,通過戴爾的基準測試,我們可以清楚地看到,並非所有的神經網絡都具有CNN那樣的可擴展性。當您移動到GPU數量的四倍(並添加第二個CPU)時,ResNet CNN很容易翻兩番,而協作過濾方法只提供了50%的更高性能。

事實上,相當多的學術研究都圍繞著優化和適應CNNs展開,這樣它們就可以像處理RNNs一樣處理這些序列建模工作負載,從而可以替代伸縮性較差的RNNs。

英特爾對人工智能的看法

總的來說,英特爾有一個很好的觀點,即存在“廣泛的AI應用”,例如CNN之外的AI生活。在許多現實場景中,傳統的機器學習技術優於CNN,並非所有深度學習都是通過超可擴展的CNN完成的。在其他實際案例中,擁有大量RAM是另一個重要的性能優勢,無論是在訓練模型還是使用它來推斷新數據時。

因此,儘管英偉達在運行CNN方面具有巨大優勢,但高端Xeon 可以在數據分析市場中提供可靠的替代方案。可以肯定的是,沒有人希望新的Cascade Lake Xeon在CNN訓練中勝過英偉達 GPU,但在很多情況下,英特爾可能會說服客戶投資更強大的Xeon而不是昂貴的Tesla加速器:

  • 需要大量內存的人工智能模型的推理

  • 不需要長時間訓練的“輕型”人工智能模型批處理或流處理時間比模型培訓時間更重要的數據體系結構

  • 人工智能模型依賴於傳統的“非神經網絡”統計模型

因此,英特爾或許有機會將英偉達擋在門外,直到他們在CNN工作負載中為英偉達的GPU找到一個合理的替代方案。英特爾一直在為Xeons可伸縮系列產品瘋狂地添加功能,並優化其軟件堆棧,以對抗英偉達的人工智能霸主地位。優化的人工智能軟件,如英特爾自己的Python發行版,英特爾數學內核庫用於深度學習,甚至英特爾數據分析加速庫——主要用於傳統的機器學習……

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

總而言之,對於第二代英特爾至強可擴展處理器,該公司在深度學習(DL)Boost名稱下添加了新的AI硬件功能。這主要包括矢量神經網絡指令(VNNI)集,它可以在一個指令中執行之前需要三個指令。然而,即便更進一步,第三代Xeon可擴展處理器Cooper Lake將增加對bfloat16的支持,進一步提高培訓性能。

總之,英特爾試圖重新佔領“更輕的AI工作負載”市場,同時在數據分析市場的其他部分站穩腳跟,同時在其產品組合中添加非常專業的硬件(FPGA,ASIC)。這對英特爾在IT市場的競爭力至關重要。英特爾一再表示,數據中心集團(DCG)或“企業部分”預計將成為該公司未來幾年的主要增長引擎。

英偉達的答案

英偉達不止一次證明,它可以憑藉出色的願景和戰略戰勝競爭對手。英偉達明白將所有神經網絡擴展為CNN並不容易,並且有很多應用要麼運行在除神經網絡之外的其他方法上,要麼是內存密集型而不是計算密集型。

在GTC Europe,英偉達推出了一個新的數據科學平臺,供企業使用,該平臺建立在英偉達新的“RAPIDS”框架之上。基本思想是數據管道的GPU加速不應侷限於深度學習。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

例如,CuDF允許數據科學家將數據加載到GPU內存中並對其進行批處理,類似於Pandas(用於操作數據的python庫)。cuML是目前有限的GPU加速機器學習庫集合。最終,Scikit-Learn工具包中提供的大多數(全部?)機器學習算法應該是GPU加速的,並且可以在cuML中使用。

英偉達還添加了一個柱狀內存數據庫Apache Arrow。這是因為GPU在向量上運行,因此有利於內存中的柱狀佈局。

通過利用Apache arrow作為“中央數據庫”,英偉達避免了大量開銷。

確保存在典型Python庫(如Sci-Kit和Pandas)的GPU加速版本是朝著正確方向邁出的一步。但是Pandas僅適用於較輕的“數據科學探索”任務。通過與Databricks合作確保RAPIDS也用於重型,分佈式“數據處理”框架Spark,英偉達正在邁出下一步,突破“深度學習”角色,並向“NVIDIA”展開其餘部分數據管道。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

然而,細節決定成敗。將GPU添加到經過多年優化的框架中,以便最優地使用CPU內核和服務器中可用的大量RAM,這並不容易。Spark被構建為運行在幾十個強大的服務器內核上,而不是運行在數千個微不足道的GPU內核上。Spark已經過優化,可以在服務器節點集群上運行,使其看起來像是RAM內存和核心的一個大塊。混合兩種內存(RAM和GPU VRAM)並保持Spark的分佈式計算特性並不容易。

其次,挑選最適合GPU的機器學習算法是一回事,但確保它們在基於gpu的機器上運行良好是另一回事。最後,在可預見的將來,GPU的內存仍然少於CPU,即使是一致的平臺也不能解決系統RAM的速度只是局部VRAM速度的一小部分的問題。

誰將贏得下一個企業市場?

在最後一個投資者日,英偉達的一張PPT清楚地表明瞭企業領域的下一場戰鬥將是什麼:數據分析。請注意昂貴的雙Xeon“Skylake”Scalable如何被視為基線。這是一個相當的聲明; 將最新的英特爾動力系統之一降低到一個完全優秀的簡單基線。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

英偉達的整個商業模式圍繞著這樣一個理論:購買昂貴的硬件,如DGXs和特斯拉,對你的TCO有好處(“買得越多,省得越多”)。不要購買5000臺服務器,而是購買50臺DGX。儘管DGX消耗的功率增加了5倍,而且耗資12萬美元而不是9,000美元,但你的狀況會好得多。當然,這是最好的營銷方式,也可能是最差的營銷方式,這取決於你如何看待它。但即使這些數字略有誇大,這也是一個強有力的信息:“從我們的深度學習的大本營到英特爾當前的增長市場(推論、高性能計算和機器學習),我們將以巨大優勢擊敗英特爾。”

不相信嗎?這就是英偉達和IDC對市場演變的看法。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

目前,在總計1000億美元的市場中,計算密集型或高性能子市場約為370億美元。英偉達認為,這個子市場將在2023年翻一番,他們將能夠解決500億美元的問題。換句話說,從廣義上講,數據分析市場將幾乎佔整個服務器市場的一半。

即使這是一種高估,但很明顯,時代在變,而且風險非常高。神經網絡更適合GPU,但如果英特爾可以確保大多數數據管道在CPU上運行得更好,並且您只需要GPU用於最密集和可擴展的神經網絡,那麼它將使英偉達重新回到更適合的角色。另一方面,另一方面,如果英偉達能夠加速更大一部分數據傳輸,它將征服大部分屬於英特爾並迅速擴展的市場。在這場激烈的戰鬥中,IBM和AMD必須確保他們獲得市場份額。IBM將提供更好的基於英偉達 GPU的服務器,AMD將嘗試構建合適的軟件生態系統。

測試筆記

隨著市場的發展,很明顯,除了AMD和ARM之外,英偉達的專業產品對英特爾在數據中心及其他領域的主導地位構成了真正的威脅。因此,對於我們今天的測試,我們將專注於機器學習,並瞭解英特爾新推出的DL Boosted產品如何應對ML領域的競爭。

當然,在英特爾方面,我們正在關注該公司新的Cascade Lake Xeon可擴展CPU。該公司提供了28個核心型號中的兩個,其中包括165瓦Xeon Platinum8176,以及更快的205瓦Xeon Platinum8280。

用於與Cascade Lake的比較評測,我們使用了英偉達最新的“圖靈(Turing)”泰坦(Titan)RTX卡。雖然這些並不是真正的數據中心卡,但它們是基於Turing的,這意味著它們提供了英偉達最新的功能。在我工作的大學裡,我們的深度學習研究人員使用這些GPU來訓練人工智能模型,因為泰坦卡價格低廉,而且有大量GPU內存可用。

另外,Titan RTX卡可以同時用於訓練(混合FP32/16)作為推理(FP16和INT8)。目前的特斯拉仍然基於英偉達的Volta架構,該架構沒有可供推斷的INT8。

最後,不排除,我們也包括AMD的第一代EPYC平臺在我們所有的測試。AMD沒有像英特爾那樣的硬件策略,也沒有像VNNI那樣的具體指令,但最近該公司提供了各種各樣的驚喜。

測試基準配置和方法

我們所有的測試都是在Ubuntu Server18.04 LTS上進行的。您會注意到DRAM容量因我們的服務器配置而異。這當然是因為Xeons可以訪問六個內存通道,而EPYC CPU有八個通道。據我們所知,我們所有的測試都適合128GB,因此DRAM容量對性能影響不大。但它會對總能耗產生影響,我們將對此進行討論。

最後但並非最不重要的是,我們要注意性能圖表是如何進行顏色編碼的。Orange是AMD的EPYC,深藍色是Intel最好的(Cascade Lake / Skylake-SP),淺藍色是上一代Xeon(Xeon E5-v4)。Gray已被用於即將被替換的Xeon v1。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

我們啟用了超線程和英特爾虛擬化加速。

Xeon - NVIDIA Titan RTX工作站

"

很多內行會覺得將英特爾(Intel) Cascade Lake與英偉達(Nvidia) 的圖靈(Turing)放在一起比較不太合適,乍一看,硬件選擇看起來很簡單:Intel Xeon CPU為通用處理器,用於存儲和預處理數據,英偉達 GPU更多用於AI。事實上,這在過去幾年中已成為現實。然而,英偉達的競爭對手一直沒有袖手旁觀 - 尤其是英特爾。從專用的低功耗推理處理器到專用優化的Xeon,英特爾正在瞄準AI市場的各個層面。最終的結果是,在所有這些競爭對手之間,我們看到人工智能從許多不同的方向解決,人工智能時代的硬件爭奪是非常有趣的。

今天我們來看看英特爾的第二代Xeon可擴展處理器,即“Cascade Lake”,它可能是英特爾在AI領域硬件的核心。今年早些時候推出的這些新處理器仍然基於與第一代產品相同的核心Skylake架構,但採用了許多新指令來加速AI性能。

就新技術而言,這肯定是Cascade Lake最有趣的方面。雖然我們可以談論一般CPU性能提升3%到6%,英特爾最昂貴處理器的56核,以及“世界紀錄基準”, 但這些小的改進對於IT世界近期和中期的未來幾乎是無關緊要的。看看英特爾新聞與分析師簡報的第一張PPT就知道了。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

物聯網、數據工程和人工智能。這將是增長、創新和未來的主要領域。這就是英特爾的目標。目前,英偉達在這個市場上領域——深度學習和“大規模並行高性能計算”軟件——幾乎處於壟斷地位。由於硬件和軟件方面的一系列因素,大多數軟件都運行在英偉達GPU和集群上。因此,對於普通大眾來說,英偉達似乎擁有“人工智能市場”,這一圖景並不準確,但也不完整。人工智能市場不僅僅是神經網絡推理,特別是,所有為人工智能模型提供數據的事情都很少受到關注。因此,神經網絡和他的終結者機器人佔據了所有的頭條,儘管它們只是圖片的一部分。實際上,AI應用程序的處理網絡更類似於下圖。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

簡而言之,實際的機器學習代碼執行只是構建和AI應用程序所需的軟件工具的一小部分。為什麼?讓我們深入研究一下。

人工智能不僅僅是深度學習

在高層次上,雖然深度學習是人工智能的一種形式,但反過來並不總是正確的,實現AI的應用程序不一定要使用深度學習。許多人工智能應用程序使用“傳統統計”或“傳統”機器學習。畢竟,支持向量機、邏輯迴歸、K-nearest、Naive Bayes和決策樹在自動進行信息分類時仍然非常有用,尤其是在沒有大量數據的情況下。

例如,在自然語言處理中使用條件隨機域(CRF),許多推薦引擎都是基於玻爾茲曼機、交替最小二乘(ALS)等。舉個例子:我們的“大數據”基準測試是最苛刻、最獨特的基準測試之一,它使用ALS算法作為推薦引擎(“協同過濾”)。

當然,神經網絡的應用——它本身就是一個完整的研究領域——正在蓬勃發展,它們的應用往往主導著最新的人工智能應用。神經網絡也是要求最高的工作負載之一,需要大量的處理能力。所有這些都與邏輯迴歸(logistic regression)形成了鮮明對比,後者仍然是最常用的機器學習方法,而且恰好需要更少的處理。

儘管如此,儘管神經網絡是人工智能技術中處理最密集的技術(尤其是具有大量層的技術),但有幾種傳統的機器學習技術也需要大量的處理能力。例如,支持向量機及其複雜的轉換也往往需要大量的計算時間。在我們的Spark測試中,斯坦福大學的NER系統是基於一個有監督的CRF模型,使用標記的英語數據集合。在測試中,它必須處理大量的高達幾百GB的非結構化文本數據。

反過來,處理能力要求的這些差異的原因實際上非常簡單。引用AI專家Wouter Gevaert的表述:

"神經網絡中的每個神經元都可以被視為邏輯迴歸單元。因此,神經網絡就像大量的邏輯迴歸" (當你使用sigmoid作為激活函數時)

然而,儘管神經網絡是人工智能技術中最需要處理的技術(尤其是具有大量層次的人工智能技術),有幾種傳統的機器學習技術也需要大量的處理能力。例如,支持向量機及其複雜的轉換也往往需要大量的計算時間。在我們的Spark測試中,斯坦福大學的NER系統是基於一個有監督的CRF模型,使用標記的英語數據集合。在測試中,它必須處理幾百GB的大量的非結構化文本。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

當然,大多數分析查詢仍然使用舊的SQL編寫。對於結構化和半結構化數據,對於OLAP多維數據集等,SQL代碼仍然很普遍。由於單個SQL查詢遠不及神經網絡那麼平行 - 在許多情況下它們是100%順序的 - CPU是這項工作的最佳工具。

因此,在實踐中,大多數數據(預處理)和許多人工智能軟件仍然運行在CPU上。GPU主要運行大規模並行的HPC應用程序和神經網絡,這無疑是一個重要的市場,但仍然只是更大的人工智能市場的一部分。這也是為什麼英偉達去年的數據中心收入為30億美元,而英特爾的數據中心收入為200億美元。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

然而,使整個情況更加複雜的不僅僅是隻看收入,還要看增長。在數據中心市場,英偉達一直在大幅增長,而英特爾只實現了個位數的增長。隨著新技術的出現,客戶的需求也在不斷變化;對數據分析市場的爭奪已經開始,而且正在加劇。

卷積,循環和可擴展性:尋求平衡

儘管英特爾Xeon Phi協處理器(Xeon Phi協處理器)作為加速器在市場上失敗了,而且已經停產,但英特爾並沒有放棄這個概念。該公司仍希望在人工智能市場佔據更大的份額,包括原本可能進入英偉達的份額。

Naveen提出了一個重點。因為雖然英偉達從未聲稱他們為所有類型的AI提供最好的硬件,但從表面上看整個行業新聞稿中引用最多的基準(ResNet,Inception等),你幾乎可以相信只有一種類型的AI事項。卷積神經網絡(CNN或ConvNets)在基準測試和產品演示中佔據主導地位,因為它們是分析圖像和視頻的最流行的技術。任何可以表示為“2D輸入”的東西都是這些流行神經網絡的輸入層的潛在候選者。

近年來,CNN取得了一些最引人注目的突破。例如,ResNet性能如此受歡迎並不是錯誤的。相關的ImageNet數據庫是斯坦福大學和普林斯頓大學之間的合作,包含了1400萬張圖像。直到最近十年,AI在識別這些圖像方面的表現非常差。美國有線電視新聞網(CNN)以快速的順序改變了這一點,從那以後它一直是最受歡迎的人工智能挑戰之一,因為公司希望能夠比以往更快,更準確地對這個數據庫進行分類。

早在2012年,AlexNet,一個相對簡單的神經網絡,在ImageNet分類競賽中取得了比傳統機器學習技術更好的準確率。在那次測試中,它達到了85%的準確率,幾乎是傳統方法73%準確率的一半。

在2015年,著名的Inception V3在對圖片進行分類時達到了3.58%的錯誤率,這與人類相似(甚至略好於人類)。ImageNet的挑戰變得更加困難,但是由於剩餘的學習,即使不增加層數,CNN也變得更好。這導致了著名的“ResNet”CNN,現在最流行的人工智能基準之一。長話短說,CNNs是人工智能領域的明星。到目前為止,他們得到了最多的關注、測試和研究。

CNN也具有很高的可擴展性:在降低網絡培訓時間時,增加更多GPU(幾乎)線性擴展。

坦率地說,CNN是上天送給英偉達的禮物。這是人們購買昂貴的英偉達 DGX服務器(40萬美元)或購買多臺特斯拉GPU (7k+美元)最常見的原因。

儘管如此,人工智能還有比CNN更多的東西。例如,遞歸神經網絡在語音識別、語言翻譯和時間序列方面也很受歡迎。

這就是MLperf基準計劃如此重要的原因。這是我們第一次獲得CNN未完全統治的基準。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

快速瀏覽一下MLperf,圖像和對象分類基準當然是CNN,但也表示了RNN(通過神經機器翻譯)和協同過濾。同時,甚至推薦引擎測試也基於神經網絡; 從技術上講,不包括“傳統的”機器學習測試,這是不幸的。但由於這是0.5版本並且該組織正在邀請更多反饋,它肯定是有希望的,一旦它成熟,我們預計它將成為最好的基準。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

然而,通過戴爾的基準測試,我們可以清楚地看到,並非所有的神經網絡都具有CNN那樣的可擴展性。當您移動到GPU數量的四倍(並添加第二個CPU)時,ResNet CNN很容易翻兩番,而協作過濾方法只提供了50%的更高性能。

事實上,相當多的學術研究都圍繞著優化和適應CNNs展開,這樣它們就可以像處理RNNs一樣處理這些序列建模工作負載,從而可以替代伸縮性較差的RNNs。

英特爾對人工智能的看法

總的來說,英特爾有一個很好的觀點,即存在“廣泛的AI應用”,例如CNN之外的AI生活。在許多現實場景中,傳統的機器學習技術優於CNN,並非所有深度學習都是通過超可擴展的CNN完成的。在其他實際案例中,擁有大量RAM是另一個重要的性能優勢,無論是在訓練模型還是使用它來推斷新數據時。

因此,儘管英偉達在運行CNN方面具有巨大優勢,但高端Xeon 可以在數據分析市場中提供可靠的替代方案。可以肯定的是,沒有人希望新的Cascade Lake Xeon在CNN訓練中勝過英偉達 GPU,但在很多情況下,英特爾可能會說服客戶投資更強大的Xeon而不是昂貴的Tesla加速器:

  • 需要大量內存的人工智能模型的推理

  • 不需要長時間訓練的“輕型”人工智能模型批處理或流處理時間比模型培訓時間更重要的數據體系結構

  • 人工智能模型依賴於傳統的“非神經網絡”統計模型

因此,英特爾或許有機會將英偉達擋在門外,直到他們在CNN工作負載中為英偉達的GPU找到一個合理的替代方案。英特爾一直在為Xeons可伸縮系列產品瘋狂地添加功能,並優化其軟件堆棧,以對抗英偉達的人工智能霸主地位。優化的人工智能軟件,如英特爾自己的Python發行版,英特爾數學內核庫用於深度學習,甚至英特爾數據分析加速庫——主要用於傳統的機器學習……

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

總而言之,對於第二代英特爾至強可擴展處理器,該公司在深度學習(DL)Boost名稱下添加了新的AI硬件功能。這主要包括矢量神經網絡指令(VNNI)集,它可以在一個指令中執行之前需要三個指令。然而,即便更進一步,第三代Xeon可擴展處理器Cooper Lake將增加對bfloat16的支持,進一步提高培訓性能。

總之,英特爾試圖重新佔領“更輕的AI工作負載”市場,同時在數據分析市場的其他部分站穩腳跟,同時在其產品組合中添加非常專業的硬件(FPGA,ASIC)。這對英特爾在IT市場的競爭力至關重要。英特爾一再表示,數據中心集團(DCG)或“企業部分”預計將成為該公司未來幾年的主要增長引擎。

英偉達的答案

英偉達不止一次證明,它可以憑藉出色的願景和戰略戰勝競爭對手。英偉達明白將所有神經網絡擴展為CNN並不容易,並且有很多應用要麼運行在除神經網絡之外的其他方法上,要麼是內存密集型而不是計算密集型。

在GTC Europe,英偉達推出了一個新的數據科學平臺,供企業使用,該平臺建立在英偉達新的“RAPIDS”框架之上。基本思想是數據管道的GPU加速不應侷限於深度學習。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

例如,CuDF允許數據科學家將數據加載到GPU內存中並對其進行批處理,類似於Pandas(用於操作數據的python庫)。cuML是目前有限的GPU加速機器學習庫集合。最終,Scikit-Learn工具包中提供的大多數(全部?)機器學習算法應該是GPU加速的,並且可以在cuML中使用。

英偉達還添加了一個柱狀內存數據庫Apache Arrow。這是因為GPU在向量上運行,因此有利於內存中的柱狀佈局。

通過利用Apache arrow作為“中央數據庫”,英偉達避免了大量開銷。

確保存在典型Python庫(如Sci-Kit和Pandas)的GPU加速版本是朝著正確方向邁出的一步。但是Pandas僅適用於較輕的“數據科學探索”任務。通過與Databricks合作確保RAPIDS也用於重型,分佈式“數據處理”框架Spark,英偉達正在邁出下一步,突破“深度學習”角色,並向“NVIDIA”展開其餘部分數據管道。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

然而,細節決定成敗。將GPU添加到經過多年優化的框架中,以便最優地使用CPU內核和服務器中可用的大量RAM,這並不容易。Spark被構建為運行在幾十個強大的服務器內核上,而不是運行在數千個微不足道的GPU內核上。Spark已經過優化,可以在服務器節點集群上運行,使其看起來像是RAM內存和核心的一個大塊。混合兩種內存(RAM和GPU VRAM)並保持Spark的分佈式計算特性並不容易。

其次,挑選最適合GPU的機器學習算法是一回事,但確保它們在基於gpu的機器上運行良好是另一回事。最後,在可預見的將來,GPU的內存仍然少於CPU,即使是一致的平臺也不能解決系統RAM的速度只是局部VRAM速度的一小部分的問題。

誰將贏得下一個企業市場?

在最後一個投資者日,英偉達的一張PPT清楚地表明瞭企業領域的下一場戰鬥將是什麼:數據分析。請注意昂貴的雙Xeon“Skylake”Scalable如何被視為基線。這是一個相當的聲明; 將最新的英特爾動力系統之一降低到一個完全優秀的簡單基線。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

英偉達的整個商業模式圍繞著這樣一個理論:購買昂貴的硬件,如DGXs和特斯拉,對你的TCO有好處(“買得越多,省得越多”)。不要購買5000臺服務器,而是購買50臺DGX。儘管DGX消耗的功率增加了5倍,而且耗資12萬美元而不是9,000美元,但你的狀況會好得多。當然,這是最好的營銷方式,也可能是最差的營銷方式,這取決於你如何看待它。但即使這些數字略有誇大,這也是一個強有力的信息:“從我們的深度學習的大本營到英特爾當前的增長市場(推論、高性能計算和機器學習),我們將以巨大優勢擊敗英特爾。”

不相信嗎?這就是英偉達和IDC對市場演變的看法。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

目前,在總計1000億美元的市場中,計算密集型或高性能子市場約為370億美元。英偉達認為,這個子市場將在2023年翻一番,他們將能夠解決500億美元的問題。換句話說,從廣義上講,數據分析市場將幾乎佔整個服務器市場的一半。

即使這是一種高估,但很明顯,時代在變,而且風險非常高。神經網絡更適合GPU,但如果英特爾可以確保大多數數據管道在CPU上運行得更好,並且您只需要GPU用於最密集和可擴展的神經網絡,那麼它將使英偉達重新回到更適合的角色。另一方面,另一方面,如果英偉達能夠加速更大一部分數據傳輸,它將征服大部分屬於英特爾並迅速擴展的市場。在這場激烈的戰鬥中,IBM和AMD必須確保他們獲得市場份額。IBM將提供更好的基於英偉達 GPU的服務器,AMD將嘗試構建合適的軟件生態系統。

測試筆記

隨著市場的發展,很明顯,除了AMD和ARM之外,英偉達的專業產品對英特爾在數據中心及其他領域的主導地位構成了真正的威脅。因此,對於我們今天的測試,我們將專注於機器學習,並瞭解英特爾新推出的DL Boosted產品如何應對ML領域的競爭。

當然,在英特爾方面,我們正在關注該公司新的Cascade Lake Xeon可擴展CPU。該公司提供了28個核心型號中的兩個,其中包括165瓦Xeon Platinum8176,以及更快的205瓦Xeon Platinum8280。

用於與Cascade Lake的比較評測,我們使用了英偉達最新的“圖靈(Turing)”泰坦(Titan)RTX卡。雖然這些並不是真正的數據中心卡,但它們是基於Turing的,這意味著它們提供了英偉達最新的功能。在我工作的大學裡,我們的深度學習研究人員使用這些GPU來訓練人工智能模型,因為泰坦卡價格低廉,而且有大量GPU內存可用。

另外,Titan RTX卡可以同時用於訓練(混合FP32/16)作為推理(FP16和INT8)。目前的特斯拉仍然基於英偉達的Volta架構,該架構沒有可供推斷的INT8。

最後,不排除,我們也包括AMD的第一代EPYC平臺在我們所有的測試。AMD沒有像英特爾那樣的硬件策略,也沒有像VNNI那樣的具體指令,但最近該公司提供了各種各樣的驚喜。

測試基準配置和方法

我們所有的測試都是在Ubuntu Server18.04 LTS上進行的。您會注意到DRAM容量因我們的服務器配置而異。這當然是因為Xeons可以訪問六個內存通道,而EPYC CPU有八個通道。據我們所知,我們所有的測試都適合128GB,因此DRAM容量對性能影響不大。但它會對總能耗產生影響,我們將對此進行討論。

最後但並非最不重要的是,我們要注意性能圖表是如何進行顏色編碼的。Orange是AMD的EPYC,深藍色是Intel最好的(Cascade Lake / Skylake-SP),淺藍色是上一代Xeon(Xeon E5-v4)。Gray已被用於即將被替換的Xeon v1。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

我們啟用了超線程和英特爾虛擬化加速。

Xeon - NVIDIA Titan RTX工作站

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

這是測試中唯一具有獨立GPU的服務器。

AMD EPYC 7601 - (2U機箱)

"

很多內行會覺得將英特爾(Intel) Cascade Lake與英偉達(Nvidia) 的圖靈(Turing)放在一起比較不太合適,乍一看,硬件選擇看起來很簡單:Intel Xeon CPU為通用處理器,用於存儲和預處理數據,英偉達 GPU更多用於AI。事實上,這在過去幾年中已成為現實。然而,英偉達的競爭對手一直沒有袖手旁觀 - 尤其是英特爾。從專用的低功耗推理處理器到專用優化的Xeon,英特爾正在瞄準AI市場的各個層面。最終的結果是,在所有這些競爭對手之間,我們看到人工智能從許多不同的方向解決,人工智能時代的硬件爭奪是非常有趣的。

今天我們來看看英特爾的第二代Xeon可擴展處理器,即“Cascade Lake”,它可能是英特爾在AI領域硬件的核心。今年早些時候推出的這些新處理器仍然基於與第一代產品相同的核心Skylake架構,但採用了許多新指令來加速AI性能。

就新技術而言,這肯定是Cascade Lake最有趣的方面。雖然我們可以談論一般CPU性能提升3%到6%,英特爾最昂貴處理器的56核,以及“世界紀錄基準”, 但這些小的改進對於IT世界近期和中期的未來幾乎是無關緊要的。看看英特爾新聞與分析師簡報的第一張PPT就知道了。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

物聯網、數據工程和人工智能。這將是增長、創新和未來的主要領域。這就是英特爾的目標。目前,英偉達在這個市場上領域——深度學習和“大規模並行高性能計算”軟件——幾乎處於壟斷地位。由於硬件和軟件方面的一系列因素,大多數軟件都運行在英偉達GPU和集群上。因此,對於普通大眾來說,英偉達似乎擁有“人工智能市場”,這一圖景並不準確,但也不完整。人工智能市場不僅僅是神經網絡推理,特別是,所有為人工智能模型提供數據的事情都很少受到關注。因此,神經網絡和他的終結者機器人佔據了所有的頭條,儘管它們只是圖片的一部分。實際上,AI應用程序的處理網絡更類似於下圖。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

簡而言之,實際的機器學習代碼執行只是構建和AI應用程序所需的軟件工具的一小部分。為什麼?讓我們深入研究一下。

人工智能不僅僅是深度學習

在高層次上,雖然深度學習是人工智能的一種形式,但反過來並不總是正確的,實現AI的應用程序不一定要使用深度學習。許多人工智能應用程序使用“傳統統計”或“傳統”機器學習。畢竟,支持向量機、邏輯迴歸、K-nearest、Naive Bayes和決策樹在自動進行信息分類時仍然非常有用,尤其是在沒有大量數據的情況下。

例如,在自然語言處理中使用條件隨機域(CRF),許多推薦引擎都是基於玻爾茲曼機、交替最小二乘(ALS)等。舉個例子:我們的“大數據”基準測試是最苛刻、最獨特的基準測試之一,它使用ALS算法作為推薦引擎(“協同過濾”)。

當然,神經網絡的應用——它本身就是一個完整的研究領域——正在蓬勃發展,它們的應用往往主導著最新的人工智能應用。神經網絡也是要求最高的工作負載之一,需要大量的處理能力。所有這些都與邏輯迴歸(logistic regression)形成了鮮明對比,後者仍然是最常用的機器學習方法,而且恰好需要更少的處理。

儘管如此,儘管神經網絡是人工智能技術中處理最密集的技術(尤其是具有大量層的技術),但有幾種傳統的機器學習技術也需要大量的處理能力。例如,支持向量機及其複雜的轉換也往往需要大量的計算時間。在我們的Spark測試中,斯坦福大學的NER系統是基於一個有監督的CRF模型,使用標記的英語數據集合。在測試中,它必須處理大量的高達幾百GB的非結構化文本數據。

反過來,處理能力要求的這些差異的原因實際上非常簡單。引用AI專家Wouter Gevaert的表述:

"神經網絡中的每個神經元都可以被視為邏輯迴歸單元。因此,神經網絡就像大量的邏輯迴歸" (當你使用sigmoid作為激活函數時)

然而,儘管神經網絡是人工智能技術中最需要處理的技術(尤其是具有大量層次的人工智能技術),有幾種傳統的機器學習技術也需要大量的處理能力。例如,支持向量機及其複雜的轉換也往往需要大量的計算時間。在我們的Spark測試中,斯坦福大學的NER系統是基於一個有監督的CRF模型,使用標記的英語數據集合。在測試中,它必須處理幾百GB的大量的非結構化文本。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

當然,大多數分析查詢仍然使用舊的SQL編寫。對於結構化和半結構化數據,對於OLAP多維數據集等,SQL代碼仍然很普遍。由於單個SQL查詢遠不及神經網絡那麼平行 - 在許多情況下它們是100%順序的 - CPU是這項工作的最佳工具。

因此,在實踐中,大多數數據(預處理)和許多人工智能軟件仍然運行在CPU上。GPU主要運行大規模並行的HPC應用程序和神經網絡,這無疑是一個重要的市場,但仍然只是更大的人工智能市場的一部分。這也是為什麼英偉達去年的數據中心收入為30億美元,而英特爾的數據中心收入為200億美元。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

然而,使整個情況更加複雜的不僅僅是隻看收入,還要看增長。在數據中心市場,英偉達一直在大幅增長,而英特爾只實現了個位數的增長。隨著新技術的出現,客戶的需求也在不斷變化;對數據分析市場的爭奪已經開始,而且正在加劇。

卷積,循環和可擴展性:尋求平衡

儘管英特爾Xeon Phi協處理器(Xeon Phi協處理器)作為加速器在市場上失敗了,而且已經停產,但英特爾並沒有放棄這個概念。該公司仍希望在人工智能市場佔據更大的份額,包括原本可能進入英偉達的份額。

Naveen提出了一個重點。因為雖然英偉達從未聲稱他們為所有類型的AI提供最好的硬件,但從表面上看整個行業新聞稿中引用最多的基準(ResNet,Inception等),你幾乎可以相信只有一種類型的AI事項。卷積神經網絡(CNN或ConvNets)在基準測試和產品演示中佔據主導地位,因為它們是分析圖像和視頻的最流行的技術。任何可以表示為“2D輸入”的東西都是這些流行神經網絡的輸入層的潛在候選者。

近年來,CNN取得了一些最引人注目的突破。例如,ResNet性能如此受歡迎並不是錯誤的。相關的ImageNet數據庫是斯坦福大學和普林斯頓大學之間的合作,包含了1400萬張圖像。直到最近十年,AI在識別這些圖像方面的表現非常差。美國有線電視新聞網(CNN)以快速的順序改變了這一點,從那以後它一直是最受歡迎的人工智能挑戰之一,因為公司希望能夠比以往更快,更準確地對這個數據庫進行分類。

早在2012年,AlexNet,一個相對簡單的神經網絡,在ImageNet分類競賽中取得了比傳統機器學習技術更好的準確率。在那次測試中,它達到了85%的準確率,幾乎是傳統方法73%準確率的一半。

在2015年,著名的Inception V3在對圖片進行分類時達到了3.58%的錯誤率,這與人類相似(甚至略好於人類)。ImageNet的挑戰變得更加困難,但是由於剩餘的學習,即使不增加層數,CNN也變得更好。這導致了著名的“ResNet”CNN,現在最流行的人工智能基準之一。長話短說,CNNs是人工智能領域的明星。到目前為止,他們得到了最多的關注、測試和研究。

CNN也具有很高的可擴展性:在降低網絡培訓時間時,增加更多GPU(幾乎)線性擴展。

坦率地說,CNN是上天送給英偉達的禮物。這是人們購買昂貴的英偉達 DGX服務器(40萬美元)或購買多臺特斯拉GPU (7k+美元)最常見的原因。

儘管如此,人工智能還有比CNN更多的東西。例如,遞歸神經網絡在語音識別、語言翻譯和時間序列方面也很受歡迎。

這就是MLperf基準計劃如此重要的原因。這是我們第一次獲得CNN未完全統治的基準。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

快速瀏覽一下MLperf,圖像和對象分類基準當然是CNN,但也表示了RNN(通過神經機器翻譯)和協同過濾。同時,甚至推薦引擎測試也基於神經網絡; 從技術上講,不包括“傳統的”機器學習測試,這是不幸的。但由於這是0.5版本並且該組織正在邀請更多反饋,它肯定是有希望的,一旦它成熟,我們預計它將成為最好的基準。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

然而,通過戴爾的基準測試,我們可以清楚地看到,並非所有的神經網絡都具有CNN那樣的可擴展性。當您移動到GPU數量的四倍(並添加第二個CPU)時,ResNet CNN很容易翻兩番,而協作過濾方法只提供了50%的更高性能。

事實上,相當多的學術研究都圍繞著優化和適應CNNs展開,這樣它們就可以像處理RNNs一樣處理這些序列建模工作負載,從而可以替代伸縮性較差的RNNs。

英特爾對人工智能的看法

總的來說,英特爾有一個很好的觀點,即存在“廣泛的AI應用”,例如CNN之外的AI生活。在許多現實場景中,傳統的機器學習技術優於CNN,並非所有深度學習都是通過超可擴展的CNN完成的。在其他實際案例中,擁有大量RAM是另一個重要的性能優勢,無論是在訓練模型還是使用它來推斷新數據時。

因此,儘管英偉達在運行CNN方面具有巨大優勢,但高端Xeon 可以在數據分析市場中提供可靠的替代方案。可以肯定的是,沒有人希望新的Cascade Lake Xeon在CNN訓練中勝過英偉達 GPU,但在很多情況下,英特爾可能會說服客戶投資更強大的Xeon而不是昂貴的Tesla加速器:

  • 需要大量內存的人工智能模型的推理

  • 不需要長時間訓練的“輕型”人工智能模型批處理或流處理時間比模型培訓時間更重要的數據體系結構

  • 人工智能模型依賴於傳統的“非神經網絡”統計模型

因此,英特爾或許有機會將英偉達擋在門外,直到他們在CNN工作負載中為英偉達的GPU找到一個合理的替代方案。英特爾一直在為Xeons可伸縮系列產品瘋狂地添加功能,並優化其軟件堆棧,以對抗英偉達的人工智能霸主地位。優化的人工智能軟件,如英特爾自己的Python發行版,英特爾數學內核庫用於深度學習,甚至英特爾數據分析加速庫——主要用於傳統的機器學習……

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

總而言之,對於第二代英特爾至強可擴展處理器,該公司在深度學習(DL)Boost名稱下添加了新的AI硬件功能。這主要包括矢量神經網絡指令(VNNI)集,它可以在一個指令中執行之前需要三個指令。然而,即便更進一步,第三代Xeon可擴展處理器Cooper Lake將增加對bfloat16的支持,進一步提高培訓性能。

總之,英特爾試圖重新佔領“更輕的AI工作負載”市場,同時在數據分析市場的其他部分站穩腳跟,同時在其產品組合中添加非常專業的硬件(FPGA,ASIC)。這對英特爾在IT市場的競爭力至關重要。英特爾一再表示,數據中心集團(DCG)或“企業部分”預計將成為該公司未來幾年的主要增長引擎。

英偉達的答案

英偉達不止一次證明,它可以憑藉出色的願景和戰略戰勝競爭對手。英偉達明白將所有神經網絡擴展為CNN並不容易,並且有很多應用要麼運行在除神經網絡之外的其他方法上,要麼是內存密集型而不是計算密集型。

在GTC Europe,英偉達推出了一個新的數據科學平臺,供企業使用,該平臺建立在英偉達新的“RAPIDS”框架之上。基本思想是數據管道的GPU加速不應侷限於深度學習。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

例如,CuDF允許數據科學家將數據加載到GPU內存中並對其進行批處理,類似於Pandas(用於操作數據的python庫)。cuML是目前有限的GPU加速機器學習庫集合。最終,Scikit-Learn工具包中提供的大多數(全部?)機器學習算法應該是GPU加速的,並且可以在cuML中使用。

英偉達還添加了一個柱狀內存數據庫Apache Arrow。這是因為GPU在向量上運行,因此有利於內存中的柱狀佈局。

通過利用Apache arrow作為“中央數據庫”,英偉達避免了大量開銷。

確保存在典型Python庫(如Sci-Kit和Pandas)的GPU加速版本是朝著正確方向邁出的一步。但是Pandas僅適用於較輕的“數據科學探索”任務。通過與Databricks合作確保RAPIDS也用於重型,分佈式“數據處理”框架Spark,英偉達正在邁出下一步,突破“深度學習”角色,並向“NVIDIA”展開其餘部分數據管道。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

然而,細節決定成敗。將GPU添加到經過多年優化的框架中,以便最優地使用CPU內核和服務器中可用的大量RAM,這並不容易。Spark被構建為運行在幾十個強大的服務器內核上,而不是運行在數千個微不足道的GPU內核上。Spark已經過優化,可以在服務器節點集群上運行,使其看起來像是RAM內存和核心的一個大塊。混合兩種內存(RAM和GPU VRAM)並保持Spark的分佈式計算特性並不容易。

其次,挑選最適合GPU的機器學習算法是一回事,但確保它們在基於gpu的機器上運行良好是另一回事。最後,在可預見的將來,GPU的內存仍然少於CPU,即使是一致的平臺也不能解決系統RAM的速度只是局部VRAM速度的一小部分的問題。

誰將贏得下一個企業市場?

在最後一個投資者日,英偉達的一張PPT清楚地表明瞭企業領域的下一場戰鬥將是什麼:數據分析。請注意昂貴的雙Xeon“Skylake”Scalable如何被視為基線。這是一個相當的聲明; 將最新的英特爾動力系統之一降低到一個完全優秀的簡單基線。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

英偉達的整個商業模式圍繞著這樣一個理論:購買昂貴的硬件,如DGXs和特斯拉,對你的TCO有好處(“買得越多,省得越多”)。不要購買5000臺服務器,而是購買50臺DGX。儘管DGX消耗的功率增加了5倍,而且耗資12萬美元而不是9,000美元,但你的狀況會好得多。當然,這是最好的營銷方式,也可能是最差的營銷方式,這取決於你如何看待它。但即使這些數字略有誇大,這也是一個強有力的信息:“從我們的深度學習的大本營到英特爾當前的增長市場(推論、高性能計算和機器學習),我們將以巨大優勢擊敗英特爾。”

不相信嗎?這就是英偉達和IDC對市場演變的看法。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

目前,在總計1000億美元的市場中,計算密集型或高性能子市場約為370億美元。英偉達認為,這個子市場將在2023年翻一番,他們將能夠解決500億美元的問題。換句話說,從廣義上講,數據分析市場將幾乎佔整個服務器市場的一半。

即使這是一種高估,但很明顯,時代在變,而且風險非常高。神經網絡更適合GPU,但如果英特爾可以確保大多數數據管道在CPU上運行得更好,並且您只需要GPU用於最密集和可擴展的神經網絡,那麼它將使英偉達重新回到更適合的角色。另一方面,另一方面,如果英偉達能夠加速更大一部分數據傳輸,它將征服大部分屬於英特爾並迅速擴展的市場。在這場激烈的戰鬥中,IBM和AMD必須確保他們獲得市場份額。IBM將提供更好的基於英偉達 GPU的服務器,AMD將嘗試構建合適的軟件生態系統。

測試筆記

隨著市場的發展,很明顯,除了AMD和ARM之外,英偉達的專業產品對英特爾在數據中心及其他領域的主導地位構成了真正的威脅。因此,對於我們今天的測試,我們將專注於機器學習,並瞭解英特爾新推出的DL Boosted產品如何應對ML領域的競爭。

當然,在英特爾方面,我們正在關注該公司新的Cascade Lake Xeon可擴展CPU。該公司提供了28個核心型號中的兩個,其中包括165瓦Xeon Platinum8176,以及更快的205瓦Xeon Platinum8280。

用於與Cascade Lake的比較評測,我們使用了英偉達最新的“圖靈(Turing)”泰坦(Titan)RTX卡。雖然這些並不是真正的數據中心卡,但它們是基於Turing的,這意味著它們提供了英偉達最新的功能。在我工作的大學裡,我們的深度學習研究人員使用這些GPU來訓練人工智能模型,因為泰坦卡價格低廉,而且有大量GPU內存可用。

另外,Titan RTX卡可以同時用於訓練(混合FP32/16)作為推理(FP16和INT8)。目前的特斯拉仍然基於英偉達的Volta架構,該架構沒有可供推斷的INT8。

最後,不排除,我們也包括AMD的第一代EPYC平臺在我們所有的測試。AMD沒有像英特爾那樣的硬件策略,也沒有像VNNI那樣的具體指令,但最近該公司提供了各種各樣的驚喜。

測試基準配置和方法

我們所有的測試都是在Ubuntu Server18.04 LTS上進行的。您會注意到DRAM容量因我們的服務器配置而異。這當然是因為Xeons可以訪問六個內存通道,而EPYC CPU有八個通道。據我們所知,我們所有的測試都適合128GB,因此DRAM容量對性能影響不大。但它會對總能耗產生影響,我們將對此進行討論。

最後但並非最不重要的是,我們要注意性能圖表是如何進行顏色編碼的。Orange是AMD的EPYC,深藍色是Intel最好的(Cascade Lake / Skylake-SP),淺藍色是上一代Xeon(Xeon E5-v4)。Gray已被用於即將被替換的Xeon v1。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

我們啟用了超線程和英特爾虛擬化加速。

Xeon - NVIDIA Titan RTX工作站

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

這是測試中唯一具有獨立GPU的服務器。

AMD EPYC 7601 - (2U機箱)

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析"

很多內行會覺得將英特爾(Intel) Cascade Lake與英偉達(Nvidia) 的圖靈(Turing)放在一起比較不太合適,乍一看,硬件選擇看起來很簡單:Intel Xeon CPU為通用處理器,用於存儲和預處理數據,英偉達 GPU更多用於AI。事實上,這在過去幾年中已成為現實。然而,英偉達的競爭對手一直沒有袖手旁觀 - 尤其是英特爾。從專用的低功耗推理處理器到專用優化的Xeon,英特爾正在瞄準AI市場的各個層面。最終的結果是,在所有這些競爭對手之間,我們看到人工智能從許多不同的方向解決,人工智能時代的硬件爭奪是非常有趣的。

今天我們來看看英特爾的第二代Xeon可擴展處理器,即“Cascade Lake”,它可能是英特爾在AI領域硬件的核心。今年早些時候推出的這些新處理器仍然基於與第一代產品相同的核心Skylake架構,但採用了許多新指令來加速AI性能。

就新技術而言,這肯定是Cascade Lake最有趣的方面。雖然我們可以談論一般CPU性能提升3%到6%,英特爾最昂貴處理器的56核,以及“世界紀錄基準”, 但這些小的改進對於IT世界近期和中期的未來幾乎是無關緊要的。看看英特爾新聞與分析師簡報的第一張PPT就知道了。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

物聯網、數據工程和人工智能。這將是增長、創新和未來的主要領域。這就是英特爾的目標。目前,英偉達在這個市場上領域——深度學習和“大規模並行高性能計算”軟件——幾乎處於壟斷地位。由於硬件和軟件方面的一系列因素,大多數軟件都運行在英偉達GPU和集群上。因此,對於普通大眾來說,英偉達似乎擁有“人工智能市場”,這一圖景並不準確,但也不完整。人工智能市場不僅僅是神經網絡推理,特別是,所有為人工智能模型提供數據的事情都很少受到關注。因此,神經網絡和他的終結者機器人佔據了所有的頭條,儘管它們只是圖片的一部分。實際上,AI應用程序的處理網絡更類似於下圖。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

簡而言之,實際的機器學習代碼執行只是構建和AI應用程序所需的軟件工具的一小部分。為什麼?讓我們深入研究一下。

人工智能不僅僅是深度學習

在高層次上,雖然深度學習是人工智能的一種形式,但反過來並不總是正確的,實現AI的應用程序不一定要使用深度學習。許多人工智能應用程序使用“傳統統計”或“傳統”機器學習。畢竟,支持向量機、邏輯迴歸、K-nearest、Naive Bayes和決策樹在自動進行信息分類時仍然非常有用,尤其是在沒有大量數據的情況下。

例如,在自然語言處理中使用條件隨機域(CRF),許多推薦引擎都是基於玻爾茲曼機、交替最小二乘(ALS)等。舉個例子:我們的“大數據”基準測試是最苛刻、最獨特的基準測試之一,它使用ALS算法作為推薦引擎(“協同過濾”)。

當然,神經網絡的應用——它本身就是一個完整的研究領域——正在蓬勃發展,它們的應用往往主導著最新的人工智能應用。神經網絡也是要求最高的工作負載之一,需要大量的處理能力。所有這些都與邏輯迴歸(logistic regression)形成了鮮明對比,後者仍然是最常用的機器學習方法,而且恰好需要更少的處理。

儘管如此,儘管神經網絡是人工智能技術中處理最密集的技術(尤其是具有大量層的技術),但有幾種傳統的機器學習技術也需要大量的處理能力。例如,支持向量機及其複雜的轉換也往往需要大量的計算時間。在我們的Spark測試中,斯坦福大學的NER系統是基於一個有監督的CRF模型,使用標記的英語數據集合。在測試中,它必須處理大量的高達幾百GB的非結構化文本數據。

反過來,處理能力要求的這些差異的原因實際上非常簡單。引用AI專家Wouter Gevaert的表述:

"神經網絡中的每個神經元都可以被視為邏輯迴歸單元。因此,神經網絡就像大量的邏輯迴歸" (當你使用sigmoid作為激活函數時)

然而,儘管神經網絡是人工智能技術中最需要處理的技術(尤其是具有大量層次的人工智能技術),有幾種傳統的機器學習技術也需要大量的處理能力。例如,支持向量機及其複雜的轉換也往往需要大量的計算時間。在我們的Spark測試中,斯坦福大學的NER系統是基於一個有監督的CRF模型,使用標記的英語數據集合。在測試中,它必須處理幾百GB的大量的非結構化文本。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

當然,大多數分析查詢仍然使用舊的SQL編寫。對於結構化和半結構化數據,對於OLAP多維數據集等,SQL代碼仍然很普遍。由於單個SQL查詢遠不及神經網絡那麼平行 - 在許多情況下它們是100%順序的 - CPU是這項工作的最佳工具。

因此,在實踐中,大多數數據(預處理)和許多人工智能軟件仍然運行在CPU上。GPU主要運行大規模並行的HPC應用程序和神經網絡,這無疑是一個重要的市場,但仍然只是更大的人工智能市場的一部分。這也是為什麼英偉達去年的數據中心收入為30億美元,而英特爾的數據中心收入為200億美元。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

然而,使整個情況更加複雜的不僅僅是隻看收入,還要看增長。在數據中心市場,英偉達一直在大幅增長,而英特爾只實現了個位數的增長。隨著新技術的出現,客戶的需求也在不斷變化;對數據分析市場的爭奪已經開始,而且正在加劇。

卷積,循環和可擴展性:尋求平衡

儘管英特爾Xeon Phi協處理器(Xeon Phi協處理器)作為加速器在市場上失敗了,而且已經停產,但英特爾並沒有放棄這個概念。該公司仍希望在人工智能市場佔據更大的份額,包括原本可能進入英偉達的份額。

Naveen提出了一個重點。因為雖然英偉達從未聲稱他們為所有類型的AI提供最好的硬件,但從表面上看整個行業新聞稿中引用最多的基準(ResNet,Inception等),你幾乎可以相信只有一種類型的AI事項。卷積神經網絡(CNN或ConvNets)在基準測試和產品演示中佔據主導地位,因為它們是分析圖像和視頻的最流行的技術。任何可以表示為“2D輸入”的東西都是這些流行神經網絡的輸入層的潛在候選者。

近年來,CNN取得了一些最引人注目的突破。例如,ResNet性能如此受歡迎並不是錯誤的。相關的ImageNet數據庫是斯坦福大學和普林斯頓大學之間的合作,包含了1400萬張圖像。直到最近十年,AI在識別這些圖像方面的表現非常差。美國有線電視新聞網(CNN)以快速的順序改變了這一點,從那以後它一直是最受歡迎的人工智能挑戰之一,因為公司希望能夠比以往更快,更準確地對這個數據庫進行分類。

早在2012年,AlexNet,一個相對簡單的神經網絡,在ImageNet分類競賽中取得了比傳統機器學習技術更好的準確率。在那次測試中,它達到了85%的準確率,幾乎是傳統方法73%準確率的一半。

在2015年,著名的Inception V3在對圖片進行分類時達到了3.58%的錯誤率,這與人類相似(甚至略好於人類)。ImageNet的挑戰變得更加困難,但是由於剩餘的學習,即使不增加層數,CNN也變得更好。這導致了著名的“ResNet”CNN,現在最流行的人工智能基準之一。長話短說,CNNs是人工智能領域的明星。到目前為止,他們得到了最多的關注、測試和研究。

CNN也具有很高的可擴展性:在降低網絡培訓時間時,增加更多GPU(幾乎)線性擴展。

坦率地說,CNN是上天送給英偉達的禮物。這是人們購買昂貴的英偉達 DGX服務器(40萬美元)或購買多臺特斯拉GPU (7k+美元)最常見的原因。

儘管如此,人工智能還有比CNN更多的東西。例如,遞歸神經網絡在語音識別、語言翻譯和時間序列方面也很受歡迎。

這就是MLperf基準計劃如此重要的原因。這是我們第一次獲得CNN未完全統治的基準。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

快速瀏覽一下MLperf,圖像和對象分類基準當然是CNN,但也表示了RNN(通過神經機器翻譯)和協同過濾。同時,甚至推薦引擎測試也基於神經網絡; 從技術上講,不包括“傳統的”機器學習測試,這是不幸的。但由於這是0.5版本並且該組織正在邀請更多反饋,它肯定是有希望的,一旦它成熟,我們預計它將成為最好的基準。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

然而,通過戴爾的基準測試,我們可以清楚地看到,並非所有的神經網絡都具有CNN那樣的可擴展性。當您移動到GPU數量的四倍(並添加第二個CPU)時,ResNet CNN很容易翻兩番,而協作過濾方法只提供了50%的更高性能。

事實上,相當多的學術研究都圍繞著優化和適應CNNs展開,這樣它們就可以像處理RNNs一樣處理這些序列建模工作負載,從而可以替代伸縮性較差的RNNs。

英特爾對人工智能的看法

總的來說,英特爾有一個很好的觀點,即存在“廣泛的AI應用”,例如CNN之外的AI生活。在許多現實場景中,傳統的機器學習技術優於CNN,並非所有深度學習都是通過超可擴展的CNN完成的。在其他實際案例中,擁有大量RAM是另一個重要的性能優勢,無論是在訓練模型還是使用它來推斷新數據時。

因此,儘管英偉達在運行CNN方面具有巨大優勢,但高端Xeon 可以在數據分析市場中提供可靠的替代方案。可以肯定的是,沒有人希望新的Cascade Lake Xeon在CNN訓練中勝過英偉達 GPU,但在很多情況下,英特爾可能會說服客戶投資更強大的Xeon而不是昂貴的Tesla加速器:

  • 需要大量內存的人工智能模型的推理

  • 不需要長時間訓練的“輕型”人工智能模型批處理或流處理時間比模型培訓時間更重要的數據體系結構

  • 人工智能模型依賴於傳統的“非神經網絡”統計模型

因此,英特爾或許有機會將英偉達擋在門外,直到他們在CNN工作負載中為英偉達的GPU找到一個合理的替代方案。英特爾一直在為Xeons可伸縮系列產品瘋狂地添加功能,並優化其軟件堆棧,以對抗英偉達的人工智能霸主地位。優化的人工智能軟件,如英特爾自己的Python發行版,英特爾數學內核庫用於深度學習,甚至英特爾數據分析加速庫——主要用於傳統的機器學習……

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

總而言之,對於第二代英特爾至強可擴展處理器,該公司在深度學習(DL)Boost名稱下添加了新的AI硬件功能。這主要包括矢量神經網絡指令(VNNI)集,它可以在一個指令中執行之前需要三個指令。然而,即便更進一步,第三代Xeon可擴展處理器Cooper Lake將增加對bfloat16的支持,進一步提高培訓性能。

總之,英特爾試圖重新佔領“更輕的AI工作負載”市場,同時在數據分析市場的其他部分站穩腳跟,同時在其產品組合中添加非常專業的硬件(FPGA,ASIC)。這對英特爾在IT市場的競爭力至關重要。英特爾一再表示,數據中心集團(DCG)或“企業部分”預計將成為該公司未來幾年的主要增長引擎。

英偉達的答案

英偉達不止一次證明,它可以憑藉出色的願景和戰略戰勝競爭對手。英偉達明白將所有神經網絡擴展為CNN並不容易,並且有很多應用要麼運行在除神經網絡之外的其他方法上,要麼是內存密集型而不是計算密集型。

在GTC Europe,英偉達推出了一個新的數據科學平臺,供企業使用,該平臺建立在英偉達新的“RAPIDS”框架之上。基本思想是數據管道的GPU加速不應侷限於深度學習。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

例如,CuDF允許數據科學家將數據加載到GPU內存中並對其進行批處理,類似於Pandas(用於操作數據的python庫)。cuML是目前有限的GPU加速機器學習庫集合。最終,Scikit-Learn工具包中提供的大多數(全部?)機器學習算法應該是GPU加速的,並且可以在cuML中使用。

英偉達還添加了一個柱狀內存數據庫Apache Arrow。這是因為GPU在向量上運行,因此有利於內存中的柱狀佈局。

通過利用Apache arrow作為“中央數據庫”,英偉達避免了大量開銷。

確保存在典型Python庫(如Sci-Kit和Pandas)的GPU加速版本是朝著正確方向邁出的一步。但是Pandas僅適用於較輕的“數據科學探索”任務。通過與Databricks合作確保RAPIDS也用於重型,分佈式“數據處理”框架Spark,英偉達正在邁出下一步,突破“深度學習”角色,並向“NVIDIA”展開其餘部分數據管道。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

然而,細節決定成敗。將GPU添加到經過多年優化的框架中,以便最優地使用CPU內核和服務器中可用的大量RAM,這並不容易。Spark被構建為運行在幾十個強大的服務器內核上,而不是運行在數千個微不足道的GPU內核上。Spark已經過優化,可以在服務器節點集群上運行,使其看起來像是RAM內存和核心的一個大塊。混合兩種內存(RAM和GPU VRAM)並保持Spark的分佈式計算特性並不容易。

其次,挑選最適合GPU的機器學習算法是一回事,但確保它們在基於gpu的機器上運行良好是另一回事。最後,在可預見的將來,GPU的內存仍然少於CPU,即使是一致的平臺也不能解決系統RAM的速度只是局部VRAM速度的一小部分的問題。

誰將贏得下一個企業市場?

在最後一個投資者日,英偉達的一張PPT清楚地表明瞭企業領域的下一場戰鬥將是什麼:數據分析。請注意昂貴的雙Xeon“Skylake”Scalable如何被視為基線。這是一個相當的聲明; 將最新的英特爾動力系統之一降低到一個完全優秀的簡單基線。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

英偉達的整個商業模式圍繞著這樣一個理論:購買昂貴的硬件,如DGXs和特斯拉,對你的TCO有好處(“買得越多,省得越多”)。不要購買5000臺服務器,而是購買50臺DGX。儘管DGX消耗的功率增加了5倍,而且耗資12萬美元而不是9,000美元,但你的狀況會好得多。當然,這是最好的營銷方式,也可能是最差的營銷方式,這取決於你如何看待它。但即使這些數字略有誇大,這也是一個強有力的信息:“從我們的深度學習的大本營到英特爾當前的增長市場(推論、高性能計算和機器學習),我們將以巨大優勢擊敗英特爾。”

不相信嗎?這就是英偉達和IDC對市場演變的看法。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

目前,在總計1000億美元的市場中,計算密集型或高性能子市場約為370億美元。英偉達認為,這個子市場將在2023年翻一番,他們將能夠解決500億美元的問題。換句話說,從廣義上講,數據分析市場將幾乎佔整個服務器市場的一半。

即使這是一種高估,但很明顯,時代在變,而且風險非常高。神經網絡更適合GPU,但如果英特爾可以確保大多數數據管道在CPU上運行得更好,並且您只需要GPU用於最密集和可擴展的神經網絡,那麼它將使英偉達重新回到更適合的角色。另一方面,另一方面,如果英偉達能夠加速更大一部分數據傳輸,它將征服大部分屬於英特爾並迅速擴展的市場。在這場激烈的戰鬥中,IBM和AMD必須確保他們獲得市場份額。IBM將提供更好的基於英偉達 GPU的服務器,AMD將嘗試構建合適的軟件生態系統。

測試筆記

隨著市場的發展,很明顯,除了AMD和ARM之外,英偉達的專業產品對英特爾在數據中心及其他領域的主導地位構成了真正的威脅。因此,對於我們今天的測試,我們將專注於機器學習,並瞭解英特爾新推出的DL Boosted產品如何應對ML領域的競爭。

當然,在英特爾方面,我們正在關注該公司新的Cascade Lake Xeon可擴展CPU。該公司提供了28個核心型號中的兩個,其中包括165瓦Xeon Platinum8176,以及更快的205瓦Xeon Platinum8280。

用於與Cascade Lake的比較評測,我們使用了英偉達最新的“圖靈(Turing)”泰坦(Titan)RTX卡。雖然這些並不是真正的數據中心卡,但它們是基於Turing的,這意味著它們提供了英偉達最新的功能。在我工作的大學裡,我們的深度學習研究人員使用這些GPU來訓練人工智能模型,因為泰坦卡價格低廉,而且有大量GPU內存可用。

另外,Titan RTX卡可以同時用於訓練(混合FP32/16)作為推理(FP16和INT8)。目前的特斯拉仍然基於英偉達的Volta架構,該架構沒有可供推斷的INT8。

最後,不排除,我們也包括AMD的第一代EPYC平臺在我們所有的測試。AMD沒有像英特爾那樣的硬件策略,也沒有像VNNI那樣的具體指令,但最近該公司提供了各種各樣的驚喜。

測試基準配置和方法

我們所有的測試都是在Ubuntu Server18.04 LTS上進行的。您會注意到DRAM容量因我們的服務器配置而異。這當然是因為Xeons可以訪問六個內存通道,而EPYC CPU有八個通道。據我們所知,我們所有的測試都適合128GB,因此DRAM容量對性能影響不大。但它會對總能耗產生影響,我們將對此進行討論。

最後但並非最不重要的是,我們要注意性能圖表是如何進行顏色編碼的。Orange是AMD的EPYC,深藍色是Intel最好的(Cascade Lake / Skylake-SP),淺藍色是上一代Xeon(Xeon E5-v4)。Gray已被用於即將被替換的Xeon v1。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

我們啟用了超線程和英特爾虛擬化加速。

Xeon - NVIDIA Titan RTX工作站

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

這是測試中唯一具有獨立GPU的服務器。

AMD EPYC 7601 - (2U機箱)

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

其他說明

兩臺服務器均由標準的歐洲230V(最大16安培)電源線供電。我們的Airwell CRAC監測室溫並保持在23°C。

CPU性能

在我們進入新的AI基準測試之前,讓我們快速瞭解一下英特爾提供的常用CPU基準測試和性能聲明。

"

很多內行會覺得將英特爾(Intel) Cascade Lake與英偉達(Nvidia) 的圖靈(Turing)放在一起比較不太合適,乍一看,硬件選擇看起來很簡單:Intel Xeon CPU為通用處理器,用於存儲和預處理數據,英偉達 GPU更多用於AI。事實上,這在過去幾年中已成為現實。然而,英偉達的競爭對手一直沒有袖手旁觀 - 尤其是英特爾。從專用的低功耗推理處理器到專用優化的Xeon,英特爾正在瞄準AI市場的各個層面。最終的結果是,在所有這些競爭對手之間,我們看到人工智能從許多不同的方向解決,人工智能時代的硬件爭奪是非常有趣的。

今天我們來看看英特爾的第二代Xeon可擴展處理器,即“Cascade Lake”,它可能是英特爾在AI領域硬件的核心。今年早些時候推出的這些新處理器仍然基於與第一代產品相同的核心Skylake架構,但採用了許多新指令來加速AI性能。

就新技術而言,這肯定是Cascade Lake最有趣的方面。雖然我們可以談論一般CPU性能提升3%到6%,英特爾最昂貴處理器的56核,以及“世界紀錄基準”, 但這些小的改進對於IT世界近期和中期的未來幾乎是無關緊要的。看看英特爾新聞與分析師簡報的第一張PPT就知道了。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

物聯網、數據工程和人工智能。這將是增長、創新和未來的主要領域。這就是英特爾的目標。目前,英偉達在這個市場上領域——深度學習和“大規模並行高性能計算”軟件——幾乎處於壟斷地位。由於硬件和軟件方面的一系列因素,大多數軟件都運行在英偉達GPU和集群上。因此,對於普通大眾來說,英偉達似乎擁有“人工智能市場”,這一圖景並不準確,但也不完整。人工智能市場不僅僅是神經網絡推理,特別是,所有為人工智能模型提供數據的事情都很少受到關注。因此,神經網絡和他的終結者機器人佔據了所有的頭條,儘管它們只是圖片的一部分。實際上,AI應用程序的處理網絡更類似於下圖。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

簡而言之,實際的機器學習代碼執行只是構建和AI應用程序所需的軟件工具的一小部分。為什麼?讓我們深入研究一下。

人工智能不僅僅是深度學習

在高層次上,雖然深度學習是人工智能的一種形式,但反過來並不總是正確的,實現AI的應用程序不一定要使用深度學習。許多人工智能應用程序使用“傳統統計”或“傳統”機器學習。畢竟,支持向量機、邏輯迴歸、K-nearest、Naive Bayes和決策樹在自動進行信息分類時仍然非常有用,尤其是在沒有大量數據的情況下。

例如,在自然語言處理中使用條件隨機域(CRF),許多推薦引擎都是基於玻爾茲曼機、交替最小二乘(ALS)等。舉個例子:我們的“大數據”基準測試是最苛刻、最獨特的基準測試之一,它使用ALS算法作為推薦引擎(“協同過濾”)。

當然,神經網絡的應用——它本身就是一個完整的研究領域——正在蓬勃發展,它們的應用往往主導著最新的人工智能應用。神經網絡也是要求最高的工作負載之一,需要大量的處理能力。所有這些都與邏輯迴歸(logistic regression)形成了鮮明對比,後者仍然是最常用的機器學習方法,而且恰好需要更少的處理。

儘管如此,儘管神經網絡是人工智能技術中處理最密集的技術(尤其是具有大量層的技術),但有幾種傳統的機器學習技術也需要大量的處理能力。例如,支持向量機及其複雜的轉換也往往需要大量的計算時間。在我們的Spark測試中,斯坦福大學的NER系統是基於一個有監督的CRF模型,使用標記的英語數據集合。在測試中,它必須處理大量的高達幾百GB的非結構化文本數據。

反過來,處理能力要求的這些差異的原因實際上非常簡單。引用AI專家Wouter Gevaert的表述:

"神經網絡中的每個神經元都可以被視為邏輯迴歸單元。因此,神經網絡就像大量的邏輯迴歸" (當你使用sigmoid作為激活函數時)

然而,儘管神經網絡是人工智能技術中最需要處理的技術(尤其是具有大量層次的人工智能技術),有幾種傳統的機器學習技術也需要大量的處理能力。例如,支持向量機及其複雜的轉換也往往需要大量的計算時間。在我們的Spark測試中,斯坦福大學的NER系統是基於一個有監督的CRF模型,使用標記的英語數據集合。在測試中,它必須處理幾百GB的大量的非結構化文本。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

當然,大多數分析查詢仍然使用舊的SQL編寫。對於結構化和半結構化數據,對於OLAP多維數據集等,SQL代碼仍然很普遍。由於單個SQL查詢遠不及神經網絡那麼平行 - 在許多情況下它們是100%順序的 - CPU是這項工作的最佳工具。

因此,在實踐中,大多數數據(預處理)和許多人工智能軟件仍然運行在CPU上。GPU主要運行大規模並行的HPC應用程序和神經網絡,這無疑是一個重要的市場,但仍然只是更大的人工智能市場的一部分。這也是為什麼英偉達去年的數據中心收入為30億美元,而英特爾的數據中心收入為200億美元。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

然而,使整個情況更加複雜的不僅僅是隻看收入,還要看增長。在數據中心市場,英偉達一直在大幅增長,而英特爾只實現了個位數的增長。隨著新技術的出現,客戶的需求也在不斷變化;對數據分析市場的爭奪已經開始,而且正在加劇。

卷積,循環和可擴展性:尋求平衡

儘管英特爾Xeon Phi協處理器(Xeon Phi協處理器)作為加速器在市場上失敗了,而且已經停產,但英特爾並沒有放棄這個概念。該公司仍希望在人工智能市場佔據更大的份額,包括原本可能進入英偉達的份額。

Naveen提出了一個重點。因為雖然英偉達從未聲稱他們為所有類型的AI提供最好的硬件,但從表面上看整個行業新聞稿中引用最多的基準(ResNet,Inception等),你幾乎可以相信只有一種類型的AI事項。卷積神經網絡(CNN或ConvNets)在基準測試和產品演示中佔據主導地位,因為它們是分析圖像和視頻的最流行的技術。任何可以表示為“2D輸入”的東西都是這些流行神經網絡的輸入層的潛在候選者。

近年來,CNN取得了一些最引人注目的突破。例如,ResNet性能如此受歡迎並不是錯誤的。相關的ImageNet數據庫是斯坦福大學和普林斯頓大學之間的合作,包含了1400萬張圖像。直到最近十年,AI在識別這些圖像方面的表現非常差。美國有線電視新聞網(CNN)以快速的順序改變了這一點,從那以後它一直是最受歡迎的人工智能挑戰之一,因為公司希望能夠比以往更快,更準確地對這個數據庫進行分類。

早在2012年,AlexNet,一個相對簡單的神經網絡,在ImageNet分類競賽中取得了比傳統機器學習技術更好的準確率。在那次測試中,它達到了85%的準確率,幾乎是傳統方法73%準確率的一半。

在2015年,著名的Inception V3在對圖片進行分類時達到了3.58%的錯誤率,這與人類相似(甚至略好於人類)。ImageNet的挑戰變得更加困難,但是由於剩餘的學習,即使不增加層數,CNN也變得更好。這導致了著名的“ResNet”CNN,現在最流行的人工智能基準之一。長話短說,CNNs是人工智能領域的明星。到目前為止,他們得到了最多的關注、測試和研究。

CNN也具有很高的可擴展性:在降低網絡培訓時間時,增加更多GPU(幾乎)線性擴展。

坦率地說,CNN是上天送給英偉達的禮物。這是人們購買昂貴的英偉達 DGX服務器(40萬美元)或購買多臺特斯拉GPU (7k+美元)最常見的原因。

儘管如此,人工智能還有比CNN更多的東西。例如,遞歸神經網絡在語音識別、語言翻譯和時間序列方面也很受歡迎。

這就是MLperf基準計劃如此重要的原因。這是我們第一次獲得CNN未完全統治的基準。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

快速瀏覽一下MLperf,圖像和對象分類基準當然是CNN,但也表示了RNN(通過神經機器翻譯)和協同過濾。同時,甚至推薦引擎測試也基於神經網絡; 從技術上講,不包括“傳統的”機器學習測試,這是不幸的。但由於這是0.5版本並且該組織正在邀請更多反饋,它肯定是有希望的,一旦它成熟,我們預計它將成為最好的基準。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

然而,通過戴爾的基準測試,我們可以清楚地看到,並非所有的神經網絡都具有CNN那樣的可擴展性。當您移動到GPU數量的四倍(並添加第二個CPU)時,ResNet CNN很容易翻兩番,而協作過濾方法只提供了50%的更高性能。

事實上,相當多的學術研究都圍繞著優化和適應CNNs展開,這樣它們就可以像處理RNNs一樣處理這些序列建模工作負載,從而可以替代伸縮性較差的RNNs。

英特爾對人工智能的看法

總的來說,英特爾有一個很好的觀點,即存在“廣泛的AI應用”,例如CNN之外的AI生活。在許多現實場景中,傳統的機器學習技術優於CNN,並非所有深度學習都是通過超可擴展的CNN完成的。在其他實際案例中,擁有大量RAM是另一個重要的性能優勢,無論是在訓練模型還是使用它來推斷新數據時。

因此,儘管英偉達在運行CNN方面具有巨大優勢,但高端Xeon 可以在數據分析市場中提供可靠的替代方案。可以肯定的是,沒有人希望新的Cascade Lake Xeon在CNN訓練中勝過英偉達 GPU,但在很多情況下,英特爾可能會說服客戶投資更強大的Xeon而不是昂貴的Tesla加速器:

  • 需要大量內存的人工智能模型的推理

  • 不需要長時間訓練的“輕型”人工智能模型批處理或流處理時間比模型培訓時間更重要的數據體系結構

  • 人工智能模型依賴於傳統的“非神經網絡”統計模型

因此,英特爾或許有機會將英偉達擋在門外,直到他們在CNN工作負載中為英偉達的GPU找到一個合理的替代方案。英特爾一直在為Xeons可伸縮系列產品瘋狂地添加功能,並優化其軟件堆棧,以對抗英偉達的人工智能霸主地位。優化的人工智能軟件,如英特爾自己的Python發行版,英特爾數學內核庫用於深度學習,甚至英特爾數據分析加速庫——主要用於傳統的機器學習……

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

總而言之,對於第二代英特爾至強可擴展處理器,該公司在深度學習(DL)Boost名稱下添加了新的AI硬件功能。這主要包括矢量神經網絡指令(VNNI)集,它可以在一個指令中執行之前需要三個指令。然而,即便更進一步,第三代Xeon可擴展處理器Cooper Lake將增加對bfloat16的支持,進一步提高培訓性能。

總之,英特爾試圖重新佔領“更輕的AI工作負載”市場,同時在數據分析市場的其他部分站穩腳跟,同時在其產品組合中添加非常專業的硬件(FPGA,ASIC)。這對英特爾在IT市場的競爭力至關重要。英特爾一再表示,數據中心集團(DCG)或“企業部分”預計將成為該公司未來幾年的主要增長引擎。

英偉達的答案

英偉達不止一次證明,它可以憑藉出色的願景和戰略戰勝競爭對手。英偉達明白將所有神經網絡擴展為CNN並不容易,並且有很多應用要麼運行在除神經網絡之外的其他方法上,要麼是內存密集型而不是計算密集型。

在GTC Europe,英偉達推出了一個新的數據科學平臺,供企業使用,該平臺建立在英偉達新的“RAPIDS”框架之上。基本思想是數據管道的GPU加速不應侷限於深度學習。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

例如,CuDF允許數據科學家將數據加載到GPU內存中並對其進行批處理,類似於Pandas(用於操作數據的python庫)。cuML是目前有限的GPU加速機器學習庫集合。最終,Scikit-Learn工具包中提供的大多數(全部?)機器學習算法應該是GPU加速的,並且可以在cuML中使用。

英偉達還添加了一個柱狀內存數據庫Apache Arrow。這是因為GPU在向量上運行,因此有利於內存中的柱狀佈局。

通過利用Apache arrow作為“中央數據庫”,英偉達避免了大量開銷。

確保存在典型Python庫(如Sci-Kit和Pandas)的GPU加速版本是朝著正確方向邁出的一步。但是Pandas僅適用於較輕的“數據科學探索”任務。通過與Databricks合作確保RAPIDS也用於重型,分佈式“數據處理”框架Spark,英偉達正在邁出下一步,突破“深度學習”角色,並向“NVIDIA”展開其餘部分數據管道。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

然而,細節決定成敗。將GPU添加到經過多年優化的框架中,以便最優地使用CPU內核和服務器中可用的大量RAM,這並不容易。Spark被構建為運行在幾十個強大的服務器內核上,而不是運行在數千個微不足道的GPU內核上。Spark已經過優化,可以在服務器節點集群上運行,使其看起來像是RAM內存和核心的一個大塊。混合兩種內存(RAM和GPU VRAM)並保持Spark的分佈式計算特性並不容易。

其次,挑選最適合GPU的機器學習算法是一回事,但確保它們在基於gpu的機器上運行良好是另一回事。最後,在可預見的將來,GPU的內存仍然少於CPU,即使是一致的平臺也不能解決系統RAM的速度只是局部VRAM速度的一小部分的問題。

誰將贏得下一個企業市場?

在最後一個投資者日,英偉達的一張PPT清楚地表明瞭企業領域的下一場戰鬥將是什麼:數據分析。請注意昂貴的雙Xeon“Skylake”Scalable如何被視為基線。這是一個相當的聲明; 將最新的英特爾動力系統之一降低到一個完全優秀的簡單基線。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

英偉達的整個商業模式圍繞著這樣一個理論:購買昂貴的硬件,如DGXs和特斯拉,對你的TCO有好處(“買得越多,省得越多”)。不要購買5000臺服務器,而是購買50臺DGX。儘管DGX消耗的功率增加了5倍,而且耗資12萬美元而不是9,000美元,但你的狀況會好得多。當然,這是最好的營銷方式,也可能是最差的營銷方式,這取決於你如何看待它。但即使這些數字略有誇大,這也是一個強有力的信息:“從我們的深度學習的大本營到英特爾當前的增長市場(推論、高性能計算和機器學習),我們將以巨大優勢擊敗英特爾。”

不相信嗎?這就是英偉達和IDC對市場演變的看法。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

目前,在總計1000億美元的市場中,計算密集型或高性能子市場約為370億美元。英偉達認為,這個子市場將在2023年翻一番,他們將能夠解決500億美元的問題。換句話說,從廣義上講,數據分析市場將幾乎佔整個服務器市場的一半。

即使這是一種高估,但很明顯,時代在變,而且風險非常高。神經網絡更適合GPU,但如果英特爾可以確保大多數數據管道在CPU上運行得更好,並且您只需要GPU用於最密集和可擴展的神經網絡,那麼它將使英偉達重新回到更適合的角色。另一方面,另一方面,如果英偉達能夠加速更大一部分數據傳輸,它將征服大部分屬於英特爾並迅速擴展的市場。在這場激烈的戰鬥中,IBM和AMD必須確保他們獲得市場份額。IBM將提供更好的基於英偉達 GPU的服務器,AMD將嘗試構建合適的軟件生態系統。

測試筆記

隨著市場的發展,很明顯,除了AMD和ARM之外,英偉達的專業產品對英特爾在數據中心及其他領域的主導地位構成了真正的威脅。因此,對於我們今天的測試,我們將專注於機器學習,並瞭解英特爾新推出的DL Boosted產品如何應對ML領域的競爭。

當然,在英特爾方面,我們正在關注該公司新的Cascade Lake Xeon可擴展CPU。該公司提供了28個核心型號中的兩個,其中包括165瓦Xeon Platinum8176,以及更快的205瓦Xeon Platinum8280。

用於與Cascade Lake的比較評測,我們使用了英偉達最新的“圖靈(Turing)”泰坦(Titan)RTX卡。雖然這些並不是真正的數據中心卡,但它們是基於Turing的,這意味著它們提供了英偉達最新的功能。在我工作的大學裡,我們的深度學習研究人員使用這些GPU來訓練人工智能模型,因為泰坦卡價格低廉,而且有大量GPU內存可用。

另外,Titan RTX卡可以同時用於訓練(混合FP32/16)作為推理(FP16和INT8)。目前的特斯拉仍然基於英偉達的Volta架構,該架構沒有可供推斷的INT8。

最後,不排除,我們也包括AMD的第一代EPYC平臺在我們所有的測試。AMD沒有像英特爾那樣的硬件策略,也沒有像VNNI那樣的具體指令,但最近該公司提供了各種各樣的驚喜。

測試基準配置和方法

我們所有的測試都是在Ubuntu Server18.04 LTS上進行的。您會注意到DRAM容量因我們的服務器配置而異。這當然是因為Xeons可以訪問六個內存通道,而EPYC CPU有八個通道。據我們所知,我們所有的測試都適合128GB,因此DRAM容量對性能影響不大。但它會對總能耗產生影響,我們將對此進行討論。

最後但並非最不重要的是,我們要注意性能圖表是如何進行顏色編碼的。Orange是AMD的EPYC,深藍色是Intel最好的(Cascade Lake / Skylake-SP),淺藍色是上一代Xeon(Xeon E5-v4)。Gray已被用於即將被替換的Xeon v1。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

我們啟用了超線程和英特爾虛擬化加速。

Xeon - NVIDIA Titan RTX工作站

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

這是測試中唯一具有獨立GPU的服務器。

AMD EPYC 7601 - (2U機箱)

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

其他說明

兩臺服務器均由標準的歐洲230V(最大16安培)電源線供電。我們的Airwell CRAC監測室溫並保持在23°C。

CPU性能

在我們進入新的AI基準測試之前,讓我們快速瞭解一下英特爾提供的常用CPU基準測試和性能聲明。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

為了進行比較,我們將重點關注第二排 - 第一排是將價格極為驚人的400W雙芯片英特爾鉑金9282與更合理的產品進行比較,並向所有人提供英特爾鉑金8180.第二行說明了所有內容:幾MHz與第一代Xeon可擴展部件相比,RAM速度稍高,可使性能提高3%(整數)至5%(FP)。浮點性能的更高提升可能是因為英特爾的第二代部件可以使用更快的DDR4-2933 DIMM,從而為內核提供更多帶寬。

中端SKU得到更大的推動,因為一些x2xx Xeon 可擴展部件比以前的x1xx部件獲得更多內核和更多L3緩存。例如,6252具有24個核心和35.75 MB L3,而6152具有22個核心和30.25 MB L3。

"

很多內行會覺得將英特爾(Intel) Cascade Lake與英偉達(Nvidia) 的圖靈(Turing)放在一起比較不太合適,乍一看,硬件選擇看起來很簡單:Intel Xeon CPU為通用處理器,用於存儲和預處理數據,英偉達 GPU更多用於AI。事實上,這在過去幾年中已成為現實。然而,英偉達的競爭對手一直沒有袖手旁觀 - 尤其是英特爾。從專用的低功耗推理處理器到專用優化的Xeon,英特爾正在瞄準AI市場的各個層面。最終的結果是,在所有這些競爭對手之間,我們看到人工智能從許多不同的方向解決,人工智能時代的硬件爭奪是非常有趣的。

今天我們來看看英特爾的第二代Xeon可擴展處理器,即“Cascade Lake”,它可能是英特爾在AI領域硬件的核心。今年早些時候推出的這些新處理器仍然基於與第一代產品相同的核心Skylake架構,但採用了許多新指令來加速AI性能。

就新技術而言,這肯定是Cascade Lake最有趣的方面。雖然我們可以談論一般CPU性能提升3%到6%,英特爾最昂貴處理器的56核,以及“世界紀錄基準”, 但這些小的改進對於IT世界近期和中期的未來幾乎是無關緊要的。看看英特爾新聞與分析師簡報的第一張PPT就知道了。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

物聯網、數據工程和人工智能。這將是增長、創新和未來的主要領域。這就是英特爾的目標。目前,英偉達在這個市場上領域——深度學習和“大規模並行高性能計算”軟件——幾乎處於壟斷地位。由於硬件和軟件方面的一系列因素,大多數軟件都運行在英偉達GPU和集群上。因此,對於普通大眾來說,英偉達似乎擁有“人工智能市場”,這一圖景並不準確,但也不完整。人工智能市場不僅僅是神經網絡推理,特別是,所有為人工智能模型提供數據的事情都很少受到關注。因此,神經網絡和他的終結者機器人佔據了所有的頭條,儘管它們只是圖片的一部分。實際上,AI應用程序的處理網絡更類似於下圖。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

簡而言之,實際的機器學習代碼執行只是構建和AI應用程序所需的軟件工具的一小部分。為什麼?讓我們深入研究一下。

人工智能不僅僅是深度學習

在高層次上,雖然深度學習是人工智能的一種形式,但反過來並不總是正確的,實現AI的應用程序不一定要使用深度學習。許多人工智能應用程序使用“傳統統計”或“傳統”機器學習。畢竟,支持向量機、邏輯迴歸、K-nearest、Naive Bayes和決策樹在自動進行信息分類時仍然非常有用,尤其是在沒有大量數據的情況下。

例如,在自然語言處理中使用條件隨機域(CRF),許多推薦引擎都是基於玻爾茲曼機、交替最小二乘(ALS)等。舉個例子:我們的“大數據”基準測試是最苛刻、最獨特的基準測試之一,它使用ALS算法作為推薦引擎(“協同過濾”)。

當然,神經網絡的應用——它本身就是一個完整的研究領域——正在蓬勃發展,它們的應用往往主導著最新的人工智能應用。神經網絡也是要求最高的工作負載之一,需要大量的處理能力。所有這些都與邏輯迴歸(logistic regression)形成了鮮明對比,後者仍然是最常用的機器學習方法,而且恰好需要更少的處理。

儘管如此,儘管神經網絡是人工智能技術中處理最密集的技術(尤其是具有大量層的技術),但有幾種傳統的機器學習技術也需要大量的處理能力。例如,支持向量機及其複雜的轉換也往往需要大量的計算時間。在我們的Spark測試中,斯坦福大學的NER系統是基於一個有監督的CRF模型,使用標記的英語數據集合。在測試中,它必須處理大量的高達幾百GB的非結構化文本數據。

反過來,處理能力要求的這些差異的原因實際上非常簡單。引用AI專家Wouter Gevaert的表述:

"神經網絡中的每個神經元都可以被視為邏輯迴歸單元。因此,神經網絡就像大量的邏輯迴歸" (當你使用sigmoid作為激活函數時)

然而,儘管神經網絡是人工智能技術中最需要處理的技術(尤其是具有大量層次的人工智能技術),有幾種傳統的機器學習技術也需要大量的處理能力。例如,支持向量機及其複雜的轉換也往往需要大量的計算時間。在我們的Spark測試中,斯坦福大學的NER系統是基於一個有監督的CRF模型,使用標記的英語數據集合。在測試中,它必須處理幾百GB的大量的非結構化文本。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

當然,大多數分析查詢仍然使用舊的SQL編寫。對於結構化和半結構化數據,對於OLAP多維數據集等,SQL代碼仍然很普遍。由於單個SQL查詢遠不及神經網絡那麼平行 - 在許多情況下它們是100%順序的 - CPU是這項工作的最佳工具。

因此,在實踐中,大多數數據(預處理)和許多人工智能軟件仍然運行在CPU上。GPU主要運行大規模並行的HPC應用程序和神經網絡,這無疑是一個重要的市場,但仍然只是更大的人工智能市場的一部分。這也是為什麼英偉達去年的數據中心收入為30億美元,而英特爾的數據中心收入為200億美元。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

然而,使整個情況更加複雜的不僅僅是隻看收入,還要看增長。在數據中心市場,英偉達一直在大幅增長,而英特爾只實現了個位數的增長。隨著新技術的出現,客戶的需求也在不斷變化;對數據分析市場的爭奪已經開始,而且正在加劇。

卷積,循環和可擴展性:尋求平衡

儘管英特爾Xeon Phi協處理器(Xeon Phi協處理器)作為加速器在市場上失敗了,而且已經停產,但英特爾並沒有放棄這個概念。該公司仍希望在人工智能市場佔據更大的份額,包括原本可能進入英偉達的份額。

Naveen提出了一個重點。因為雖然英偉達從未聲稱他們為所有類型的AI提供最好的硬件,但從表面上看整個行業新聞稿中引用最多的基準(ResNet,Inception等),你幾乎可以相信只有一種類型的AI事項。卷積神經網絡(CNN或ConvNets)在基準測試和產品演示中佔據主導地位,因為它們是分析圖像和視頻的最流行的技術。任何可以表示為“2D輸入”的東西都是這些流行神經網絡的輸入層的潛在候選者。

近年來,CNN取得了一些最引人注目的突破。例如,ResNet性能如此受歡迎並不是錯誤的。相關的ImageNet數據庫是斯坦福大學和普林斯頓大學之間的合作,包含了1400萬張圖像。直到最近十年,AI在識別這些圖像方面的表現非常差。美國有線電視新聞網(CNN)以快速的順序改變了這一點,從那以後它一直是最受歡迎的人工智能挑戰之一,因為公司希望能夠比以往更快,更準確地對這個數據庫進行分類。

早在2012年,AlexNet,一個相對簡單的神經網絡,在ImageNet分類競賽中取得了比傳統機器學習技術更好的準確率。在那次測試中,它達到了85%的準確率,幾乎是傳統方法73%準確率的一半。

在2015年,著名的Inception V3在對圖片進行分類時達到了3.58%的錯誤率,這與人類相似(甚至略好於人類)。ImageNet的挑戰變得更加困難,但是由於剩餘的學習,即使不增加層數,CNN也變得更好。這導致了著名的“ResNet”CNN,現在最流行的人工智能基準之一。長話短說,CNNs是人工智能領域的明星。到目前為止,他們得到了最多的關注、測試和研究。

CNN也具有很高的可擴展性:在降低網絡培訓時間時,增加更多GPU(幾乎)線性擴展。

坦率地說,CNN是上天送給英偉達的禮物。這是人們購買昂貴的英偉達 DGX服務器(40萬美元)或購買多臺特斯拉GPU (7k+美元)最常見的原因。

儘管如此,人工智能還有比CNN更多的東西。例如,遞歸神經網絡在語音識別、語言翻譯和時間序列方面也很受歡迎。

這就是MLperf基準計劃如此重要的原因。這是我們第一次獲得CNN未完全統治的基準。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

快速瀏覽一下MLperf,圖像和對象分類基準當然是CNN,但也表示了RNN(通過神經機器翻譯)和協同過濾。同時,甚至推薦引擎測試也基於神經網絡; 從技術上講,不包括“傳統的”機器學習測試,這是不幸的。但由於這是0.5版本並且該組織正在邀請更多反饋,它肯定是有希望的,一旦它成熟,我們預計它將成為最好的基準。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

然而,通過戴爾的基準測試,我們可以清楚地看到,並非所有的神經網絡都具有CNN那樣的可擴展性。當您移動到GPU數量的四倍(並添加第二個CPU)時,ResNet CNN很容易翻兩番,而協作過濾方法只提供了50%的更高性能。

事實上,相當多的學術研究都圍繞著優化和適應CNNs展開,這樣它們就可以像處理RNNs一樣處理這些序列建模工作負載,從而可以替代伸縮性較差的RNNs。

英特爾對人工智能的看法

總的來說,英特爾有一個很好的觀點,即存在“廣泛的AI應用”,例如CNN之外的AI生活。在許多現實場景中,傳統的機器學習技術優於CNN,並非所有深度學習都是通過超可擴展的CNN完成的。在其他實際案例中,擁有大量RAM是另一個重要的性能優勢,無論是在訓練模型還是使用它來推斷新數據時。

因此,儘管英偉達在運行CNN方面具有巨大優勢,但高端Xeon 可以在數據分析市場中提供可靠的替代方案。可以肯定的是,沒有人希望新的Cascade Lake Xeon在CNN訓練中勝過英偉達 GPU,但在很多情況下,英特爾可能會說服客戶投資更強大的Xeon而不是昂貴的Tesla加速器:

  • 需要大量內存的人工智能模型的推理

  • 不需要長時間訓練的“輕型”人工智能模型批處理或流處理時間比模型培訓時間更重要的數據體系結構

  • 人工智能模型依賴於傳統的“非神經網絡”統計模型

因此,英特爾或許有機會將英偉達擋在門外,直到他們在CNN工作負載中為英偉達的GPU找到一個合理的替代方案。英特爾一直在為Xeons可伸縮系列產品瘋狂地添加功能,並優化其軟件堆棧,以對抗英偉達的人工智能霸主地位。優化的人工智能軟件,如英特爾自己的Python發行版,英特爾數學內核庫用於深度學習,甚至英特爾數據分析加速庫——主要用於傳統的機器學習……

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

總而言之,對於第二代英特爾至強可擴展處理器,該公司在深度學習(DL)Boost名稱下添加了新的AI硬件功能。這主要包括矢量神經網絡指令(VNNI)集,它可以在一個指令中執行之前需要三個指令。然而,即便更進一步,第三代Xeon可擴展處理器Cooper Lake將增加對bfloat16的支持,進一步提高培訓性能。

總之,英特爾試圖重新佔領“更輕的AI工作負載”市場,同時在數據分析市場的其他部分站穩腳跟,同時在其產品組合中添加非常專業的硬件(FPGA,ASIC)。這對英特爾在IT市場的競爭力至關重要。英特爾一再表示,數據中心集團(DCG)或“企業部分”預計將成為該公司未來幾年的主要增長引擎。

英偉達的答案

英偉達不止一次證明,它可以憑藉出色的願景和戰略戰勝競爭對手。英偉達明白將所有神經網絡擴展為CNN並不容易,並且有很多應用要麼運行在除神經網絡之外的其他方法上,要麼是內存密集型而不是計算密集型。

在GTC Europe,英偉達推出了一個新的數據科學平臺,供企業使用,該平臺建立在英偉達新的“RAPIDS”框架之上。基本思想是數據管道的GPU加速不應侷限於深度學習。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

例如,CuDF允許數據科學家將數據加載到GPU內存中並對其進行批處理,類似於Pandas(用於操作數據的python庫)。cuML是目前有限的GPU加速機器學習庫集合。最終,Scikit-Learn工具包中提供的大多數(全部?)機器學習算法應該是GPU加速的,並且可以在cuML中使用。

英偉達還添加了一個柱狀內存數據庫Apache Arrow。這是因為GPU在向量上運行,因此有利於內存中的柱狀佈局。

通過利用Apache arrow作為“中央數據庫”,英偉達避免了大量開銷。

確保存在典型Python庫(如Sci-Kit和Pandas)的GPU加速版本是朝著正確方向邁出的一步。但是Pandas僅適用於較輕的“數據科學探索”任務。通過與Databricks合作確保RAPIDS也用於重型,分佈式“數據處理”框架Spark,英偉達正在邁出下一步,突破“深度學習”角色,並向“NVIDIA”展開其餘部分數據管道。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

然而,細節決定成敗。將GPU添加到經過多年優化的框架中,以便最優地使用CPU內核和服務器中可用的大量RAM,這並不容易。Spark被構建為運行在幾十個強大的服務器內核上,而不是運行在數千個微不足道的GPU內核上。Spark已經過優化,可以在服務器節點集群上運行,使其看起來像是RAM內存和核心的一個大塊。混合兩種內存(RAM和GPU VRAM)並保持Spark的分佈式計算特性並不容易。

其次,挑選最適合GPU的機器學習算法是一回事,但確保它們在基於gpu的機器上運行良好是另一回事。最後,在可預見的將來,GPU的內存仍然少於CPU,即使是一致的平臺也不能解決系統RAM的速度只是局部VRAM速度的一小部分的問題。

誰將贏得下一個企業市場?

在最後一個投資者日,英偉達的一張PPT清楚地表明瞭企業領域的下一場戰鬥將是什麼:數據分析。請注意昂貴的雙Xeon“Skylake”Scalable如何被視為基線。這是一個相當的聲明; 將最新的英特爾動力系統之一降低到一個完全優秀的簡單基線。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

英偉達的整個商業模式圍繞著這樣一個理論:購買昂貴的硬件,如DGXs和特斯拉,對你的TCO有好處(“買得越多,省得越多”)。不要購買5000臺服務器,而是購買50臺DGX。儘管DGX消耗的功率增加了5倍,而且耗資12萬美元而不是9,000美元,但你的狀況會好得多。當然,這是最好的營銷方式,也可能是最差的營銷方式,這取決於你如何看待它。但即使這些數字略有誇大,這也是一個強有力的信息:“從我們的深度學習的大本營到英特爾當前的增長市場(推論、高性能計算和機器學習),我們將以巨大優勢擊敗英特爾。”

不相信嗎?這就是英偉達和IDC對市場演變的看法。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

目前,在總計1000億美元的市場中,計算密集型或高性能子市場約為370億美元。英偉達認為,這個子市場將在2023年翻一番,他們將能夠解決500億美元的問題。換句話說,從廣義上講,數據分析市場將幾乎佔整個服務器市場的一半。

即使這是一種高估,但很明顯,時代在變,而且風險非常高。神經網絡更適合GPU,但如果英特爾可以確保大多數數據管道在CPU上運行得更好,並且您只需要GPU用於最密集和可擴展的神經網絡,那麼它將使英偉達重新回到更適合的角色。另一方面,另一方面,如果英偉達能夠加速更大一部分數據傳輸,它將征服大部分屬於英特爾並迅速擴展的市場。在這場激烈的戰鬥中,IBM和AMD必須確保他們獲得市場份額。IBM將提供更好的基於英偉達 GPU的服務器,AMD將嘗試構建合適的軟件生態系統。

測試筆記

隨著市場的發展,很明顯,除了AMD和ARM之外,英偉達的專業產品對英特爾在數據中心及其他領域的主導地位構成了真正的威脅。因此,對於我們今天的測試,我們將專注於機器學習,並瞭解英特爾新推出的DL Boosted產品如何應對ML領域的競爭。

當然,在英特爾方面,我們正在關注該公司新的Cascade Lake Xeon可擴展CPU。該公司提供了28個核心型號中的兩個,其中包括165瓦Xeon Platinum8176,以及更快的205瓦Xeon Platinum8280。

用於與Cascade Lake的比較評測,我們使用了英偉達最新的“圖靈(Turing)”泰坦(Titan)RTX卡。雖然這些並不是真正的數據中心卡,但它們是基於Turing的,這意味著它們提供了英偉達最新的功能。在我工作的大學裡,我們的深度學習研究人員使用這些GPU來訓練人工智能模型,因為泰坦卡價格低廉,而且有大量GPU內存可用。

另外,Titan RTX卡可以同時用於訓練(混合FP32/16)作為推理(FP16和INT8)。目前的特斯拉仍然基於英偉達的Volta架構,該架構沒有可供推斷的INT8。

最後,不排除,我們也包括AMD的第一代EPYC平臺在我們所有的測試。AMD沒有像英特爾那樣的硬件策略,也沒有像VNNI那樣的具體指令,但最近該公司提供了各種各樣的驚喜。

測試基準配置和方法

我們所有的測試都是在Ubuntu Server18.04 LTS上進行的。您會注意到DRAM容量因我們的服務器配置而異。這當然是因為Xeons可以訪問六個內存通道,而EPYC CPU有八個通道。據我們所知,我們所有的測試都適合128GB,因此DRAM容量對性能影響不大。但它會對總能耗產生影響,我們將對此進行討論。

最後但並非最不重要的是,我們要注意性能圖表是如何進行顏色編碼的。Orange是AMD的EPYC,深藍色是Intel最好的(Cascade Lake / Skylake-SP),淺藍色是上一代Xeon(Xeon E5-v4)。Gray已被用於即將被替換的Xeon v1。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

我們啟用了超線程和英特爾虛擬化加速。

Xeon - NVIDIA Titan RTX工作站

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

這是測試中唯一具有獨立GPU的服務器。

AMD EPYC 7601 - (2U機箱)

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

其他說明

兩臺服務器均由標準的歐洲230V(最大16安培)電源線供電。我們的Airwell CRAC監測室溫並保持在23°C。

CPU性能

在我們進入新的AI基準測試之前,讓我們快速瞭解一下英特爾提供的常用CPU基準測試和性能聲明。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

為了進行比較,我們將重點關注第二排 - 第一排是將價格極為驚人的400W雙芯片英特爾鉑金9282與更合理的產品進行比較,並向所有人提供英特爾鉑金8180.第二行說明了所有內容:幾MHz與第一代Xeon可擴展部件相比,RAM速度稍高,可使性能提高3%(整數)至5%(FP)。浮點性能的更高提升可能是因為英特爾的第二代部件可以使用更快的DDR4-2933 DIMM,從而為內核提供更多帶寬。

中端SKU得到更大的推動,因為一些x2xx Xeon 可擴展部件比以前的x1xx部件獲得更多內核和更多L3緩存。例如,6252具有24個核心和35.75 MB L3,而6152具有22個核心和30.25 MB L3。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

然而,與AMD的EPYC 7601的比較值得我們關注,因為這裡有一些有趣的數據。再次,400W,$50k小芯片CPU與180W $4k芯片CPU的比較沒有任何意義,所以我們忽略了第一行。

Linpack數據並不令人驚訝:更昂貴的Skylake SKU為現有的雙256位FMAC增加了512位FMAC,提供的AVX吞吐量比AMD的EPYC高出4倍。由於每個FP單元現在能夠執行256位AVX而不是128位,因此AMD的下一代將在這一領域更具競爭力。

圖像分類結果清楚地表明,英特爾試圖讓人們相信某些AI應用程序應該只在CPU上運行,而不需要GPU。

英特爾聲稱數據庫性能比EPYC好得多,這一事實非常有趣,正如我們之前指出的,AMD的4個NUMA芯片確實有缺陷。引用我們的Xeon Skylake vs . EPYC的評論:

開箱即用,EPYC CPU是一個相當普通的事務數據庫CPU…事務數據庫目前仍將是Intel的領域。

在數據庫中,緩存(一致性)延遲起著重要作用。看看AMD在第二代EPYC服務器芯片上是如何解決這一弱點的,將是一件很有趣的事情。

SAP S&D

在我們開始使用數據分析ML基準之前的最後一站:SAP。企業資源規劃軟件是“傳統”企業軟件的完美典範。

SAP S&D 2-Tier基準測試可能是供應商完成的所有服務器基準測試中最真實的基準測試。它是一個完整的應用程序,生活在一個繁重的關係數據庫之上。

我們在之前的一篇文章中深入分析了SAP Benchmark :

  • 非常並行,具有良好的伸縮性

  • 低到中等IPC,主要是由於“分支”代碼

  • 受內存帶寬的限制

  • 喜歡大型緩存(內存延遲)

  • 同步(“緩存一致性”)延遲非常敏感

不同供應商提供了許多基準測試結果。為了獲得(或多或少)蘋果與蘋果的比較,我們僅限於在SQL Server 2012Enterprise上運行的“SAPS結果”。

"

很多內行會覺得將英特爾(Intel) Cascade Lake與英偉達(Nvidia) 的圖靈(Turing)放在一起比較不太合適,乍一看,硬件選擇看起來很簡單:Intel Xeon CPU為通用處理器,用於存儲和預處理數據,英偉達 GPU更多用於AI。事實上,這在過去幾年中已成為現實。然而,英偉達的競爭對手一直沒有袖手旁觀 - 尤其是英特爾。從專用的低功耗推理處理器到專用優化的Xeon,英特爾正在瞄準AI市場的各個層面。最終的結果是,在所有這些競爭對手之間,我們看到人工智能從許多不同的方向解決,人工智能時代的硬件爭奪是非常有趣的。

今天我們來看看英特爾的第二代Xeon可擴展處理器,即“Cascade Lake”,它可能是英特爾在AI領域硬件的核心。今年早些時候推出的這些新處理器仍然基於與第一代產品相同的核心Skylake架構,但採用了許多新指令來加速AI性能。

就新技術而言,這肯定是Cascade Lake最有趣的方面。雖然我們可以談論一般CPU性能提升3%到6%,英特爾最昂貴處理器的56核,以及“世界紀錄基準”, 但這些小的改進對於IT世界近期和中期的未來幾乎是無關緊要的。看看英特爾新聞與分析師簡報的第一張PPT就知道了。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

物聯網、數據工程和人工智能。這將是增長、創新和未來的主要領域。這就是英特爾的目標。目前,英偉達在這個市場上領域——深度學習和“大規模並行高性能計算”軟件——幾乎處於壟斷地位。由於硬件和軟件方面的一系列因素,大多數軟件都運行在英偉達GPU和集群上。因此,對於普通大眾來說,英偉達似乎擁有“人工智能市場”,這一圖景並不準確,但也不完整。人工智能市場不僅僅是神經網絡推理,特別是,所有為人工智能模型提供數據的事情都很少受到關注。因此,神經網絡和他的終結者機器人佔據了所有的頭條,儘管它們只是圖片的一部分。實際上,AI應用程序的處理網絡更類似於下圖。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

簡而言之,實際的機器學習代碼執行只是構建和AI應用程序所需的軟件工具的一小部分。為什麼?讓我們深入研究一下。

人工智能不僅僅是深度學習

在高層次上,雖然深度學習是人工智能的一種形式,但反過來並不總是正確的,實現AI的應用程序不一定要使用深度學習。許多人工智能應用程序使用“傳統統計”或“傳統”機器學習。畢竟,支持向量機、邏輯迴歸、K-nearest、Naive Bayes和決策樹在自動進行信息分類時仍然非常有用,尤其是在沒有大量數據的情況下。

例如,在自然語言處理中使用條件隨機域(CRF),許多推薦引擎都是基於玻爾茲曼機、交替最小二乘(ALS)等。舉個例子:我們的“大數據”基準測試是最苛刻、最獨特的基準測試之一,它使用ALS算法作為推薦引擎(“協同過濾”)。

當然,神經網絡的應用——它本身就是一個完整的研究領域——正在蓬勃發展,它們的應用往往主導著最新的人工智能應用。神經網絡也是要求最高的工作負載之一,需要大量的處理能力。所有這些都與邏輯迴歸(logistic regression)形成了鮮明對比,後者仍然是最常用的機器學習方法,而且恰好需要更少的處理。

儘管如此,儘管神經網絡是人工智能技術中處理最密集的技術(尤其是具有大量層的技術),但有幾種傳統的機器學習技術也需要大量的處理能力。例如,支持向量機及其複雜的轉換也往往需要大量的計算時間。在我們的Spark測試中,斯坦福大學的NER系統是基於一個有監督的CRF模型,使用標記的英語數據集合。在測試中,它必須處理大量的高達幾百GB的非結構化文本數據。

反過來,處理能力要求的這些差異的原因實際上非常簡單。引用AI專家Wouter Gevaert的表述:

"神經網絡中的每個神經元都可以被視為邏輯迴歸單元。因此,神經網絡就像大量的邏輯迴歸" (當你使用sigmoid作為激活函數時)

然而,儘管神經網絡是人工智能技術中最需要處理的技術(尤其是具有大量層次的人工智能技術),有幾種傳統的機器學習技術也需要大量的處理能力。例如,支持向量機及其複雜的轉換也往往需要大量的計算時間。在我們的Spark測試中,斯坦福大學的NER系統是基於一個有監督的CRF模型,使用標記的英語數據集合。在測試中,它必須處理幾百GB的大量的非結構化文本。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

當然,大多數分析查詢仍然使用舊的SQL編寫。對於結構化和半結構化數據,對於OLAP多維數據集等,SQL代碼仍然很普遍。由於單個SQL查詢遠不及神經網絡那麼平行 - 在許多情況下它們是100%順序的 - CPU是這項工作的最佳工具。

因此,在實踐中,大多數數據(預處理)和許多人工智能軟件仍然運行在CPU上。GPU主要運行大規模並行的HPC應用程序和神經網絡,這無疑是一個重要的市場,但仍然只是更大的人工智能市場的一部分。這也是為什麼英偉達去年的數據中心收入為30億美元,而英特爾的數據中心收入為200億美元。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

然而,使整個情況更加複雜的不僅僅是隻看收入,還要看增長。在數據中心市場,英偉達一直在大幅增長,而英特爾只實現了個位數的增長。隨著新技術的出現,客戶的需求也在不斷變化;對數據分析市場的爭奪已經開始,而且正在加劇。

卷積,循環和可擴展性:尋求平衡

儘管英特爾Xeon Phi協處理器(Xeon Phi協處理器)作為加速器在市場上失敗了,而且已經停產,但英特爾並沒有放棄這個概念。該公司仍希望在人工智能市場佔據更大的份額,包括原本可能進入英偉達的份額。

Naveen提出了一個重點。因為雖然英偉達從未聲稱他們為所有類型的AI提供最好的硬件,但從表面上看整個行業新聞稿中引用最多的基準(ResNet,Inception等),你幾乎可以相信只有一種類型的AI事項。卷積神經網絡(CNN或ConvNets)在基準測試和產品演示中佔據主導地位,因為它們是分析圖像和視頻的最流行的技術。任何可以表示為“2D輸入”的東西都是這些流行神經網絡的輸入層的潛在候選者。

近年來,CNN取得了一些最引人注目的突破。例如,ResNet性能如此受歡迎並不是錯誤的。相關的ImageNet數據庫是斯坦福大學和普林斯頓大學之間的合作,包含了1400萬張圖像。直到最近十年,AI在識別這些圖像方面的表現非常差。美國有線電視新聞網(CNN)以快速的順序改變了這一點,從那以後它一直是最受歡迎的人工智能挑戰之一,因為公司希望能夠比以往更快,更準確地對這個數據庫進行分類。

早在2012年,AlexNet,一個相對簡單的神經網絡,在ImageNet分類競賽中取得了比傳統機器學習技術更好的準確率。在那次測試中,它達到了85%的準確率,幾乎是傳統方法73%準確率的一半。

在2015年,著名的Inception V3在對圖片進行分類時達到了3.58%的錯誤率,這與人類相似(甚至略好於人類)。ImageNet的挑戰變得更加困難,但是由於剩餘的學習,即使不增加層數,CNN也變得更好。這導致了著名的“ResNet”CNN,現在最流行的人工智能基準之一。長話短說,CNNs是人工智能領域的明星。到目前為止,他們得到了最多的關注、測試和研究。

CNN也具有很高的可擴展性:在降低網絡培訓時間時,增加更多GPU(幾乎)線性擴展。

坦率地說,CNN是上天送給英偉達的禮物。這是人們購買昂貴的英偉達 DGX服務器(40萬美元)或購買多臺特斯拉GPU (7k+美元)最常見的原因。

儘管如此,人工智能還有比CNN更多的東西。例如,遞歸神經網絡在語音識別、語言翻譯和時間序列方面也很受歡迎。

這就是MLperf基準計劃如此重要的原因。這是我們第一次獲得CNN未完全統治的基準。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

快速瀏覽一下MLperf,圖像和對象分類基準當然是CNN,但也表示了RNN(通過神經機器翻譯)和協同過濾。同時,甚至推薦引擎測試也基於神經網絡; 從技術上講,不包括“傳統的”機器學習測試,這是不幸的。但由於這是0.5版本並且該組織正在邀請更多反饋,它肯定是有希望的,一旦它成熟,我們預計它將成為最好的基準。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

然而,通過戴爾的基準測試,我們可以清楚地看到,並非所有的神經網絡都具有CNN那樣的可擴展性。當您移動到GPU數量的四倍(並添加第二個CPU)時,ResNet CNN很容易翻兩番,而協作過濾方法只提供了50%的更高性能。

事實上,相當多的學術研究都圍繞著優化和適應CNNs展開,這樣它們就可以像處理RNNs一樣處理這些序列建模工作負載,從而可以替代伸縮性較差的RNNs。

英特爾對人工智能的看法

總的來說,英特爾有一個很好的觀點,即存在“廣泛的AI應用”,例如CNN之外的AI生活。在許多現實場景中,傳統的機器學習技術優於CNN,並非所有深度學習都是通過超可擴展的CNN完成的。在其他實際案例中,擁有大量RAM是另一個重要的性能優勢,無論是在訓練模型還是使用它來推斷新數據時。

因此,儘管英偉達在運行CNN方面具有巨大優勢,但高端Xeon 可以在數據分析市場中提供可靠的替代方案。可以肯定的是,沒有人希望新的Cascade Lake Xeon在CNN訓練中勝過英偉達 GPU,但在很多情況下,英特爾可能會說服客戶投資更強大的Xeon而不是昂貴的Tesla加速器:

  • 需要大量內存的人工智能模型的推理

  • 不需要長時間訓練的“輕型”人工智能模型批處理或流處理時間比模型培訓時間更重要的數據體系結構

  • 人工智能模型依賴於傳統的“非神經網絡”統計模型

因此,英特爾或許有機會將英偉達擋在門外,直到他們在CNN工作負載中為英偉達的GPU找到一個合理的替代方案。英特爾一直在為Xeons可伸縮系列產品瘋狂地添加功能,並優化其軟件堆棧,以對抗英偉達的人工智能霸主地位。優化的人工智能軟件,如英特爾自己的Python發行版,英特爾數學內核庫用於深度學習,甚至英特爾數據分析加速庫——主要用於傳統的機器學習……

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

總而言之,對於第二代英特爾至強可擴展處理器,該公司在深度學習(DL)Boost名稱下添加了新的AI硬件功能。這主要包括矢量神經網絡指令(VNNI)集,它可以在一個指令中執行之前需要三個指令。然而,即便更進一步,第三代Xeon可擴展處理器Cooper Lake將增加對bfloat16的支持,進一步提高培訓性能。

總之,英特爾試圖重新佔領“更輕的AI工作負載”市場,同時在數據分析市場的其他部分站穩腳跟,同時在其產品組合中添加非常專業的硬件(FPGA,ASIC)。這對英特爾在IT市場的競爭力至關重要。英特爾一再表示,數據中心集團(DCG)或“企業部分”預計將成為該公司未來幾年的主要增長引擎。

英偉達的答案

英偉達不止一次證明,它可以憑藉出色的願景和戰略戰勝競爭對手。英偉達明白將所有神經網絡擴展為CNN並不容易,並且有很多應用要麼運行在除神經網絡之外的其他方法上,要麼是內存密集型而不是計算密集型。

在GTC Europe,英偉達推出了一個新的數據科學平臺,供企業使用,該平臺建立在英偉達新的“RAPIDS”框架之上。基本思想是數據管道的GPU加速不應侷限於深度學習。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

例如,CuDF允許數據科學家將數據加載到GPU內存中並對其進行批處理,類似於Pandas(用於操作數據的python庫)。cuML是目前有限的GPU加速機器學習庫集合。最終,Scikit-Learn工具包中提供的大多數(全部?)機器學習算法應該是GPU加速的,並且可以在cuML中使用。

英偉達還添加了一個柱狀內存數據庫Apache Arrow。這是因為GPU在向量上運行,因此有利於內存中的柱狀佈局。

通過利用Apache arrow作為“中央數據庫”,英偉達避免了大量開銷。

確保存在典型Python庫(如Sci-Kit和Pandas)的GPU加速版本是朝著正確方向邁出的一步。但是Pandas僅適用於較輕的“數據科學探索”任務。通過與Databricks合作確保RAPIDS也用於重型,分佈式“數據處理”框架Spark,英偉達正在邁出下一步,突破“深度學習”角色,並向“NVIDIA”展開其餘部分數據管道。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

然而,細節決定成敗。將GPU添加到經過多年優化的框架中,以便最優地使用CPU內核和服務器中可用的大量RAM,這並不容易。Spark被構建為運行在幾十個強大的服務器內核上,而不是運行在數千個微不足道的GPU內核上。Spark已經過優化,可以在服務器節點集群上運行,使其看起來像是RAM內存和核心的一個大塊。混合兩種內存(RAM和GPU VRAM)並保持Spark的分佈式計算特性並不容易。

其次,挑選最適合GPU的機器學習算法是一回事,但確保它們在基於gpu的機器上運行良好是另一回事。最後,在可預見的將來,GPU的內存仍然少於CPU,即使是一致的平臺也不能解決系統RAM的速度只是局部VRAM速度的一小部分的問題。

誰將贏得下一個企業市場?

在最後一個投資者日,英偉達的一張PPT清楚地表明瞭企業領域的下一場戰鬥將是什麼:數據分析。請注意昂貴的雙Xeon“Skylake”Scalable如何被視為基線。這是一個相當的聲明; 將最新的英特爾動力系統之一降低到一個完全優秀的簡單基線。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

英偉達的整個商業模式圍繞著這樣一個理論:購買昂貴的硬件,如DGXs和特斯拉,對你的TCO有好處(“買得越多,省得越多”)。不要購買5000臺服務器,而是購買50臺DGX。儘管DGX消耗的功率增加了5倍,而且耗資12萬美元而不是9,000美元,但你的狀況會好得多。當然,這是最好的營銷方式,也可能是最差的營銷方式,這取決於你如何看待它。但即使這些數字略有誇大,這也是一個強有力的信息:“從我們的深度學習的大本營到英特爾當前的增長市場(推論、高性能計算和機器學習),我們將以巨大優勢擊敗英特爾。”

不相信嗎?這就是英偉達和IDC對市場演變的看法。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

目前,在總計1000億美元的市場中,計算密集型或高性能子市場約為370億美元。英偉達認為,這個子市場將在2023年翻一番,他們將能夠解決500億美元的問題。換句話說,從廣義上講,數據分析市場將幾乎佔整個服務器市場的一半。

即使這是一種高估,但很明顯,時代在變,而且風險非常高。神經網絡更適合GPU,但如果英特爾可以確保大多數數據管道在CPU上運行得更好,並且您只需要GPU用於最密集和可擴展的神經網絡,那麼它將使英偉達重新回到更適合的角色。另一方面,另一方面,如果英偉達能夠加速更大一部分數據傳輸,它將征服大部分屬於英特爾並迅速擴展的市場。在這場激烈的戰鬥中,IBM和AMD必須確保他們獲得市場份額。IBM將提供更好的基於英偉達 GPU的服務器,AMD將嘗試構建合適的軟件生態系統。

測試筆記

隨著市場的發展,很明顯,除了AMD和ARM之外,英偉達的專業產品對英特爾在數據中心及其他領域的主導地位構成了真正的威脅。因此,對於我們今天的測試,我們將專注於機器學習,並瞭解英特爾新推出的DL Boosted產品如何應對ML領域的競爭。

當然,在英特爾方面,我們正在關注該公司新的Cascade Lake Xeon可擴展CPU。該公司提供了28個核心型號中的兩個,其中包括165瓦Xeon Platinum8176,以及更快的205瓦Xeon Platinum8280。

用於與Cascade Lake的比較評測,我們使用了英偉達最新的“圖靈(Turing)”泰坦(Titan)RTX卡。雖然這些並不是真正的數據中心卡,但它們是基於Turing的,這意味著它們提供了英偉達最新的功能。在我工作的大學裡,我們的深度學習研究人員使用這些GPU來訓練人工智能模型,因為泰坦卡價格低廉,而且有大量GPU內存可用。

另外,Titan RTX卡可以同時用於訓練(混合FP32/16)作為推理(FP16和INT8)。目前的特斯拉仍然基於英偉達的Volta架構,該架構沒有可供推斷的INT8。

最後,不排除,我們也包括AMD的第一代EPYC平臺在我們所有的測試。AMD沒有像英特爾那樣的硬件策略,也沒有像VNNI那樣的具體指令,但最近該公司提供了各種各樣的驚喜。

測試基準配置和方法

我們所有的測試都是在Ubuntu Server18.04 LTS上進行的。您會注意到DRAM容量因我們的服務器配置而異。這當然是因為Xeons可以訪問六個內存通道,而EPYC CPU有八個通道。據我們所知,我們所有的測試都適合128GB,因此DRAM容量對性能影響不大。但它會對總能耗產生影響,我們將對此進行討論。

最後但並非最不重要的是,我們要注意性能圖表是如何進行顏色編碼的。Orange是AMD的EPYC,深藍色是Intel最好的(Cascade Lake / Skylake-SP),淺藍色是上一代Xeon(Xeon E5-v4)。Gray已被用於即將被替換的Xeon v1。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

我們啟用了超線程和英特爾虛擬化加速。

Xeon - NVIDIA Titan RTX工作站

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

這是測試中唯一具有獨立GPU的服務器。

AMD EPYC 7601 - (2U機箱)

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

其他說明

兩臺服務器均由標準的歐洲230V(最大16安培)電源線供電。我們的Airwell CRAC監測室溫並保持在23°C。

CPU性能

在我們進入新的AI基準測試之前,讓我們快速瞭解一下英特爾提供的常用CPU基準測試和性能聲明。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

為了進行比較,我們將重點關注第二排 - 第一排是將價格極為驚人的400W雙芯片英特爾鉑金9282與更合理的產品進行比較,並向所有人提供英特爾鉑金8180.第二行說明了所有內容:幾MHz與第一代Xeon可擴展部件相比,RAM速度稍高,可使性能提高3%(整數)至5%(FP)。浮點性能的更高提升可能是因為英特爾的第二代部件可以使用更快的DDR4-2933 DIMM,從而為內核提供更多帶寬。

中端SKU得到更大的推動,因為一些x2xx Xeon 可擴展部件比以前的x1xx部件獲得更多內核和更多L3緩存。例如,6252具有24個核心和35.75 MB L3,而6152具有22個核心和30.25 MB L3。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

然而,與AMD的EPYC 7601的比較值得我們關注,因為這裡有一些有趣的數據。再次,400W,$50k小芯片CPU與180W $4k芯片CPU的比較沒有任何意義,所以我們忽略了第一行。

Linpack數據並不令人驚訝:更昂貴的Skylake SKU為現有的雙256位FMAC增加了512位FMAC,提供的AVX吞吐量比AMD的EPYC高出4倍。由於每個FP單元現在能夠執行256位AVX而不是128位,因此AMD的下一代將在這一領域更具競爭力。

圖像分類結果清楚地表明,英特爾試圖讓人們相信某些AI應用程序應該只在CPU上運行,而不需要GPU。

英特爾聲稱數據庫性能比EPYC好得多,這一事實非常有趣,正如我們之前指出的,AMD的4個NUMA芯片確實有缺陷。引用我們的Xeon Skylake vs . EPYC的評論:

開箱即用,EPYC CPU是一個相當普通的事務數據庫CPU…事務數據庫目前仍將是Intel的領域。

在數據庫中,緩存(一致性)延遲起著重要作用。看看AMD在第二代EPYC服務器芯片上是如何解決這一弱點的,將是一件很有趣的事情。

SAP S&D

在我們開始使用數據分析ML基準之前的最後一站:SAP。企業資源規劃軟件是“傳統”企業軟件的完美典範。

SAP S&D 2-Tier基準測試可能是供應商完成的所有服務器基準測試中最真實的基準測試。它是一個完整的應用程序,生活在一個繁重的關係數據庫之上。

我們在之前的一篇文章中深入分析了SAP Benchmark :

  • 非常並行,具有良好的伸縮性

  • 低到中等IPC,主要是由於“分支”代碼

  • 受內存帶寬的限制

  • 喜歡大型緩存(內存延遲)

  • 同步(“緩存一致性”)延遲非常敏感

不同供應商提供了許多基準測試結果。為了獲得(或多或少)蘋果與蘋果的比較,我們僅限於在SQL Server 2012Enterprise上運行的“SAPS結果”。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

基於Xeon 8180和8280的服務器的富士通基準測試與我們可以獲得的一樣多:與測試和調優相同的人,相同的操作系統和數據庫。略高的時鐘(+ 200 Mhz,+ 8%)使性能提高3%。兩個CPU都有28個內核,但8280的時鐘速度提高了8%,從某種意義上說,這種時鐘速度的提升並沒有帶來更大的性能提升,這令人驚訝。我們得到的結論是,Cascade Lake的時鐘頻率可能比Skylake略慢,因為兩個SPEC CPU基準測試也只增加了3%到5%。

因此,在典型的企業堆棧中,您需要在相同的價格/能耗下獲得約3%的性能提升。然而,AMD便宜得多(編輯:很快就會更新)$ 4k EPYC 7601並沒有那麼落後。考慮到EPYC已經在昂貴的兩倍8176(2.1 GHz,28個核心)的誤差範圍內,8276具有稍高的時鐘速度(2.2 Ghz)並不會顯著改善問題。即使是Xeon 8164(26 GHz,2 GHz)也能提供與EPYC 7601 大致相同的性能,但仍然要高出 50%。

考慮到AMD在Zen 2架構方面取得了多大進展,以及頂級SKU將內核數量增加一倍(64比32),看起來AMD羅馬將對Xeon銷售施加更大壓力。

Apache Spark 2.1基準測試

Apache Spark是大數據處理的典範。加速大數據應用程序是我工作的大學實驗室(西佛蘭德大學學院的Sizing Servers Lab)的首要項目,因此我們製作了一個基準,它使用了許多Spark功能並基於實際使用情況。

"

很多內行會覺得將英特爾(Intel) Cascade Lake與英偉達(Nvidia) 的圖靈(Turing)放在一起比較不太合適,乍一看,硬件選擇看起來很簡單:Intel Xeon CPU為通用處理器,用於存儲和預處理數據,英偉達 GPU更多用於AI。事實上,這在過去幾年中已成為現實。然而,英偉達的競爭對手一直沒有袖手旁觀 - 尤其是英特爾。從專用的低功耗推理處理器到專用優化的Xeon,英特爾正在瞄準AI市場的各個層面。最終的結果是,在所有這些競爭對手之間,我們看到人工智能從許多不同的方向解決,人工智能時代的硬件爭奪是非常有趣的。

今天我們來看看英特爾的第二代Xeon可擴展處理器,即“Cascade Lake”,它可能是英特爾在AI領域硬件的核心。今年早些時候推出的這些新處理器仍然基於與第一代產品相同的核心Skylake架構,但採用了許多新指令來加速AI性能。

就新技術而言,這肯定是Cascade Lake最有趣的方面。雖然我們可以談論一般CPU性能提升3%到6%,英特爾最昂貴處理器的56核,以及“世界紀錄基準”, 但這些小的改進對於IT世界近期和中期的未來幾乎是無關緊要的。看看英特爾新聞與分析師簡報的第一張PPT就知道了。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

物聯網、數據工程和人工智能。這將是增長、創新和未來的主要領域。這就是英特爾的目標。目前,英偉達在這個市場上領域——深度學習和“大規模並行高性能計算”軟件——幾乎處於壟斷地位。由於硬件和軟件方面的一系列因素,大多數軟件都運行在英偉達GPU和集群上。因此,對於普通大眾來說,英偉達似乎擁有“人工智能市場”,這一圖景並不準確,但也不完整。人工智能市場不僅僅是神經網絡推理,特別是,所有為人工智能模型提供數據的事情都很少受到關注。因此,神經網絡和他的終結者機器人佔據了所有的頭條,儘管它們只是圖片的一部分。實際上,AI應用程序的處理網絡更類似於下圖。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

簡而言之,實際的機器學習代碼執行只是構建和AI應用程序所需的軟件工具的一小部分。為什麼?讓我們深入研究一下。

人工智能不僅僅是深度學習

在高層次上,雖然深度學習是人工智能的一種形式,但反過來並不總是正確的,實現AI的應用程序不一定要使用深度學習。許多人工智能應用程序使用“傳統統計”或“傳統”機器學習。畢竟,支持向量機、邏輯迴歸、K-nearest、Naive Bayes和決策樹在自動進行信息分類時仍然非常有用,尤其是在沒有大量數據的情況下。

例如,在自然語言處理中使用條件隨機域(CRF),許多推薦引擎都是基於玻爾茲曼機、交替最小二乘(ALS)等。舉個例子:我們的“大數據”基準測試是最苛刻、最獨特的基準測試之一,它使用ALS算法作為推薦引擎(“協同過濾”)。

當然,神經網絡的應用——它本身就是一個完整的研究領域——正在蓬勃發展,它們的應用往往主導著最新的人工智能應用。神經網絡也是要求最高的工作負載之一,需要大量的處理能力。所有這些都與邏輯迴歸(logistic regression)形成了鮮明對比,後者仍然是最常用的機器學習方法,而且恰好需要更少的處理。

儘管如此,儘管神經網絡是人工智能技術中處理最密集的技術(尤其是具有大量層的技術),但有幾種傳統的機器學習技術也需要大量的處理能力。例如,支持向量機及其複雜的轉換也往往需要大量的計算時間。在我們的Spark測試中,斯坦福大學的NER系統是基於一個有監督的CRF模型,使用標記的英語數據集合。在測試中,它必須處理大量的高達幾百GB的非結構化文本數據。

反過來,處理能力要求的這些差異的原因實際上非常簡單。引用AI專家Wouter Gevaert的表述:

"神經網絡中的每個神經元都可以被視為邏輯迴歸單元。因此,神經網絡就像大量的邏輯迴歸" (當你使用sigmoid作為激活函數時)

然而,儘管神經網絡是人工智能技術中最需要處理的技術(尤其是具有大量層次的人工智能技術),有幾種傳統的機器學習技術也需要大量的處理能力。例如,支持向量機及其複雜的轉換也往往需要大量的計算時間。在我們的Spark測試中,斯坦福大學的NER系統是基於一個有監督的CRF模型,使用標記的英語數據集合。在測試中,它必須處理幾百GB的大量的非結構化文本。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

當然,大多數分析查詢仍然使用舊的SQL編寫。對於結構化和半結構化數據,對於OLAP多維數據集等,SQL代碼仍然很普遍。由於單個SQL查詢遠不及神經網絡那麼平行 - 在許多情況下它們是100%順序的 - CPU是這項工作的最佳工具。

因此,在實踐中,大多數數據(預處理)和許多人工智能軟件仍然運行在CPU上。GPU主要運行大規模並行的HPC應用程序和神經網絡,這無疑是一個重要的市場,但仍然只是更大的人工智能市場的一部分。這也是為什麼英偉達去年的數據中心收入為30億美元,而英特爾的數據中心收入為200億美元。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

然而,使整個情況更加複雜的不僅僅是隻看收入,還要看增長。在數據中心市場,英偉達一直在大幅增長,而英特爾只實現了個位數的增長。隨著新技術的出現,客戶的需求也在不斷變化;對數據分析市場的爭奪已經開始,而且正在加劇。

卷積,循環和可擴展性:尋求平衡

儘管英特爾Xeon Phi協處理器(Xeon Phi協處理器)作為加速器在市場上失敗了,而且已經停產,但英特爾並沒有放棄這個概念。該公司仍希望在人工智能市場佔據更大的份額,包括原本可能進入英偉達的份額。

Naveen提出了一個重點。因為雖然英偉達從未聲稱他們為所有類型的AI提供最好的硬件,但從表面上看整個行業新聞稿中引用最多的基準(ResNet,Inception等),你幾乎可以相信只有一種類型的AI事項。卷積神經網絡(CNN或ConvNets)在基準測試和產品演示中佔據主導地位,因為它們是分析圖像和視頻的最流行的技術。任何可以表示為“2D輸入”的東西都是這些流行神經網絡的輸入層的潛在候選者。

近年來,CNN取得了一些最引人注目的突破。例如,ResNet性能如此受歡迎並不是錯誤的。相關的ImageNet數據庫是斯坦福大學和普林斯頓大學之間的合作,包含了1400萬張圖像。直到最近十年,AI在識別這些圖像方面的表現非常差。美國有線電視新聞網(CNN)以快速的順序改變了這一點,從那以後它一直是最受歡迎的人工智能挑戰之一,因為公司希望能夠比以往更快,更準確地對這個數據庫進行分類。

早在2012年,AlexNet,一個相對簡單的神經網絡,在ImageNet分類競賽中取得了比傳統機器學習技術更好的準確率。在那次測試中,它達到了85%的準確率,幾乎是傳統方法73%準確率的一半。

在2015年,著名的Inception V3在對圖片進行分類時達到了3.58%的錯誤率,這與人類相似(甚至略好於人類)。ImageNet的挑戰變得更加困難,但是由於剩餘的學習,即使不增加層數,CNN也變得更好。這導致了著名的“ResNet”CNN,現在最流行的人工智能基準之一。長話短說,CNNs是人工智能領域的明星。到目前為止,他們得到了最多的關注、測試和研究。

CNN也具有很高的可擴展性:在降低網絡培訓時間時,增加更多GPU(幾乎)線性擴展。

坦率地說,CNN是上天送給英偉達的禮物。這是人們購買昂貴的英偉達 DGX服務器(40萬美元)或購買多臺特斯拉GPU (7k+美元)最常見的原因。

儘管如此,人工智能還有比CNN更多的東西。例如,遞歸神經網絡在語音識別、語言翻譯和時間序列方面也很受歡迎。

這就是MLperf基準計劃如此重要的原因。這是我們第一次獲得CNN未完全統治的基準。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

快速瀏覽一下MLperf,圖像和對象分類基準當然是CNN,但也表示了RNN(通過神經機器翻譯)和協同過濾。同時,甚至推薦引擎測試也基於神經網絡; 從技術上講,不包括“傳統的”機器學習測試,這是不幸的。但由於這是0.5版本並且該組織正在邀請更多反饋,它肯定是有希望的,一旦它成熟,我們預計它將成為最好的基準。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

然而,通過戴爾的基準測試,我們可以清楚地看到,並非所有的神經網絡都具有CNN那樣的可擴展性。當您移動到GPU數量的四倍(並添加第二個CPU)時,ResNet CNN很容易翻兩番,而協作過濾方法只提供了50%的更高性能。

事實上,相當多的學術研究都圍繞著優化和適應CNNs展開,這樣它們就可以像處理RNNs一樣處理這些序列建模工作負載,從而可以替代伸縮性較差的RNNs。

英特爾對人工智能的看法

總的來說,英特爾有一個很好的觀點,即存在“廣泛的AI應用”,例如CNN之外的AI生活。在許多現實場景中,傳統的機器學習技術優於CNN,並非所有深度學習都是通過超可擴展的CNN完成的。在其他實際案例中,擁有大量RAM是另一個重要的性能優勢,無論是在訓練模型還是使用它來推斷新數據時。

因此,儘管英偉達在運行CNN方面具有巨大優勢,但高端Xeon 可以在數據分析市場中提供可靠的替代方案。可以肯定的是,沒有人希望新的Cascade Lake Xeon在CNN訓練中勝過英偉達 GPU,但在很多情況下,英特爾可能會說服客戶投資更強大的Xeon而不是昂貴的Tesla加速器:

  • 需要大量內存的人工智能模型的推理

  • 不需要長時間訓練的“輕型”人工智能模型批處理或流處理時間比模型培訓時間更重要的數據體系結構

  • 人工智能模型依賴於傳統的“非神經網絡”統計模型

因此,英特爾或許有機會將英偉達擋在門外,直到他們在CNN工作負載中為英偉達的GPU找到一個合理的替代方案。英特爾一直在為Xeons可伸縮系列產品瘋狂地添加功能,並優化其軟件堆棧,以對抗英偉達的人工智能霸主地位。優化的人工智能軟件,如英特爾自己的Python發行版,英特爾數學內核庫用於深度學習,甚至英特爾數據分析加速庫——主要用於傳統的機器學習……

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

總而言之,對於第二代英特爾至強可擴展處理器,該公司在深度學習(DL)Boost名稱下添加了新的AI硬件功能。這主要包括矢量神經網絡指令(VNNI)集,它可以在一個指令中執行之前需要三個指令。然而,即便更進一步,第三代Xeon可擴展處理器Cooper Lake將增加對bfloat16的支持,進一步提高培訓性能。

總之,英特爾試圖重新佔領“更輕的AI工作負載”市場,同時在數據分析市場的其他部分站穩腳跟,同時在其產品組合中添加非常專業的硬件(FPGA,ASIC)。這對英特爾在IT市場的競爭力至關重要。英特爾一再表示,數據中心集團(DCG)或“企業部分”預計將成為該公司未來幾年的主要增長引擎。

英偉達的答案

英偉達不止一次證明,它可以憑藉出色的願景和戰略戰勝競爭對手。英偉達明白將所有神經網絡擴展為CNN並不容易,並且有很多應用要麼運行在除神經網絡之外的其他方法上,要麼是內存密集型而不是計算密集型。

在GTC Europe,英偉達推出了一個新的數據科學平臺,供企業使用,該平臺建立在英偉達新的“RAPIDS”框架之上。基本思想是數據管道的GPU加速不應侷限於深度學習。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

例如,CuDF允許數據科學家將數據加載到GPU內存中並對其進行批處理,類似於Pandas(用於操作數據的python庫)。cuML是目前有限的GPU加速機器學習庫集合。最終,Scikit-Learn工具包中提供的大多數(全部?)機器學習算法應該是GPU加速的,並且可以在cuML中使用。

英偉達還添加了一個柱狀內存數據庫Apache Arrow。這是因為GPU在向量上運行,因此有利於內存中的柱狀佈局。

通過利用Apache arrow作為“中央數據庫”,英偉達避免了大量開銷。

確保存在典型Python庫(如Sci-Kit和Pandas)的GPU加速版本是朝著正確方向邁出的一步。但是Pandas僅適用於較輕的“數據科學探索”任務。通過與Databricks合作確保RAPIDS也用於重型,分佈式“數據處理”框架Spark,英偉達正在邁出下一步,突破“深度學習”角色,並向“NVIDIA”展開其餘部分數據管道。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

然而,細節決定成敗。將GPU添加到經過多年優化的框架中,以便最優地使用CPU內核和服務器中可用的大量RAM,這並不容易。Spark被構建為運行在幾十個強大的服務器內核上,而不是運行在數千個微不足道的GPU內核上。Spark已經過優化,可以在服務器節點集群上運行,使其看起來像是RAM內存和核心的一個大塊。混合兩種內存(RAM和GPU VRAM)並保持Spark的分佈式計算特性並不容易。

其次,挑選最適合GPU的機器學習算法是一回事,但確保它們在基於gpu的機器上運行良好是另一回事。最後,在可預見的將來,GPU的內存仍然少於CPU,即使是一致的平臺也不能解決系統RAM的速度只是局部VRAM速度的一小部分的問題。

誰將贏得下一個企業市場?

在最後一個投資者日,英偉達的一張PPT清楚地表明瞭企業領域的下一場戰鬥將是什麼:數據分析。請注意昂貴的雙Xeon“Skylake”Scalable如何被視為基線。這是一個相當的聲明; 將最新的英特爾動力系統之一降低到一個完全優秀的簡單基線。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

英偉達的整個商業模式圍繞著這樣一個理論:購買昂貴的硬件,如DGXs和特斯拉,對你的TCO有好處(“買得越多,省得越多”)。不要購買5000臺服務器,而是購買50臺DGX。儘管DGX消耗的功率增加了5倍,而且耗資12萬美元而不是9,000美元,但你的狀況會好得多。當然,這是最好的營銷方式,也可能是最差的營銷方式,這取決於你如何看待它。但即使這些數字略有誇大,這也是一個強有力的信息:“從我們的深度學習的大本營到英特爾當前的增長市場(推論、高性能計算和機器學習),我們將以巨大優勢擊敗英特爾。”

不相信嗎?這就是英偉達和IDC對市場演變的看法。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

目前,在總計1000億美元的市場中,計算密集型或高性能子市場約為370億美元。英偉達認為,這個子市場將在2023年翻一番,他們將能夠解決500億美元的問題。換句話說,從廣義上講,數據分析市場將幾乎佔整個服務器市場的一半。

即使這是一種高估,但很明顯,時代在變,而且風險非常高。神經網絡更適合GPU,但如果英特爾可以確保大多數數據管道在CPU上運行得更好,並且您只需要GPU用於最密集和可擴展的神經網絡,那麼它將使英偉達重新回到更適合的角色。另一方面,另一方面,如果英偉達能夠加速更大一部分數據傳輸,它將征服大部分屬於英特爾並迅速擴展的市場。在這場激烈的戰鬥中,IBM和AMD必須確保他們獲得市場份額。IBM將提供更好的基於英偉達 GPU的服務器,AMD將嘗試構建合適的軟件生態系統。

測試筆記

隨著市場的發展,很明顯,除了AMD和ARM之外,英偉達的專業產品對英特爾在數據中心及其他領域的主導地位構成了真正的威脅。因此,對於我們今天的測試,我們將專注於機器學習,並瞭解英特爾新推出的DL Boosted產品如何應對ML領域的競爭。

當然,在英特爾方面,我們正在關注該公司新的Cascade Lake Xeon可擴展CPU。該公司提供了28個核心型號中的兩個,其中包括165瓦Xeon Platinum8176,以及更快的205瓦Xeon Platinum8280。

用於與Cascade Lake的比較評測,我們使用了英偉達最新的“圖靈(Turing)”泰坦(Titan)RTX卡。雖然這些並不是真正的數據中心卡,但它們是基於Turing的,這意味著它們提供了英偉達最新的功能。在我工作的大學裡,我們的深度學習研究人員使用這些GPU來訓練人工智能模型,因為泰坦卡價格低廉,而且有大量GPU內存可用。

另外,Titan RTX卡可以同時用於訓練(混合FP32/16)作為推理(FP16和INT8)。目前的特斯拉仍然基於英偉達的Volta架構,該架構沒有可供推斷的INT8。

最後,不排除,我們也包括AMD的第一代EPYC平臺在我們所有的測試。AMD沒有像英特爾那樣的硬件策略,也沒有像VNNI那樣的具體指令,但最近該公司提供了各種各樣的驚喜。

測試基準配置和方法

我們所有的測試都是在Ubuntu Server18.04 LTS上進行的。您會注意到DRAM容量因我們的服務器配置而異。這當然是因為Xeons可以訪問六個內存通道,而EPYC CPU有八個通道。據我們所知,我們所有的測試都適合128GB,因此DRAM容量對性能影響不大。但它會對總能耗產生影響,我們將對此進行討論。

最後但並非最不重要的是,我們要注意性能圖表是如何進行顏色編碼的。Orange是AMD的EPYC,深藍色是Intel最好的(Cascade Lake / Skylake-SP),淺藍色是上一代Xeon(Xeon E5-v4)。Gray已被用於即將被替換的Xeon v1。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

我們啟用了超線程和英特爾虛擬化加速。

Xeon - NVIDIA Titan RTX工作站

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

這是測試中唯一具有獨立GPU的服務器。

AMD EPYC 7601 - (2U機箱)

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

其他說明

兩臺服務器均由標準的歐洲230V(最大16安培)電源線供電。我們的Airwell CRAC監測室溫並保持在23°C。

CPU性能

在我們進入新的AI基準測試之前,讓我們快速瞭解一下英特爾提供的常用CPU基準測試和性能聲明。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

為了進行比較,我們將重點關注第二排 - 第一排是將價格極為驚人的400W雙芯片英特爾鉑金9282與更合理的產品進行比較,並向所有人提供英特爾鉑金8180.第二行說明了所有內容:幾MHz與第一代Xeon可擴展部件相比,RAM速度稍高,可使性能提高3%(整數)至5%(FP)。浮點性能的更高提升可能是因為英特爾的第二代部件可以使用更快的DDR4-2933 DIMM,從而為內核提供更多帶寬。

中端SKU得到更大的推動,因為一些x2xx Xeon 可擴展部件比以前的x1xx部件獲得更多內核和更多L3緩存。例如,6252具有24個核心和35.75 MB L3,而6152具有22個核心和30.25 MB L3。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

然而,與AMD的EPYC 7601的比較值得我們關注,因為這裡有一些有趣的數據。再次,400W,$50k小芯片CPU與180W $4k芯片CPU的比較沒有任何意義,所以我們忽略了第一行。

Linpack數據並不令人驚訝:更昂貴的Skylake SKU為現有的雙256位FMAC增加了512位FMAC,提供的AVX吞吐量比AMD的EPYC高出4倍。由於每個FP單元現在能夠執行256位AVX而不是128位,因此AMD的下一代將在這一領域更具競爭力。

圖像分類結果清楚地表明,英特爾試圖讓人們相信某些AI應用程序應該只在CPU上運行,而不需要GPU。

英特爾聲稱數據庫性能比EPYC好得多,這一事實非常有趣,正如我們之前指出的,AMD的4個NUMA芯片確實有缺陷。引用我們的Xeon Skylake vs . EPYC的評論:

開箱即用,EPYC CPU是一個相當普通的事務數據庫CPU…事務數據庫目前仍將是Intel的領域。

在數據庫中,緩存(一致性)延遲起著重要作用。看看AMD在第二代EPYC服務器芯片上是如何解決這一弱點的,將是一件很有趣的事情。

SAP S&D

在我們開始使用數據分析ML基準之前的最後一站:SAP。企業資源規劃軟件是“傳統”企業軟件的完美典範。

SAP S&D 2-Tier基準測試可能是供應商完成的所有服務器基準測試中最真實的基準測試。它是一個完整的應用程序,生活在一個繁重的關係數據庫之上。

我們在之前的一篇文章中深入分析了SAP Benchmark :

  • 非常並行,具有良好的伸縮性

  • 低到中等IPC,主要是由於“分支”代碼

  • 受內存帶寬的限制

  • 喜歡大型緩存(內存延遲)

  • 同步(“緩存一致性”)延遲非常敏感

不同供應商提供了許多基準測試結果。為了獲得(或多或少)蘋果與蘋果的比較,我們僅限於在SQL Server 2012Enterprise上運行的“SAPS結果”。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

基於Xeon 8180和8280的服務器的富士通基準測試與我們可以獲得的一樣多:與測試和調優相同的人,相同的操作系統和數據庫。略高的時鐘(+ 200 Mhz,+ 8%)使性能提高3%。兩個CPU都有28個內核,但8280的時鐘速度提高了8%,從某種意義上說,這種時鐘速度的提升並沒有帶來更大的性能提升,這令人驚訝。我們得到的結論是,Cascade Lake的時鐘頻率可能比Skylake略慢,因為兩個SPEC CPU基準測試也只增加了3%到5%。

因此,在典型的企業堆棧中,您需要在相同的價格/能耗下獲得約3%的性能提升。然而,AMD便宜得多(編輯:很快就會更新)$ 4k EPYC 7601並沒有那麼落後。考慮到EPYC已經在昂貴的兩倍8176(2.1 GHz,28個核心)的誤差範圍內,8276具有稍高的時鐘速度(2.2 Ghz)並不會顯著改善問題。即使是Xeon 8164(26 GHz,2 GHz)也能提供與EPYC 7601 大致相同的性能,但仍然要高出 50%。

考慮到AMD在Zen 2架構方面取得了多大進展,以及頂級SKU將內核數量增加一倍(64比32),看起來AMD羅馬將對Xeon銷售施加更大壓力。

Apache Spark 2.1基準測試

Apache Spark是大數據處理的典範。加速大數據應用程序是我工作的大學實驗室(西佛蘭德大學學院的Sizing Servers Lab)的首要項目,因此我們製作了一個基準,它使用了許多Spark功能並基於實際使用情況。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

該測試在上圖中描述。我們首先從從CommonCrawl收集的300 GB壓縮數據開始。這些壓縮文件是大量的Web存檔。我們在運行中解壓縮數據以避免長時間的等待,這主要與存儲相關。然後,我們使用Java庫“BoilerPipe”從存檔中提取有意義的文本數據。使用Stanford CoreNLP自然語言處理工具包,我們從文本中提取實體(“含義詞”),然後計算這些實體中出現次數最多的URL。然後使用交替最小二乘算法來推薦哪些URL對於某個主題最有趣。

我們將最新的服務器轉換為虛擬集群,以更好地利用所有這些核心。我們運行8個執行器。研究員Esli Heyvaert也升級了我們的Spark基準測試,因此它可以在Apache Spark 2.1.1上運行。

"

很多內行會覺得將英特爾(Intel) Cascade Lake與英偉達(Nvidia) 的圖靈(Turing)放在一起比較不太合適,乍一看,硬件選擇看起來很簡單:Intel Xeon CPU為通用處理器,用於存儲和預處理數據,英偉達 GPU更多用於AI。事實上,這在過去幾年中已成為現實。然而,英偉達的競爭對手一直沒有袖手旁觀 - 尤其是英特爾。從專用的低功耗推理處理器到專用優化的Xeon,英特爾正在瞄準AI市場的各個層面。最終的結果是,在所有這些競爭對手之間,我們看到人工智能從許多不同的方向解決,人工智能時代的硬件爭奪是非常有趣的。

今天我們來看看英特爾的第二代Xeon可擴展處理器,即“Cascade Lake”,它可能是英特爾在AI領域硬件的核心。今年早些時候推出的這些新處理器仍然基於與第一代產品相同的核心Skylake架構,但採用了許多新指令來加速AI性能。

就新技術而言,這肯定是Cascade Lake最有趣的方面。雖然我們可以談論一般CPU性能提升3%到6%,英特爾最昂貴處理器的56核,以及“世界紀錄基準”, 但這些小的改進對於IT世界近期和中期的未來幾乎是無關緊要的。看看英特爾新聞與分析師簡報的第一張PPT就知道了。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

物聯網、數據工程和人工智能。這將是增長、創新和未來的主要領域。這就是英特爾的目標。目前,英偉達在這個市場上領域——深度學習和“大規模並行高性能計算”軟件——幾乎處於壟斷地位。由於硬件和軟件方面的一系列因素,大多數軟件都運行在英偉達GPU和集群上。因此,對於普通大眾來說,英偉達似乎擁有“人工智能市場”,這一圖景並不準確,但也不完整。人工智能市場不僅僅是神經網絡推理,特別是,所有為人工智能模型提供數據的事情都很少受到關注。因此,神經網絡和他的終結者機器人佔據了所有的頭條,儘管它們只是圖片的一部分。實際上,AI應用程序的處理網絡更類似於下圖。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

簡而言之,實際的機器學習代碼執行只是構建和AI應用程序所需的軟件工具的一小部分。為什麼?讓我們深入研究一下。

人工智能不僅僅是深度學習

在高層次上,雖然深度學習是人工智能的一種形式,但反過來並不總是正確的,實現AI的應用程序不一定要使用深度學習。許多人工智能應用程序使用“傳統統計”或“傳統”機器學習。畢竟,支持向量機、邏輯迴歸、K-nearest、Naive Bayes和決策樹在自動進行信息分類時仍然非常有用,尤其是在沒有大量數據的情況下。

例如,在自然語言處理中使用條件隨機域(CRF),許多推薦引擎都是基於玻爾茲曼機、交替最小二乘(ALS)等。舉個例子:我們的“大數據”基準測試是最苛刻、最獨特的基準測試之一,它使用ALS算法作為推薦引擎(“協同過濾”)。

當然,神經網絡的應用——它本身就是一個完整的研究領域——正在蓬勃發展,它們的應用往往主導著最新的人工智能應用。神經網絡也是要求最高的工作負載之一,需要大量的處理能力。所有這些都與邏輯迴歸(logistic regression)形成了鮮明對比,後者仍然是最常用的機器學習方法,而且恰好需要更少的處理。

儘管如此,儘管神經網絡是人工智能技術中處理最密集的技術(尤其是具有大量層的技術),但有幾種傳統的機器學習技術也需要大量的處理能力。例如,支持向量機及其複雜的轉換也往往需要大量的計算時間。在我們的Spark測試中,斯坦福大學的NER系統是基於一個有監督的CRF模型,使用標記的英語數據集合。在測試中,它必須處理大量的高達幾百GB的非結構化文本數據。

反過來,處理能力要求的這些差異的原因實際上非常簡單。引用AI專家Wouter Gevaert的表述:

"神經網絡中的每個神經元都可以被視為邏輯迴歸單元。因此,神經網絡就像大量的邏輯迴歸" (當你使用sigmoid作為激活函數時)

然而,儘管神經網絡是人工智能技術中最需要處理的技術(尤其是具有大量層次的人工智能技術),有幾種傳統的機器學習技術也需要大量的處理能力。例如,支持向量機及其複雜的轉換也往往需要大量的計算時間。在我們的Spark測試中,斯坦福大學的NER系統是基於一個有監督的CRF模型,使用標記的英語數據集合。在測試中,它必須處理幾百GB的大量的非結構化文本。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

當然,大多數分析查詢仍然使用舊的SQL編寫。對於結構化和半結構化數據,對於OLAP多維數據集等,SQL代碼仍然很普遍。由於單個SQL查詢遠不及神經網絡那麼平行 - 在許多情況下它們是100%順序的 - CPU是這項工作的最佳工具。

因此,在實踐中,大多數數據(預處理)和許多人工智能軟件仍然運行在CPU上。GPU主要運行大規模並行的HPC應用程序和神經網絡,這無疑是一個重要的市場,但仍然只是更大的人工智能市場的一部分。這也是為什麼英偉達去年的數據中心收入為30億美元,而英特爾的數據中心收入為200億美元。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

然而,使整個情況更加複雜的不僅僅是隻看收入,還要看增長。在數據中心市場,英偉達一直在大幅增長,而英特爾只實現了個位數的增長。隨著新技術的出現,客戶的需求也在不斷變化;對數據分析市場的爭奪已經開始,而且正在加劇。

卷積,循環和可擴展性:尋求平衡

儘管英特爾Xeon Phi協處理器(Xeon Phi協處理器)作為加速器在市場上失敗了,而且已經停產,但英特爾並沒有放棄這個概念。該公司仍希望在人工智能市場佔據更大的份額,包括原本可能進入英偉達的份額。

Naveen提出了一個重點。因為雖然英偉達從未聲稱他們為所有類型的AI提供最好的硬件,但從表面上看整個行業新聞稿中引用最多的基準(ResNet,Inception等),你幾乎可以相信只有一種類型的AI事項。卷積神經網絡(CNN或ConvNets)在基準測試和產品演示中佔據主導地位,因為它們是分析圖像和視頻的最流行的技術。任何可以表示為“2D輸入”的東西都是這些流行神經網絡的輸入層的潛在候選者。

近年來,CNN取得了一些最引人注目的突破。例如,ResNet性能如此受歡迎並不是錯誤的。相關的ImageNet數據庫是斯坦福大學和普林斯頓大學之間的合作,包含了1400萬張圖像。直到最近十年,AI在識別這些圖像方面的表現非常差。美國有線電視新聞網(CNN)以快速的順序改變了這一點,從那以後它一直是最受歡迎的人工智能挑戰之一,因為公司希望能夠比以往更快,更準確地對這個數據庫進行分類。

早在2012年,AlexNet,一個相對簡單的神經網絡,在ImageNet分類競賽中取得了比傳統機器學習技術更好的準確率。在那次測試中,它達到了85%的準確率,幾乎是傳統方法73%準確率的一半。

在2015年,著名的Inception V3在對圖片進行分類時達到了3.58%的錯誤率,這與人類相似(甚至略好於人類)。ImageNet的挑戰變得更加困難,但是由於剩餘的學習,即使不增加層數,CNN也變得更好。這導致了著名的“ResNet”CNN,現在最流行的人工智能基準之一。長話短說,CNNs是人工智能領域的明星。到目前為止,他們得到了最多的關注、測試和研究。

CNN也具有很高的可擴展性:在降低網絡培訓時間時,增加更多GPU(幾乎)線性擴展。

坦率地說,CNN是上天送給英偉達的禮物。這是人們購買昂貴的英偉達 DGX服務器(40萬美元)或購買多臺特斯拉GPU (7k+美元)最常見的原因。

儘管如此,人工智能還有比CNN更多的東西。例如,遞歸神經網絡在語音識別、語言翻譯和時間序列方面也很受歡迎。

這就是MLperf基準計劃如此重要的原因。這是我們第一次獲得CNN未完全統治的基準。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

快速瀏覽一下MLperf,圖像和對象分類基準當然是CNN,但也表示了RNN(通過神經機器翻譯)和協同過濾。同時,甚至推薦引擎測試也基於神經網絡; 從技術上講,不包括“傳統的”機器學習測試,這是不幸的。但由於這是0.5版本並且該組織正在邀請更多反饋,它肯定是有希望的,一旦它成熟,我們預計它將成為最好的基準。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

然而,通過戴爾的基準測試,我們可以清楚地看到,並非所有的神經網絡都具有CNN那樣的可擴展性。當您移動到GPU數量的四倍(並添加第二個CPU)時,ResNet CNN很容易翻兩番,而協作過濾方法只提供了50%的更高性能。

事實上,相當多的學術研究都圍繞著優化和適應CNNs展開,這樣它們就可以像處理RNNs一樣處理這些序列建模工作負載,從而可以替代伸縮性較差的RNNs。

英特爾對人工智能的看法

總的來說,英特爾有一個很好的觀點,即存在“廣泛的AI應用”,例如CNN之外的AI生活。在許多現實場景中,傳統的機器學習技術優於CNN,並非所有深度學習都是通過超可擴展的CNN完成的。在其他實際案例中,擁有大量RAM是另一個重要的性能優勢,無論是在訓練模型還是使用它來推斷新數據時。

因此,儘管英偉達在運行CNN方面具有巨大優勢,但高端Xeon 可以在數據分析市場中提供可靠的替代方案。可以肯定的是,沒有人希望新的Cascade Lake Xeon在CNN訓練中勝過英偉達 GPU,但在很多情況下,英特爾可能會說服客戶投資更強大的Xeon而不是昂貴的Tesla加速器:

  • 需要大量內存的人工智能模型的推理

  • 不需要長時間訓練的“輕型”人工智能模型批處理或流處理時間比模型培訓時間更重要的數據體系結構

  • 人工智能模型依賴於傳統的“非神經網絡”統計模型

因此,英特爾或許有機會將英偉達擋在門外,直到他們在CNN工作負載中為英偉達的GPU找到一個合理的替代方案。英特爾一直在為Xeons可伸縮系列產品瘋狂地添加功能,並優化其軟件堆棧,以對抗英偉達的人工智能霸主地位。優化的人工智能軟件,如英特爾自己的Python發行版,英特爾數學內核庫用於深度學習,甚至英特爾數據分析加速庫——主要用於傳統的機器學習……

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

總而言之,對於第二代英特爾至強可擴展處理器,該公司在深度學習(DL)Boost名稱下添加了新的AI硬件功能。這主要包括矢量神經網絡指令(VNNI)集,它可以在一個指令中執行之前需要三個指令。然而,即便更進一步,第三代Xeon可擴展處理器Cooper Lake將增加對bfloat16的支持,進一步提高培訓性能。

總之,英特爾試圖重新佔領“更輕的AI工作負載”市場,同時在數據分析市場的其他部分站穩腳跟,同時在其產品組合中添加非常專業的硬件(FPGA,ASIC)。這對英特爾在IT市場的競爭力至關重要。英特爾一再表示,數據中心集團(DCG)或“企業部分”預計將成為該公司未來幾年的主要增長引擎。

英偉達的答案

英偉達不止一次證明,它可以憑藉出色的願景和戰略戰勝競爭對手。英偉達明白將所有神經網絡擴展為CNN並不容易,並且有很多應用要麼運行在除神經網絡之外的其他方法上,要麼是內存密集型而不是計算密集型。

在GTC Europe,英偉達推出了一個新的數據科學平臺,供企業使用,該平臺建立在英偉達新的“RAPIDS”框架之上。基本思想是數據管道的GPU加速不應侷限於深度學習。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

例如,CuDF允許數據科學家將數據加載到GPU內存中並對其進行批處理,類似於Pandas(用於操作數據的python庫)。cuML是目前有限的GPU加速機器學習庫集合。最終,Scikit-Learn工具包中提供的大多數(全部?)機器學習算法應該是GPU加速的,並且可以在cuML中使用。

英偉達還添加了一個柱狀內存數據庫Apache Arrow。這是因為GPU在向量上運行,因此有利於內存中的柱狀佈局。

通過利用Apache arrow作為“中央數據庫”,英偉達避免了大量開銷。

確保存在典型Python庫(如Sci-Kit和Pandas)的GPU加速版本是朝著正確方向邁出的一步。但是Pandas僅適用於較輕的“數據科學探索”任務。通過與Databricks合作確保RAPIDS也用於重型,分佈式“數據處理”框架Spark,英偉達正在邁出下一步,突破“深度學習”角色,並向“NVIDIA”展開其餘部分數據管道。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

然而,細節決定成敗。將GPU添加到經過多年優化的框架中,以便最優地使用CPU內核和服務器中可用的大量RAM,這並不容易。Spark被構建為運行在幾十個強大的服務器內核上,而不是運行在數千個微不足道的GPU內核上。Spark已經過優化,可以在服務器節點集群上運行,使其看起來像是RAM內存和核心的一個大塊。混合兩種內存(RAM和GPU VRAM)並保持Spark的分佈式計算特性並不容易。

其次,挑選最適合GPU的機器學習算法是一回事,但確保它們在基於gpu的機器上運行良好是另一回事。最後,在可預見的將來,GPU的內存仍然少於CPU,即使是一致的平臺也不能解決系統RAM的速度只是局部VRAM速度的一小部分的問題。

誰將贏得下一個企業市場?

在最後一個投資者日,英偉達的一張PPT清楚地表明瞭企業領域的下一場戰鬥將是什麼:數據分析。請注意昂貴的雙Xeon“Skylake”Scalable如何被視為基線。這是一個相當的聲明; 將最新的英特爾動力系統之一降低到一個完全優秀的簡單基線。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

英偉達的整個商業模式圍繞著這樣一個理論:購買昂貴的硬件,如DGXs和特斯拉,對你的TCO有好處(“買得越多,省得越多”)。不要購買5000臺服務器,而是購買50臺DGX。儘管DGX消耗的功率增加了5倍,而且耗資12萬美元而不是9,000美元,但你的狀況會好得多。當然,這是最好的營銷方式,也可能是最差的營銷方式,這取決於你如何看待它。但即使這些數字略有誇大,這也是一個強有力的信息:“從我們的深度學習的大本營到英特爾當前的增長市場(推論、高性能計算和機器學習),我們將以巨大優勢擊敗英特爾。”

不相信嗎?這就是英偉達和IDC對市場演變的看法。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

目前,在總計1000億美元的市場中,計算密集型或高性能子市場約為370億美元。英偉達認為,這個子市場將在2023年翻一番,他們將能夠解決500億美元的問題。換句話說,從廣義上講,數據分析市場將幾乎佔整個服務器市場的一半。

即使這是一種高估,但很明顯,時代在變,而且風險非常高。神經網絡更適合GPU,但如果英特爾可以確保大多數數據管道在CPU上運行得更好,並且您只需要GPU用於最密集和可擴展的神經網絡,那麼它將使英偉達重新回到更適合的角色。另一方面,另一方面,如果英偉達能夠加速更大一部分數據傳輸,它將征服大部分屬於英特爾並迅速擴展的市場。在這場激烈的戰鬥中,IBM和AMD必須確保他們獲得市場份額。IBM將提供更好的基於英偉達 GPU的服務器,AMD將嘗試構建合適的軟件生態系統。

測試筆記

隨著市場的發展,很明顯,除了AMD和ARM之外,英偉達的專業產品對英特爾在數據中心及其他領域的主導地位構成了真正的威脅。因此,對於我們今天的測試,我們將專注於機器學習,並瞭解英特爾新推出的DL Boosted產品如何應對ML領域的競爭。

當然,在英特爾方面,我們正在關注該公司新的Cascade Lake Xeon可擴展CPU。該公司提供了28個核心型號中的兩個,其中包括165瓦Xeon Platinum8176,以及更快的205瓦Xeon Platinum8280。

用於與Cascade Lake的比較評測,我們使用了英偉達最新的“圖靈(Turing)”泰坦(Titan)RTX卡。雖然這些並不是真正的數據中心卡,但它們是基於Turing的,這意味著它們提供了英偉達最新的功能。在我工作的大學裡,我們的深度學習研究人員使用這些GPU來訓練人工智能模型,因為泰坦卡價格低廉,而且有大量GPU內存可用。

另外,Titan RTX卡可以同時用於訓練(混合FP32/16)作為推理(FP16和INT8)。目前的特斯拉仍然基於英偉達的Volta架構,該架構沒有可供推斷的INT8。

最後,不排除,我們也包括AMD的第一代EPYC平臺在我們所有的測試。AMD沒有像英特爾那樣的硬件策略,也沒有像VNNI那樣的具體指令,但最近該公司提供了各種各樣的驚喜。

測試基準配置和方法

我們所有的測試都是在Ubuntu Server18.04 LTS上進行的。您會注意到DRAM容量因我們的服務器配置而異。這當然是因為Xeons可以訪問六個內存通道,而EPYC CPU有八個通道。據我們所知,我們所有的測試都適合128GB,因此DRAM容量對性能影響不大。但它會對總能耗產生影響,我們將對此進行討論。

最後但並非最不重要的是,我們要注意性能圖表是如何進行顏色編碼的。Orange是AMD的EPYC,深藍色是Intel最好的(Cascade Lake / Skylake-SP),淺藍色是上一代Xeon(Xeon E5-v4)。Gray已被用於即將被替換的Xeon v1。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

我們啟用了超線程和英特爾虛擬化加速。

Xeon - NVIDIA Titan RTX工作站

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

這是測試中唯一具有獨立GPU的服務器。

AMD EPYC 7601 - (2U機箱)

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

其他說明

兩臺服務器均由標準的歐洲230V(最大16安培)電源線供電。我們的Airwell CRAC監測室溫並保持在23°C。

CPU性能

在我們進入新的AI基準測試之前,讓我們快速瞭解一下英特爾提供的常用CPU基準測試和性能聲明。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

為了進行比較,我們將重點關注第二排 - 第一排是將價格極為驚人的400W雙芯片英特爾鉑金9282與更合理的產品進行比較,並向所有人提供英特爾鉑金8180.第二行說明了所有內容:幾MHz與第一代Xeon可擴展部件相比,RAM速度稍高,可使性能提高3%(整數)至5%(FP)。浮點性能的更高提升可能是因為英特爾的第二代部件可以使用更快的DDR4-2933 DIMM,從而為內核提供更多帶寬。

中端SKU得到更大的推動,因為一些x2xx Xeon 可擴展部件比以前的x1xx部件獲得更多內核和更多L3緩存。例如,6252具有24個核心和35.75 MB L3,而6152具有22個核心和30.25 MB L3。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

然而,與AMD的EPYC 7601的比較值得我們關注,因為這裡有一些有趣的數據。再次,400W,$50k小芯片CPU與180W $4k芯片CPU的比較沒有任何意義,所以我們忽略了第一行。

Linpack數據並不令人驚訝:更昂貴的Skylake SKU為現有的雙256位FMAC增加了512位FMAC,提供的AVX吞吐量比AMD的EPYC高出4倍。由於每個FP單元現在能夠執行256位AVX而不是128位,因此AMD的下一代將在這一領域更具競爭力。

圖像分類結果清楚地表明,英特爾試圖讓人們相信某些AI應用程序應該只在CPU上運行,而不需要GPU。

英特爾聲稱數據庫性能比EPYC好得多,這一事實非常有趣,正如我們之前指出的,AMD的4個NUMA芯片確實有缺陷。引用我們的Xeon Skylake vs . EPYC的評論:

開箱即用,EPYC CPU是一個相當普通的事務數據庫CPU…事務數據庫目前仍將是Intel的領域。

在數據庫中,緩存(一致性)延遲起著重要作用。看看AMD在第二代EPYC服務器芯片上是如何解決這一弱點的,將是一件很有趣的事情。

SAP S&D

在我們開始使用數據分析ML基準之前的最後一站:SAP。企業資源規劃軟件是“傳統”企業軟件的完美典範。

SAP S&D 2-Tier基準測試可能是供應商完成的所有服務器基準測試中最真實的基準測試。它是一個完整的應用程序,生活在一個繁重的關係數據庫之上。

我們在之前的一篇文章中深入分析了SAP Benchmark :

  • 非常並行,具有良好的伸縮性

  • 低到中等IPC,主要是由於“分支”代碼

  • 受內存帶寬的限制

  • 喜歡大型緩存(內存延遲)

  • 同步(“緩存一致性”)延遲非常敏感

不同供應商提供了許多基準測試結果。為了獲得(或多或少)蘋果與蘋果的比較,我們僅限於在SQL Server 2012Enterprise上運行的“SAPS結果”。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

基於Xeon 8180和8280的服務器的富士通基準測試與我們可以獲得的一樣多:與測試和調優相同的人,相同的操作系統和數據庫。略高的時鐘(+ 200 Mhz,+ 8%)使性能提高3%。兩個CPU都有28個內核,但8280的時鐘速度提高了8%,從某種意義上說,這種時鐘速度的提升並沒有帶來更大的性能提升,這令人驚訝。我們得到的結論是,Cascade Lake的時鐘頻率可能比Skylake略慢,因為兩個SPEC CPU基準測試也只增加了3%到5%。

因此,在典型的企業堆棧中,您需要在相同的價格/能耗下獲得約3%的性能提升。然而,AMD便宜得多(編輯:很快就會更新)$ 4k EPYC 7601並沒有那麼落後。考慮到EPYC已經在昂貴的兩倍8176(2.1 GHz,28個核心)的誤差範圍內,8276具有稍高的時鐘速度(2.2 Ghz)並不會顯著改善問題。即使是Xeon 8164(26 GHz,2 GHz)也能提供與EPYC 7601 大致相同的性能,但仍然要高出 50%。

考慮到AMD在Zen 2架構方面取得了多大進展,以及頂級SKU將內核數量增加一倍(64比32),看起來AMD羅馬將對Xeon銷售施加更大壓力。

Apache Spark 2.1基準測試

Apache Spark是大數據處理的典範。加速大數據應用程序是我工作的大學實驗室(西佛蘭德大學學院的Sizing Servers Lab)的首要項目,因此我們製作了一個基準,它使用了許多Spark功能並基於實際使用情況。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

該測試在上圖中描述。我們首先從從CommonCrawl收集的300 GB壓縮數據開始。這些壓縮文件是大量的Web存檔。我們在運行中解壓縮數據以避免長時間的等待,這主要與存儲相關。然後,我們使用Java庫“BoilerPipe”從存檔中提取有意義的文本數據。使用Stanford CoreNLP自然語言處理工具包,我們從文本中提取實體(“含義詞”),然後計算這些實體中出現次數最多的URL。然後使用交替最小二乘算法來推薦哪些URL對於某個主題最有趣。

我們將最新的服務器轉換為虛擬集群,以更好地利用所有這些核心。我們運行8個執行器。研究員Esli Heyvaert也升級了我們的Spark基準測試,因此它可以在Apache Spark 2.1.1上運行。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

結果如下:

"

很多內行會覺得將英特爾(Intel) Cascade Lake與英偉達(Nvidia) 的圖靈(Turing)放在一起比較不太合適,乍一看,硬件選擇看起來很簡單:Intel Xeon CPU為通用處理器,用於存儲和預處理數據,英偉達 GPU更多用於AI。事實上,這在過去幾年中已成為現實。然而,英偉達的競爭對手一直沒有袖手旁觀 - 尤其是英特爾。從專用的低功耗推理處理器到專用優化的Xeon,英特爾正在瞄準AI市場的各個層面。最終的結果是,在所有這些競爭對手之間,我們看到人工智能從許多不同的方向解決,人工智能時代的硬件爭奪是非常有趣的。

今天我們來看看英特爾的第二代Xeon可擴展處理器,即“Cascade Lake”,它可能是英特爾在AI領域硬件的核心。今年早些時候推出的這些新處理器仍然基於與第一代產品相同的核心Skylake架構,但採用了許多新指令來加速AI性能。

就新技術而言,這肯定是Cascade Lake最有趣的方面。雖然我們可以談論一般CPU性能提升3%到6%,英特爾最昂貴處理器的56核,以及“世界紀錄基準”, 但這些小的改進對於IT世界近期和中期的未來幾乎是無關緊要的。看看英特爾新聞與分析師簡報的第一張PPT就知道了。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

物聯網、數據工程和人工智能。這將是增長、創新和未來的主要領域。這就是英特爾的目標。目前,英偉達在這個市場上領域——深度學習和“大規模並行高性能計算”軟件——幾乎處於壟斷地位。由於硬件和軟件方面的一系列因素,大多數軟件都運行在英偉達GPU和集群上。因此,對於普通大眾來說,英偉達似乎擁有“人工智能市場”,這一圖景並不準確,但也不完整。人工智能市場不僅僅是神經網絡推理,特別是,所有為人工智能模型提供數據的事情都很少受到關注。因此,神經網絡和他的終結者機器人佔據了所有的頭條,儘管它們只是圖片的一部分。實際上,AI應用程序的處理網絡更類似於下圖。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

簡而言之,實際的機器學習代碼執行只是構建和AI應用程序所需的軟件工具的一小部分。為什麼?讓我們深入研究一下。

人工智能不僅僅是深度學習

在高層次上,雖然深度學習是人工智能的一種形式,但反過來並不總是正確的,實現AI的應用程序不一定要使用深度學習。許多人工智能應用程序使用“傳統統計”或“傳統”機器學習。畢竟,支持向量機、邏輯迴歸、K-nearest、Naive Bayes和決策樹在自動進行信息分類時仍然非常有用,尤其是在沒有大量數據的情況下。

例如,在自然語言處理中使用條件隨機域(CRF),許多推薦引擎都是基於玻爾茲曼機、交替最小二乘(ALS)等。舉個例子:我們的“大數據”基準測試是最苛刻、最獨特的基準測試之一,它使用ALS算法作為推薦引擎(“協同過濾”)。

當然,神經網絡的應用——它本身就是一個完整的研究領域——正在蓬勃發展,它們的應用往往主導著最新的人工智能應用。神經網絡也是要求最高的工作負載之一,需要大量的處理能力。所有這些都與邏輯迴歸(logistic regression)形成了鮮明對比,後者仍然是最常用的機器學習方法,而且恰好需要更少的處理。

儘管如此,儘管神經網絡是人工智能技術中處理最密集的技術(尤其是具有大量層的技術),但有幾種傳統的機器學習技術也需要大量的處理能力。例如,支持向量機及其複雜的轉換也往往需要大量的計算時間。在我們的Spark測試中,斯坦福大學的NER系統是基於一個有監督的CRF模型,使用標記的英語數據集合。在測試中,它必須處理大量的高達幾百GB的非結構化文本數據。

反過來,處理能力要求的這些差異的原因實際上非常簡單。引用AI專家Wouter Gevaert的表述:

"神經網絡中的每個神經元都可以被視為邏輯迴歸單元。因此,神經網絡就像大量的邏輯迴歸" (當你使用sigmoid作為激活函數時)

然而,儘管神經網絡是人工智能技術中最需要處理的技術(尤其是具有大量層次的人工智能技術),有幾種傳統的機器學習技術也需要大量的處理能力。例如,支持向量機及其複雜的轉換也往往需要大量的計算時間。在我們的Spark測試中,斯坦福大學的NER系統是基於一個有監督的CRF模型,使用標記的英語數據集合。在測試中,它必須處理幾百GB的大量的非結構化文本。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

當然,大多數分析查詢仍然使用舊的SQL編寫。對於結構化和半結構化數據,對於OLAP多維數據集等,SQL代碼仍然很普遍。由於單個SQL查詢遠不及神經網絡那麼平行 - 在許多情況下它們是100%順序的 - CPU是這項工作的最佳工具。

因此,在實踐中,大多數數據(預處理)和許多人工智能軟件仍然運行在CPU上。GPU主要運行大規模並行的HPC應用程序和神經網絡,這無疑是一個重要的市場,但仍然只是更大的人工智能市場的一部分。這也是為什麼英偉達去年的數據中心收入為30億美元,而英特爾的數據中心收入為200億美元。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

然而,使整個情況更加複雜的不僅僅是隻看收入,還要看增長。在數據中心市場,英偉達一直在大幅增長,而英特爾只實現了個位數的增長。隨著新技術的出現,客戶的需求也在不斷變化;對數據分析市場的爭奪已經開始,而且正在加劇。

卷積,循環和可擴展性:尋求平衡

儘管英特爾Xeon Phi協處理器(Xeon Phi協處理器)作為加速器在市場上失敗了,而且已經停產,但英特爾並沒有放棄這個概念。該公司仍希望在人工智能市場佔據更大的份額,包括原本可能進入英偉達的份額。

Naveen提出了一個重點。因為雖然英偉達從未聲稱他們為所有類型的AI提供最好的硬件,但從表面上看整個行業新聞稿中引用最多的基準(ResNet,Inception等),你幾乎可以相信只有一種類型的AI事項。卷積神經網絡(CNN或ConvNets)在基準測試和產品演示中佔據主導地位,因為它們是分析圖像和視頻的最流行的技術。任何可以表示為“2D輸入”的東西都是這些流行神經網絡的輸入層的潛在候選者。

近年來,CNN取得了一些最引人注目的突破。例如,ResNet性能如此受歡迎並不是錯誤的。相關的ImageNet數據庫是斯坦福大學和普林斯頓大學之間的合作,包含了1400萬張圖像。直到最近十年,AI在識別這些圖像方面的表現非常差。美國有線電視新聞網(CNN)以快速的順序改變了這一點,從那以後它一直是最受歡迎的人工智能挑戰之一,因為公司希望能夠比以往更快,更準確地對這個數據庫進行分類。

早在2012年,AlexNet,一個相對簡單的神經網絡,在ImageNet分類競賽中取得了比傳統機器學習技術更好的準確率。在那次測試中,它達到了85%的準確率,幾乎是傳統方法73%準確率的一半。

在2015年,著名的Inception V3在對圖片進行分類時達到了3.58%的錯誤率,這與人類相似(甚至略好於人類)。ImageNet的挑戰變得更加困難,但是由於剩餘的學習,即使不增加層數,CNN也變得更好。這導致了著名的“ResNet”CNN,現在最流行的人工智能基準之一。長話短說,CNNs是人工智能領域的明星。到目前為止,他們得到了最多的關注、測試和研究。

CNN也具有很高的可擴展性:在降低網絡培訓時間時,增加更多GPU(幾乎)線性擴展。

坦率地說,CNN是上天送給英偉達的禮物。這是人們購買昂貴的英偉達 DGX服務器(40萬美元)或購買多臺特斯拉GPU (7k+美元)最常見的原因。

儘管如此,人工智能還有比CNN更多的東西。例如,遞歸神經網絡在語音識別、語言翻譯和時間序列方面也很受歡迎。

這就是MLperf基準計劃如此重要的原因。這是我們第一次獲得CNN未完全統治的基準。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

快速瀏覽一下MLperf,圖像和對象分類基準當然是CNN,但也表示了RNN(通過神經機器翻譯)和協同過濾。同時,甚至推薦引擎測試也基於神經網絡; 從技術上講,不包括“傳統的”機器學習測試,這是不幸的。但由於這是0.5版本並且該組織正在邀請更多反饋,它肯定是有希望的,一旦它成熟,我們預計它將成為最好的基準。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

然而,通過戴爾的基準測試,我們可以清楚地看到,並非所有的神經網絡都具有CNN那樣的可擴展性。當您移動到GPU數量的四倍(並添加第二個CPU)時,ResNet CNN很容易翻兩番,而協作過濾方法只提供了50%的更高性能。

事實上,相當多的學術研究都圍繞著優化和適應CNNs展開,這樣它們就可以像處理RNNs一樣處理這些序列建模工作負載,從而可以替代伸縮性較差的RNNs。

英特爾對人工智能的看法

總的來說,英特爾有一個很好的觀點,即存在“廣泛的AI應用”,例如CNN之外的AI生活。在許多現實場景中,傳統的機器學習技術優於CNN,並非所有深度學習都是通過超可擴展的CNN完成的。在其他實際案例中,擁有大量RAM是另一個重要的性能優勢,無論是在訓練模型還是使用它來推斷新數據時。

因此,儘管英偉達在運行CNN方面具有巨大優勢,但高端Xeon 可以在數據分析市場中提供可靠的替代方案。可以肯定的是,沒有人希望新的Cascade Lake Xeon在CNN訓練中勝過英偉達 GPU,但在很多情況下,英特爾可能會說服客戶投資更強大的Xeon而不是昂貴的Tesla加速器:

  • 需要大量內存的人工智能模型的推理

  • 不需要長時間訓練的“輕型”人工智能模型批處理或流處理時間比模型培訓時間更重要的數據體系結構

  • 人工智能模型依賴於傳統的“非神經網絡”統計模型

因此,英特爾或許有機會將英偉達擋在門外,直到他們在CNN工作負載中為英偉達的GPU找到一個合理的替代方案。英特爾一直在為Xeons可伸縮系列產品瘋狂地添加功能,並優化其軟件堆棧,以對抗英偉達的人工智能霸主地位。優化的人工智能軟件,如英特爾自己的Python發行版,英特爾數學內核庫用於深度學習,甚至英特爾數據分析加速庫——主要用於傳統的機器學習……

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

總而言之,對於第二代英特爾至強可擴展處理器,該公司在深度學習(DL)Boost名稱下添加了新的AI硬件功能。這主要包括矢量神經網絡指令(VNNI)集,它可以在一個指令中執行之前需要三個指令。然而,即便更進一步,第三代Xeon可擴展處理器Cooper Lake將增加對bfloat16的支持,進一步提高培訓性能。

總之,英特爾試圖重新佔領“更輕的AI工作負載”市場,同時在數據分析市場的其他部分站穩腳跟,同時在其產品組合中添加非常專業的硬件(FPGA,ASIC)。這對英特爾在IT市場的競爭力至關重要。英特爾一再表示,數據中心集團(DCG)或“企業部分”預計將成為該公司未來幾年的主要增長引擎。

英偉達的答案

英偉達不止一次證明,它可以憑藉出色的願景和戰略戰勝競爭對手。英偉達明白將所有神經網絡擴展為CNN並不容易,並且有很多應用要麼運行在除神經網絡之外的其他方法上,要麼是內存密集型而不是計算密集型。

在GTC Europe,英偉達推出了一個新的數據科學平臺,供企業使用,該平臺建立在英偉達新的“RAPIDS”框架之上。基本思想是數據管道的GPU加速不應侷限於深度學習。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

例如,CuDF允許數據科學家將數據加載到GPU內存中並對其進行批處理,類似於Pandas(用於操作數據的python庫)。cuML是目前有限的GPU加速機器學習庫集合。最終,Scikit-Learn工具包中提供的大多數(全部?)機器學習算法應該是GPU加速的,並且可以在cuML中使用。

英偉達還添加了一個柱狀內存數據庫Apache Arrow。這是因為GPU在向量上運行,因此有利於內存中的柱狀佈局。

通過利用Apache arrow作為“中央數據庫”,英偉達避免了大量開銷。

確保存在典型Python庫(如Sci-Kit和Pandas)的GPU加速版本是朝著正確方向邁出的一步。但是Pandas僅適用於較輕的“數據科學探索”任務。通過與Databricks合作確保RAPIDS也用於重型,分佈式“數據處理”框架Spark,英偉達正在邁出下一步,突破“深度學習”角色,並向“NVIDIA”展開其餘部分數據管道。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

然而,細節決定成敗。將GPU添加到經過多年優化的框架中,以便最優地使用CPU內核和服務器中可用的大量RAM,這並不容易。Spark被構建為運行在幾十個強大的服務器內核上,而不是運行在數千個微不足道的GPU內核上。Spark已經過優化,可以在服務器節點集群上運行,使其看起來像是RAM內存和核心的一個大塊。混合兩種內存(RAM和GPU VRAM)並保持Spark的分佈式計算特性並不容易。

其次,挑選最適合GPU的機器學習算法是一回事,但確保它們在基於gpu的機器上運行良好是另一回事。最後,在可預見的將來,GPU的內存仍然少於CPU,即使是一致的平臺也不能解決系統RAM的速度只是局部VRAM速度的一小部分的問題。

誰將贏得下一個企業市場?

在最後一個投資者日,英偉達的一張PPT清楚地表明瞭企業領域的下一場戰鬥將是什麼:數據分析。請注意昂貴的雙Xeon“Skylake”Scalable如何被視為基線。這是一個相當的聲明; 將最新的英特爾動力系統之一降低到一個完全優秀的簡單基線。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

英偉達的整個商業模式圍繞著這樣一個理論:購買昂貴的硬件,如DGXs和特斯拉,對你的TCO有好處(“買得越多,省得越多”)。不要購買5000臺服務器,而是購買50臺DGX。儘管DGX消耗的功率增加了5倍,而且耗資12萬美元而不是9,000美元,但你的狀況會好得多。當然,這是最好的營銷方式,也可能是最差的營銷方式,這取決於你如何看待它。但即使這些數字略有誇大,這也是一個強有力的信息:“從我們的深度學習的大本營到英特爾當前的增長市場(推論、高性能計算和機器學習),我們將以巨大優勢擊敗英特爾。”

不相信嗎?這就是英偉達和IDC對市場演變的看法。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

目前,在總計1000億美元的市場中,計算密集型或高性能子市場約為370億美元。英偉達認為,這個子市場將在2023年翻一番,他們將能夠解決500億美元的問題。換句話說,從廣義上講,數據分析市場將幾乎佔整個服務器市場的一半。

即使這是一種高估,但很明顯,時代在變,而且風險非常高。神經網絡更適合GPU,但如果英特爾可以確保大多數數據管道在CPU上運行得更好,並且您只需要GPU用於最密集和可擴展的神經網絡,那麼它將使英偉達重新回到更適合的角色。另一方面,另一方面,如果英偉達能夠加速更大一部分數據傳輸,它將征服大部分屬於英特爾並迅速擴展的市場。在這場激烈的戰鬥中,IBM和AMD必須確保他們獲得市場份額。IBM將提供更好的基於英偉達 GPU的服務器,AMD將嘗試構建合適的軟件生態系統。

測試筆記

隨著市場的發展,很明顯,除了AMD和ARM之外,英偉達的專業產品對英特爾在數據中心及其他領域的主導地位構成了真正的威脅。因此,對於我們今天的測試,我們將專注於機器學習,並瞭解英特爾新推出的DL Boosted產品如何應對ML領域的競爭。

當然,在英特爾方面,我們正在關注該公司新的Cascade Lake Xeon可擴展CPU。該公司提供了28個核心型號中的兩個,其中包括165瓦Xeon Platinum8176,以及更快的205瓦Xeon Platinum8280。

用於與Cascade Lake的比較評測,我們使用了英偉達最新的“圖靈(Turing)”泰坦(Titan)RTX卡。雖然這些並不是真正的數據中心卡,但它們是基於Turing的,這意味著它們提供了英偉達最新的功能。在我工作的大學裡,我們的深度學習研究人員使用這些GPU來訓練人工智能模型,因為泰坦卡價格低廉,而且有大量GPU內存可用。

另外,Titan RTX卡可以同時用於訓練(混合FP32/16)作為推理(FP16和INT8)。目前的特斯拉仍然基於英偉達的Volta架構,該架構沒有可供推斷的INT8。

最後,不排除,我們也包括AMD的第一代EPYC平臺在我們所有的測試。AMD沒有像英特爾那樣的硬件策略,也沒有像VNNI那樣的具體指令,但最近該公司提供了各種各樣的驚喜。

測試基準配置和方法

我們所有的測試都是在Ubuntu Server18.04 LTS上進行的。您會注意到DRAM容量因我們的服務器配置而異。這當然是因為Xeons可以訪問六個內存通道,而EPYC CPU有八個通道。據我們所知,我們所有的測試都適合128GB,因此DRAM容量對性能影響不大。但它會對總能耗產生影響,我們將對此進行討論。

最後但並非最不重要的是,我們要注意性能圖表是如何進行顏色編碼的。Orange是AMD的EPYC,深藍色是Intel最好的(Cascade Lake / Skylake-SP),淺藍色是上一代Xeon(Xeon E5-v4)。Gray已被用於即將被替換的Xeon v1。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

我們啟用了超線程和英特爾虛擬化加速。

Xeon - NVIDIA Titan RTX工作站

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

這是測試中唯一具有獨立GPU的服務器。

AMD EPYC 7601 - (2U機箱)

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

其他說明

兩臺服務器均由標準的歐洲230V(最大16安培)電源線供電。我們的Airwell CRAC監測室溫並保持在23°C。

CPU性能

在我們進入新的AI基準測試之前,讓我們快速瞭解一下英特爾提供的常用CPU基準測試和性能聲明。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

為了進行比較,我們將重點關注第二排 - 第一排是將價格極為驚人的400W雙芯片英特爾鉑金9282與更合理的產品進行比較,並向所有人提供英特爾鉑金8180.第二行說明了所有內容:幾MHz與第一代Xeon可擴展部件相比,RAM速度稍高,可使性能提高3%(整數)至5%(FP)。浮點性能的更高提升可能是因為英特爾的第二代部件可以使用更快的DDR4-2933 DIMM,從而為內核提供更多帶寬。

中端SKU得到更大的推動,因為一些x2xx Xeon 可擴展部件比以前的x1xx部件獲得更多內核和更多L3緩存。例如,6252具有24個核心和35.75 MB L3,而6152具有22個核心和30.25 MB L3。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

然而,與AMD的EPYC 7601的比較值得我們關注,因為這裡有一些有趣的數據。再次,400W,$50k小芯片CPU與180W $4k芯片CPU的比較沒有任何意義,所以我們忽略了第一行。

Linpack數據並不令人驚訝:更昂貴的Skylake SKU為現有的雙256位FMAC增加了512位FMAC,提供的AVX吞吐量比AMD的EPYC高出4倍。由於每個FP單元現在能夠執行256位AVX而不是128位,因此AMD的下一代將在這一領域更具競爭力。

圖像分類結果清楚地表明,英特爾試圖讓人們相信某些AI應用程序應該只在CPU上運行,而不需要GPU。

英特爾聲稱數據庫性能比EPYC好得多,這一事實非常有趣,正如我們之前指出的,AMD的4個NUMA芯片確實有缺陷。引用我們的Xeon Skylake vs . EPYC的評論:

開箱即用,EPYC CPU是一個相當普通的事務數據庫CPU…事務數據庫目前仍將是Intel的領域。

在數據庫中,緩存(一致性)延遲起著重要作用。看看AMD在第二代EPYC服務器芯片上是如何解決這一弱點的,將是一件很有趣的事情。

SAP S&D

在我們開始使用數據分析ML基準之前的最後一站:SAP。企業資源規劃軟件是“傳統”企業軟件的完美典範。

SAP S&D 2-Tier基準測試可能是供應商完成的所有服務器基準測試中最真實的基準測試。它是一個完整的應用程序,生活在一個繁重的關係數據庫之上。

我們在之前的一篇文章中深入分析了SAP Benchmark :

  • 非常並行,具有良好的伸縮性

  • 低到中等IPC,主要是由於“分支”代碼

  • 受內存帶寬的限制

  • 喜歡大型緩存(內存延遲)

  • 同步(“緩存一致性”)延遲非常敏感

不同供應商提供了許多基準測試結果。為了獲得(或多或少)蘋果與蘋果的比較,我們僅限於在SQL Server 2012Enterprise上運行的“SAPS結果”。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

基於Xeon 8180和8280的服務器的富士通基準測試與我們可以獲得的一樣多:與測試和調優相同的人,相同的操作系統和數據庫。略高的時鐘(+ 200 Mhz,+ 8%)使性能提高3%。兩個CPU都有28個內核,但8280的時鐘速度提高了8%,從某種意義上說,這種時鐘速度的提升並沒有帶來更大的性能提升,這令人驚訝。我們得到的結論是,Cascade Lake的時鐘頻率可能比Skylake略慢,因為兩個SPEC CPU基準測試也只增加了3%到5%。

因此,在典型的企業堆棧中,您需要在相同的價格/能耗下獲得約3%的性能提升。然而,AMD便宜得多(編輯:很快就會更新)$ 4k EPYC 7601並沒有那麼落後。考慮到EPYC已經在昂貴的兩倍8176(2.1 GHz,28個核心)的誤差範圍內,8276具有稍高的時鐘速度(2.2 Ghz)並不會顯著改善問題。即使是Xeon 8164(26 GHz,2 GHz)也能提供與EPYC 7601 大致相同的性能,但仍然要高出 50%。

考慮到AMD在Zen 2架構方面取得了多大進展,以及頂級SKU將內核數量增加一倍(64比32),看起來AMD羅馬將對Xeon銷售施加更大壓力。

Apache Spark 2.1基準測試

Apache Spark是大數據處理的典範。加速大數據應用程序是我工作的大學實驗室(西佛蘭德大學學院的Sizing Servers Lab)的首要項目,因此我們製作了一個基準,它使用了許多Spark功能並基於實際使用情況。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

該測試在上圖中描述。我們首先從從CommonCrawl收集的300 GB壓縮數據開始。這些壓縮文件是大量的Web存檔。我們在運行中解壓縮數據以避免長時間的等待,這主要與存儲相關。然後,我們使用Java庫“BoilerPipe”從存檔中提取有意義的文本數據。使用Stanford CoreNLP自然語言處理工具包,我們從文本中提取實體(“含義詞”),然後計算這些實體中出現次數最多的URL。然後使用交替最小二乘算法來推薦哪些URL對於某個主題最有趣。

我們將最新的服務器轉換為虛擬集群,以更好地利用所有這些核心。我們運行8個執行器。研究員Esli Heyvaert也升級了我們的Spark基準測試,因此它可以在Apache Spark 2.1.1上運行。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

結果如下:

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

我們的Spark基準測試需要大約120 GB的RAM才能運行。在存儲I / O上花費的時間可以忽略不計。數據處理非常平行,但是混洗階段需要大量的內存交互。ALS階段在許多線程上的擴展性不佳,但不到總測試時間的4%。

由於我們不知道的原因,我們可以讓我們的2.7 GHz 8280比2.1 GHz Xeon 8176 表現更好。我們懷疑我們使用新的Xeon芯片與舊的(Skylake-SP)服務器的事實可能是原因,嘗試不同的Spark配置(執行程序,JVM設置)沒有幫助。BIOS更新對我們也沒有幫助。

好吧,這是大數據處理與大多數“傳統”機器學習相結合:NER和ALS。一些“深度學習”怎麼樣?

卷積神經網絡訓練

很長一段時間,CNN的前進方向是增加層數 - 增加“更深入學習”的網絡深度。正如你可能猜到的那樣,這導致收益遞減,並使已經很複雜的神經網絡更難調整,導致更多的訓練錯誤。

所述RESNET-50基準是基於剩餘網絡(因此RESNET),其具有更少的訓練誤差的優點作為網絡變得更深。

同時,作為一些內部管家,對於普通讀者,我會注意到下面的基準與Nate為我們的Titan V評論所進行的測試不能直接比較。它是相同的基準,但Nate運行了英偉達的Caffe2 Docker映像中包含的標準ResNet-50培訓實現。但是,由於我的團隊主要使用TensorFlow作為深度學習框架,我們傾向於堅持使用它。所有基準測試

tf_cnn_benchmarks.py --num_gpus = 1 --model =resnet50 --variable_update = parameter_server

該模型在ImageNet上訓練併為我們提供吞吐量數據。

"

很多內行會覺得將英特爾(Intel) Cascade Lake與英偉達(Nvidia) 的圖靈(Turing)放在一起比較不太合適,乍一看,硬件選擇看起來很簡單:Intel Xeon CPU為通用處理器,用於存儲和預處理數據,英偉達 GPU更多用於AI。事實上,這在過去幾年中已成為現實。然而,英偉達的競爭對手一直沒有袖手旁觀 - 尤其是英特爾。從專用的低功耗推理處理器到專用優化的Xeon,英特爾正在瞄準AI市場的各個層面。最終的結果是,在所有這些競爭對手之間,我們看到人工智能從許多不同的方向解決,人工智能時代的硬件爭奪是非常有趣的。

今天我們來看看英特爾的第二代Xeon可擴展處理器,即“Cascade Lake”,它可能是英特爾在AI領域硬件的核心。今年早些時候推出的這些新處理器仍然基於與第一代產品相同的核心Skylake架構,但採用了許多新指令來加速AI性能。

就新技術而言,這肯定是Cascade Lake最有趣的方面。雖然我們可以談論一般CPU性能提升3%到6%,英特爾最昂貴處理器的56核,以及“世界紀錄基準”, 但這些小的改進對於IT世界近期和中期的未來幾乎是無關緊要的。看看英特爾新聞與分析師簡報的第一張PPT就知道了。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

物聯網、數據工程和人工智能。這將是增長、創新和未來的主要領域。這就是英特爾的目標。目前,英偉達在這個市場上領域——深度學習和“大規模並行高性能計算”軟件——幾乎處於壟斷地位。由於硬件和軟件方面的一系列因素,大多數軟件都運行在英偉達GPU和集群上。因此,對於普通大眾來說,英偉達似乎擁有“人工智能市場”,這一圖景並不準確,但也不完整。人工智能市場不僅僅是神經網絡推理,特別是,所有為人工智能模型提供數據的事情都很少受到關注。因此,神經網絡和他的終結者機器人佔據了所有的頭條,儘管它們只是圖片的一部分。實際上,AI應用程序的處理網絡更類似於下圖。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

簡而言之,實際的機器學習代碼執行只是構建和AI應用程序所需的軟件工具的一小部分。為什麼?讓我們深入研究一下。

人工智能不僅僅是深度學習

在高層次上,雖然深度學習是人工智能的一種形式,但反過來並不總是正確的,實現AI的應用程序不一定要使用深度學習。許多人工智能應用程序使用“傳統統計”或“傳統”機器學習。畢竟,支持向量機、邏輯迴歸、K-nearest、Naive Bayes和決策樹在自動進行信息分類時仍然非常有用,尤其是在沒有大量數據的情況下。

例如,在自然語言處理中使用條件隨機域(CRF),許多推薦引擎都是基於玻爾茲曼機、交替最小二乘(ALS)等。舉個例子:我們的“大數據”基準測試是最苛刻、最獨特的基準測試之一,它使用ALS算法作為推薦引擎(“協同過濾”)。

當然,神經網絡的應用——它本身就是一個完整的研究領域——正在蓬勃發展,它們的應用往往主導著最新的人工智能應用。神經網絡也是要求最高的工作負載之一,需要大量的處理能力。所有這些都與邏輯迴歸(logistic regression)形成了鮮明對比,後者仍然是最常用的機器學習方法,而且恰好需要更少的處理。

儘管如此,儘管神經網絡是人工智能技術中處理最密集的技術(尤其是具有大量層的技術),但有幾種傳統的機器學習技術也需要大量的處理能力。例如,支持向量機及其複雜的轉換也往往需要大量的計算時間。在我們的Spark測試中,斯坦福大學的NER系統是基於一個有監督的CRF模型,使用標記的英語數據集合。在測試中,它必須處理大量的高達幾百GB的非結構化文本數據。

反過來,處理能力要求的這些差異的原因實際上非常簡單。引用AI專家Wouter Gevaert的表述:

"神經網絡中的每個神經元都可以被視為邏輯迴歸單元。因此,神經網絡就像大量的邏輯迴歸" (當你使用sigmoid作為激活函數時)

然而,儘管神經網絡是人工智能技術中最需要處理的技術(尤其是具有大量層次的人工智能技術),有幾種傳統的機器學習技術也需要大量的處理能力。例如,支持向量機及其複雜的轉換也往往需要大量的計算時間。在我們的Spark測試中,斯坦福大學的NER系統是基於一個有監督的CRF模型,使用標記的英語數據集合。在測試中,它必須處理幾百GB的大量的非結構化文本。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

當然,大多數分析查詢仍然使用舊的SQL編寫。對於結構化和半結構化數據,對於OLAP多維數據集等,SQL代碼仍然很普遍。由於單個SQL查詢遠不及神經網絡那麼平行 - 在許多情況下它們是100%順序的 - CPU是這項工作的最佳工具。

因此,在實踐中,大多數數據(預處理)和許多人工智能軟件仍然運行在CPU上。GPU主要運行大規模並行的HPC應用程序和神經網絡,這無疑是一個重要的市場,但仍然只是更大的人工智能市場的一部分。這也是為什麼英偉達去年的數據中心收入為30億美元,而英特爾的數據中心收入為200億美元。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

然而,使整個情況更加複雜的不僅僅是隻看收入,還要看增長。在數據中心市場,英偉達一直在大幅增長,而英特爾只實現了個位數的增長。隨著新技術的出現,客戶的需求也在不斷變化;對數據分析市場的爭奪已經開始,而且正在加劇。

卷積,循環和可擴展性:尋求平衡

儘管英特爾Xeon Phi協處理器(Xeon Phi協處理器)作為加速器在市場上失敗了,而且已經停產,但英特爾並沒有放棄這個概念。該公司仍希望在人工智能市場佔據更大的份額,包括原本可能進入英偉達的份額。

Naveen提出了一個重點。因為雖然英偉達從未聲稱他們為所有類型的AI提供最好的硬件,但從表面上看整個行業新聞稿中引用最多的基準(ResNet,Inception等),你幾乎可以相信只有一種類型的AI事項。卷積神經網絡(CNN或ConvNets)在基準測試和產品演示中佔據主導地位,因為它們是分析圖像和視頻的最流行的技術。任何可以表示為“2D輸入”的東西都是這些流行神經網絡的輸入層的潛在候選者。

近年來,CNN取得了一些最引人注目的突破。例如,ResNet性能如此受歡迎並不是錯誤的。相關的ImageNet數據庫是斯坦福大學和普林斯頓大學之間的合作,包含了1400萬張圖像。直到最近十年,AI在識別這些圖像方面的表現非常差。美國有線電視新聞網(CNN)以快速的順序改變了這一點,從那以後它一直是最受歡迎的人工智能挑戰之一,因為公司希望能夠比以往更快,更準確地對這個數據庫進行分類。

早在2012年,AlexNet,一個相對簡單的神經網絡,在ImageNet分類競賽中取得了比傳統機器學習技術更好的準確率。在那次測試中,它達到了85%的準確率,幾乎是傳統方法73%準確率的一半。

在2015年,著名的Inception V3在對圖片進行分類時達到了3.58%的錯誤率,這與人類相似(甚至略好於人類)。ImageNet的挑戰變得更加困難,但是由於剩餘的學習,即使不增加層數,CNN也變得更好。這導致了著名的“ResNet”CNN,現在最流行的人工智能基準之一。長話短說,CNNs是人工智能領域的明星。到目前為止,他們得到了最多的關注、測試和研究。

CNN也具有很高的可擴展性:在降低網絡培訓時間時,增加更多GPU(幾乎)線性擴展。

坦率地說,CNN是上天送給英偉達的禮物。這是人們購買昂貴的英偉達 DGX服務器(40萬美元)或購買多臺特斯拉GPU (7k+美元)最常見的原因。

儘管如此,人工智能還有比CNN更多的東西。例如,遞歸神經網絡在語音識別、語言翻譯和時間序列方面也很受歡迎。

這就是MLperf基準計劃如此重要的原因。這是我們第一次獲得CNN未完全統治的基準。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

快速瀏覽一下MLperf,圖像和對象分類基準當然是CNN,但也表示了RNN(通過神經機器翻譯)和協同過濾。同時,甚至推薦引擎測試也基於神經網絡; 從技術上講,不包括“傳統的”機器學習測試,這是不幸的。但由於這是0.5版本並且該組織正在邀請更多反饋,它肯定是有希望的,一旦它成熟,我們預計它將成為最好的基準。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

然而,通過戴爾的基準測試,我們可以清楚地看到,並非所有的神經網絡都具有CNN那樣的可擴展性。當您移動到GPU數量的四倍(並添加第二個CPU)時,ResNet CNN很容易翻兩番,而協作過濾方法只提供了50%的更高性能。

事實上,相當多的學術研究都圍繞著優化和適應CNNs展開,這樣它們就可以像處理RNNs一樣處理這些序列建模工作負載,從而可以替代伸縮性較差的RNNs。

英特爾對人工智能的看法

總的來說,英特爾有一個很好的觀點,即存在“廣泛的AI應用”,例如CNN之外的AI生活。在許多現實場景中,傳統的機器學習技術優於CNN,並非所有深度學習都是通過超可擴展的CNN完成的。在其他實際案例中,擁有大量RAM是另一個重要的性能優勢,無論是在訓練模型還是使用它來推斷新數據時。

因此,儘管英偉達在運行CNN方面具有巨大優勢,但高端Xeon 可以在數據分析市場中提供可靠的替代方案。可以肯定的是,沒有人希望新的Cascade Lake Xeon在CNN訓練中勝過英偉達 GPU,但在很多情況下,英特爾可能會說服客戶投資更強大的Xeon而不是昂貴的Tesla加速器:

  • 需要大量內存的人工智能模型的推理

  • 不需要長時間訓練的“輕型”人工智能模型批處理或流處理時間比模型培訓時間更重要的數據體系結構

  • 人工智能模型依賴於傳統的“非神經網絡”統計模型

因此,英特爾或許有機會將英偉達擋在門外,直到他們在CNN工作負載中為英偉達的GPU找到一個合理的替代方案。英特爾一直在為Xeons可伸縮系列產品瘋狂地添加功能,並優化其軟件堆棧,以對抗英偉達的人工智能霸主地位。優化的人工智能軟件,如英特爾自己的Python發行版,英特爾數學內核庫用於深度學習,甚至英特爾數據分析加速庫——主要用於傳統的機器學習……

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

總而言之,對於第二代英特爾至強可擴展處理器,該公司在深度學習(DL)Boost名稱下添加了新的AI硬件功能。這主要包括矢量神經網絡指令(VNNI)集,它可以在一個指令中執行之前需要三個指令。然而,即便更進一步,第三代Xeon可擴展處理器Cooper Lake將增加對bfloat16的支持,進一步提高培訓性能。

總之,英特爾試圖重新佔領“更輕的AI工作負載”市場,同時在數據分析市場的其他部分站穩腳跟,同時在其產品組合中添加非常專業的硬件(FPGA,ASIC)。這對英特爾在IT市場的競爭力至關重要。英特爾一再表示,數據中心集團(DCG)或“企業部分”預計將成為該公司未來幾年的主要增長引擎。

英偉達的答案

英偉達不止一次證明,它可以憑藉出色的願景和戰略戰勝競爭對手。英偉達明白將所有神經網絡擴展為CNN並不容易,並且有很多應用要麼運行在除神經網絡之外的其他方法上,要麼是內存密集型而不是計算密集型。

在GTC Europe,英偉達推出了一個新的數據科學平臺,供企業使用,該平臺建立在英偉達新的“RAPIDS”框架之上。基本思想是數據管道的GPU加速不應侷限於深度學習。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

例如,CuDF允許數據科學家將數據加載到GPU內存中並對其進行批處理,類似於Pandas(用於操作數據的python庫)。cuML是目前有限的GPU加速機器學習庫集合。最終,Scikit-Learn工具包中提供的大多數(全部?)機器學習算法應該是GPU加速的,並且可以在cuML中使用。

英偉達還添加了一個柱狀內存數據庫Apache Arrow。這是因為GPU在向量上運行,因此有利於內存中的柱狀佈局。

通過利用Apache arrow作為“中央數據庫”,英偉達避免了大量開銷。

確保存在典型Python庫(如Sci-Kit和Pandas)的GPU加速版本是朝著正確方向邁出的一步。但是Pandas僅適用於較輕的“數據科學探索”任務。通過與Databricks合作確保RAPIDS也用於重型,分佈式“數據處理”框架Spark,英偉達正在邁出下一步,突破“深度學習”角色,並向“NVIDIA”展開其餘部分數據管道。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

然而,細節決定成敗。將GPU添加到經過多年優化的框架中,以便最優地使用CPU內核和服務器中可用的大量RAM,這並不容易。Spark被構建為運行在幾十個強大的服務器內核上,而不是運行在數千個微不足道的GPU內核上。Spark已經過優化,可以在服務器節點集群上運行,使其看起來像是RAM內存和核心的一個大塊。混合兩種內存(RAM和GPU VRAM)並保持Spark的分佈式計算特性並不容易。

其次,挑選最適合GPU的機器學習算法是一回事,但確保它們在基於gpu的機器上運行良好是另一回事。最後,在可預見的將來,GPU的內存仍然少於CPU,即使是一致的平臺也不能解決系統RAM的速度只是局部VRAM速度的一小部分的問題。

誰將贏得下一個企業市場?

在最後一個投資者日,英偉達的一張PPT清楚地表明瞭企業領域的下一場戰鬥將是什麼:數據分析。請注意昂貴的雙Xeon“Skylake”Scalable如何被視為基線。這是一個相當的聲明; 將最新的英特爾動力系統之一降低到一個完全優秀的簡單基線。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

英偉達的整個商業模式圍繞著這樣一個理論:購買昂貴的硬件,如DGXs和特斯拉,對你的TCO有好處(“買得越多,省得越多”)。不要購買5000臺服務器,而是購買50臺DGX。儘管DGX消耗的功率增加了5倍,而且耗資12萬美元而不是9,000美元,但你的狀況會好得多。當然,這是最好的營銷方式,也可能是最差的營銷方式,這取決於你如何看待它。但即使這些數字略有誇大,這也是一個強有力的信息:“從我們的深度學習的大本營到英特爾當前的增長市場(推論、高性能計算和機器學習),我們將以巨大優勢擊敗英特爾。”

不相信嗎?這就是英偉達和IDC對市場演變的看法。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

目前,在總計1000億美元的市場中,計算密集型或高性能子市場約為370億美元。英偉達認為,這個子市場將在2023年翻一番,他們將能夠解決500億美元的問題。換句話說,從廣義上講,數據分析市場將幾乎佔整個服務器市場的一半。

即使這是一種高估,但很明顯,時代在變,而且風險非常高。神經網絡更適合GPU,但如果英特爾可以確保大多數數據管道在CPU上運行得更好,並且您只需要GPU用於最密集和可擴展的神經網絡,那麼它將使英偉達重新回到更適合的角色。另一方面,另一方面,如果英偉達能夠加速更大一部分數據傳輸,它將征服大部分屬於英特爾並迅速擴展的市場。在這場激烈的戰鬥中,IBM和AMD必須確保他們獲得市場份額。IBM將提供更好的基於英偉達 GPU的服務器,AMD將嘗試構建合適的軟件生態系統。

測試筆記

隨著市場的發展,很明顯,除了AMD和ARM之外,英偉達的專業產品對英特爾在數據中心及其他領域的主導地位構成了真正的威脅。因此,對於我們今天的測試,我們將專注於機器學習,並瞭解英特爾新推出的DL Boosted產品如何應對ML領域的競爭。

當然,在英特爾方面,我們正在關注該公司新的Cascade Lake Xeon可擴展CPU。該公司提供了28個核心型號中的兩個,其中包括165瓦Xeon Platinum8176,以及更快的205瓦Xeon Platinum8280。

用於與Cascade Lake的比較評測,我們使用了英偉達最新的“圖靈(Turing)”泰坦(Titan)RTX卡。雖然這些並不是真正的數據中心卡,但它們是基於Turing的,這意味著它們提供了英偉達最新的功能。在我工作的大學裡,我們的深度學習研究人員使用這些GPU來訓練人工智能模型,因為泰坦卡價格低廉,而且有大量GPU內存可用。

另外,Titan RTX卡可以同時用於訓練(混合FP32/16)作為推理(FP16和INT8)。目前的特斯拉仍然基於英偉達的Volta架構,該架構沒有可供推斷的INT8。

最後,不排除,我們也包括AMD的第一代EPYC平臺在我們所有的測試。AMD沒有像英特爾那樣的硬件策略,也沒有像VNNI那樣的具體指令,但最近該公司提供了各種各樣的驚喜。

測試基準配置和方法

我們所有的測試都是在Ubuntu Server18.04 LTS上進行的。您會注意到DRAM容量因我們的服務器配置而異。這當然是因為Xeons可以訪問六個內存通道,而EPYC CPU有八個通道。據我們所知,我們所有的測試都適合128GB,因此DRAM容量對性能影響不大。但它會對總能耗產生影響,我們將對此進行討論。

最後但並非最不重要的是,我們要注意性能圖表是如何進行顏色編碼的。Orange是AMD的EPYC,深藍色是Intel最好的(Cascade Lake / Skylake-SP),淺藍色是上一代Xeon(Xeon E5-v4)。Gray已被用於即將被替換的Xeon v1。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

我們啟用了超線程和英特爾虛擬化加速。

Xeon - NVIDIA Titan RTX工作站

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

這是測試中唯一具有獨立GPU的服務器。

AMD EPYC 7601 - (2U機箱)

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

其他說明

兩臺服務器均由標準的歐洲230V(最大16安培)電源線供電。我們的Airwell CRAC監測室溫並保持在23°C。

CPU性能

在我們進入新的AI基準測試之前,讓我們快速瞭解一下英特爾提供的常用CPU基準測試和性能聲明。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

為了進行比較,我們將重點關注第二排 - 第一排是將價格極為驚人的400W雙芯片英特爾鉑金9282與更合理的產品進行比較,並向所有人提供英特爾鉑金8180.第二行說明了所有內容:幾MHz與第一代Xeon可擴展部件相比,RAM速度稍高,可使性能提高3%(整數)至5%(FP)。浮點性能的更高提升可能是因為英特爾的第二代部件可以使用更快的DDR4-2933 DIMM,從而為內核提供更多帶寬。

中端SKU得到更大的推動,因為一些x2xx Xeon 可擴展部件比以前的x1xx部件獲得更多內核和更多L3緩存。例如,6252具有24個核心和35.75 MB L3,而6152具有22個核心和30.25 MB L3。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

然而,與AMD的EPYC 7601的比較值得我們關注,因為這裡有一些有趣的數據。再次,400W,$50k小芯片CPU與180W $4k芯片CPU的比較沒有任何意義,所以我們忽略了第一行。

Linpack數據並不令人驚訝:更昂貴的Skylake SKU為現有的雙256位FMAC增加了512位FMAC,提供的AVX吞吐量比AMD的EPYC高出4倍。由於每個FP單元現在能夠執行256位AVX而不是128位,因此AMD的下一代將在這一領域更具競爭力。

圖像分類結果清楚地表明,英特爾試圖讓人們相信某些AI應用程序應該只在CPU上運行,而不需要GPU。

英特爾聲稱數據庫性能比EPYC好得多,這一事實非常有趣,正如我們之前指出的,AMD的4個NUMA芯片確實有缺陷。引用我們的Xeon Skylake vs . EPYC的評論:

開箱即用,EPYC CPU是一個相當普通的事務數據庫CPU…事務數據庫目前仍將是Intel的領域。

在數據庫中,緩存(一致性)延遲起著重要作用。看看AMD在第二代EPYC服務器芯片上是如何解決這一弱點的,將是一件很有趣的事情。

SAP S&D

在我們開始使用數據分析ML基準之前的最後一站:SAP。企業資源規劃軟件是“傳統”企業軟件的完美典範。

SAP S&D 2-Tier基準測試可能是供應商完成的所有服務器基準測試中最真實的基準測試。它是一個完整的應用程序,生活在一個繁重的關係數據庫之上。

我們在之前的一篇文章中深入分析了SAP Benchmark :

  • 非常並行,具有良好的伸縮性

  • 低到中等IPC,主要是由於“分支”代碼

  • 受內存帶寬的限制

  • 喜歡大型緩存(內存延遲)

  • 同步(“緩存一致性”)延遲非常敏感

不同供應商提供了許多基準測試結果。為了獲得(或多或少)蘋果與蘋果的比較,我們僅限於在SQL Server 2012Enterprise上運行的“SAPS結果”。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

基於Xeon 8180和8280的服務器的富士通基準測試與我們可以獲得的一樣多:與測試和調優相同的人,相同的操作系統和數據庫。略高的時鐘(+ 200 Mhz,+ 8%)使性能提高3%。兩個CPU都有28個內核,但8280的時鐘速度提高了8%,從某種意義上說,這種時鐘速度的提升並沒有帶來更大的性能提升,這令人驚訝。我們得到的結論是,Cascade Lake的時鐘頻率可能比Skylake略慢,因為兩個SPEC CPU基準測試也只增加了3%到5%。

因此,在典型的企業堆棧中,您需要在相同的價格/能耗下獲得約3%的性能提升。然而,AMD便宜得多(編輯:很快就會更新)$ 4k EPYC 7601並沒有那麼落後。考慮到EPYC已經在昂貴的兩倍8176(2.1 GHz,28個核心)的誤差範圍內,8276具有稍高的時鐘速度(2.2 Ghz)並不會顯著改善問題。即使是Xeon 8164(26 GHz,2 GHz)也能提供與EPYC 7601 大致相同的性能,但仍然要高出 50%。

考慮到AMD在Zen 2架構方面取得了多大進展,以及頂級SKU將內核數量增加一倍(64比32),看起來AMD羅馬將對Xeon銷售施加更大壓力。

Apache Spark 2.1基準測試

Apache Spark是大數據處理的典範。加速大數據應用程序是我工作的大學實驗室(西佛蘭德大學學院的Sizing Servers Lab)的首要項目,因此我們製作了一個基準,它使用了許多Spark功能並基於實際使用情況。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

該測試在上圖中描述。我們首先從從CommonCrawl收集的300 GB壓縮數據開始。這些壓縮文件是大量的Web存檔。我們在運行中解壓縮數據以避免長時間的等待,這主要與存儲相關。然後,我們使用Java庫“BoilerPipe”從存檔中提取有意義的文本數據。使用Stanford CoreNLP自然語言處理工具包,我們從文本中提取實體(“含義詞”),然後計算這些實體中出現次數最多的URL。然後使用交替最小二乘算法來推薦哪些URL對於某個主題最有趣。

我們將最新的服務器轉換為虛擬集群,以更好地利用所有這些核心。我們運行8個執行器。研究員Esli Heyvaert也升級了我們的Spark基準測試,因此它可以在Apache Spark 2.1.1上運行。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

結果如下:

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

我們的Spark基準測試需要大約120 GB的RAM才能運行。在存儲I / O上花費的時間可以忽略不計。數據處理非常平行,但是混洗階段需要大量的內存交互。ALS階段在許多線程上的擴展性不佳,但不到總測試時間的4%。

由於我們不知道的原因,我們可以讓我們的2.7 GHz 8280比2.1 GHz Xeon 8176 表現更好。我們懷疑我們使用新的Xeon芯片與舊的(Skylake-SP)服務器的事實可能是原因,嘗試不同的Spark配置(執行程序,JVM設置)沒有幫助。BIOS更新對我們也沒有幫助。

好吧,這是大數據處理與大多數“傳統”機器學習相結合:NER和ALS。一些“深度學習”怎麼樣?

卷積神經網絡訓練

很長一段時間,CNN的前進方向是增加層數 - 增加“更深入學習”的網絡深度。正如你可能猜到的那樣,這導致收益遞減,並使已經很複雜的神經網絡更難調整,導致更多的訓練錯誤。

所述RESNET-50基準是基於剩餘網絡(因此RESNET),其具有更少的訓練誤差的優點作為網絡變得更深。

同時,作為一些內部管家,對於普通讀者,我會注意到下面的基準與Nate為我們的Titan V評論所進行的測試不能直接比較。它是相同的基準,但Nate運行了英偉達的Caffe2 Docker映像中包含的標準ResNet-50培訓實現。但是,由於我的團隊主要使用TensorFlow作為深度學習框架,我們傾向於堅持使用它。所有基準測試

tf_cnn_benchmarks.py --num_gpus = 1 --model =resnet50 --variable_update = parameter_server

該模型在ImageNet上訓練併為我們提供吞吐量數據。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

缺少幾個基準,這是有充分理由的。在Titan RTX上以FP32精度運行批量大小為512個訓練樣本會導致“內存不足”錯誤,因為該卡“僅”具有24 GB可用空間。

同時在Intel CPU上,半精度(FP16)尚不可用。AVX512 _ BF16(bfloat16)將在Cascade Lake的繼任者Cooper Lake中推出。

已經觀察到,使用較大批次可以導致模型質量的顯著降低,如通過其概括的能力所測量的。因此,雖然較大的批量大小(512)可以更好地利用GPU內部的大規模並行性,但批量較小(128)的結果也很有用。該模型的準確性僅損失了幾個百分點,但在許多應用中,甚至幾個百分點的損失都很重要。

因此,儘管您可以很快得出結論,Titan RTX的速度比最佳CPU快7倍,但根據您想要的精度,它可以更準確地說它的速度提高了4.5到7倍。

循環神經網絡:LSTM

我們的忠實讀者知道我們喜歡現實世界的企業基準。因此,在我們尋求更好的基準和更好的數據的過程中,MCT IT學士 (荷蘭語)的研究負責人Pieter Bovijn 將現實世界的AI模型轉變為基準。

模型的輸入是時間序列數據,用於預測時間序列在未來的行為方式。由於這是典型的序列預測問題,我們使用長短期記憶(LSTM)網絡作為神經網絡。作為一種RNN,LSTM在一定的持續時間內選擇性地“記住”模式。

然而,LSTM的缺點是它們的帶寬密集程度更高。我們引用最近一篇關於該主題的論文:

由於冗餘數據移動和有限的片外帶寬,LSTM在移動GPU上執行時表現出非常低效的存儲器訪問模式。

所以我們對LSTM網絡的表現非常好奇。畢竟,我們的服務器Xeons擁有足夠的帶寬,擁有38.5 MB的L3和6個DDR4-2666 / 2933通道(每個插槽128-141 GB / s)。我們使用50 GB的數據運行此測試,並將模型訓練5個時期。

當然,您可以充分利用可用的AVX / AVX2 /AVX512 SIMD電源。這就是我們使用3種不同設置進行測試的原因

1. 我們開箱即用TensorFlow與conda

2. 我們使用PyPi repo的Intel優化TensorFlow進行了測試

3. 我們使用Bazel 從源代碼優化 。這使我們可以使用最新版本的TensorFlow。

結果非常有趣。

"

很多內行會覺得將英特爾(Intel) Cascade Lake與英偉達(Nvidia) 的圖靈(Turing)放在一起比較不太合適,乍一看,硬件選擇看起來很簡單:Intel Xeon CPU為通用處理器,用於存儲和預處理數據,英偉達 GPU更多用於AI。事實上,這在過去幾年中已成為現實。然而,英偉達的競爭對手一直沒有袖手旁觀 - 尤其是英特爾。從專用的低功耗推理處理器到專用優化的Xeon,英特爾正在瞄準AI市場的各個層面。最終的結果是,在所有這些競爭對手之間,我們看到人工智能從許多不同的方向解決,人工智能時代的硬件爭奪是非常有趣的。

今天我們來看看英特爾的第二代Xeon可擴展處理器,即“Cascade Lake”,它可能是英特爾在AI領域硬件的核心。今年早些時候推出的這些新處理器仍然基於與第一代產品相同的核心Skylake架構,但採用了許多新指令來加速AI性能。

就新技術而言,這肯定是Cascade Lake最有趣的方面。雖然我們可以談論一般CPU性能提升3%到6%,英特爾最昂貴處理器的56核,以及“世界紀錄基準”, 但這些小的改進對於IT世界近期和中期的未來幾乎是無關緊要的。看看英特爾新聞與分析師簡報的第一張PPT就知道了。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

物聯網、數據工程和人工智能。這將是增長、創新和未來的主要領域。這就是英特爾的目標。目前,英偉達在這個市場上領域——深度學習和“大規模並行高性能計算”軟件——幾乎處於壟斷地位。由於硬件和軟件方面的一系列因素,大多數軟件都運行在英偉達GPU和集群上。因此,對於普通大眾來說,英偉達似乎擁有“人工智能市場”,這一圖景並不準確,但也不完整。人工智能市場不僅僅是神經網絡推理,特別是,所有為人工智能模型提供數據的事情都很少受到關注。因此,神經網絡和他的終結者機器人佔據了所有的頭條,儘管它們只是圖片的一部分。實際上,AI應用程序的處理網絡更類似於下圖。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

簡而言之,實際的機器學習代碼執行只是構建和AI應用程序所需的軟件工具的一小部分。為什麼?讓我們深入研究一下。

人工智能不僅僅是深度學習

在高層次上,雖然深度學習是人工智能的一種形式,但反過來並不總是正確的,實現AI的應用程序不一定要使用深度學習。許多人工智能應用程序使用“傳統統計”或“傳統”機器學習。畢竟,支持向量機、邏輯迴歸、K-nearest、Naive Bayes和決策樹在自動進行信息分類時仍然非常有用,尤其是在沒有大量數據的情況下。

例如,在自然語言處理中使用條件隨機域(CRF),許多推薦引擎都是基於玻爾茲曼機、交替最小二乘(ALS)等。舉個例子:我們的“大數據”基準測試是最苛刻、最獨特的基準測試之一,它使用ALS算法作為推薦引擎(“協同過濾”)。

當然,神經網絡的應用——它本身就是一個完整的研究領域——正在蓬勃發展,它們的應用往往主導著最新的人工智能應用。神經網絡也是要求最高的工作負載之一,需要大量的處理能力。所有這些都與邏輯迴歸(logistic regression)形成了鮮明對比,後者仍然是最常用的機器學習方法,而且恰好需要更少的處理。

儘管如此,儘管神經網絡是人工智能技術中處理最密集的技術(尤其是具有大量層的技術),但有幾種傳統的機器學習技術也需要大量的處理能力。例如,支持向量機及其複雜的轉換也往往需要大量的計算時間。在我們的Spark測試中,斯坦福大學的NER系統是基於一個有監督的CRF模型,使用標記的英語數據集合。在測試中,它必須處理大量的高達幾百GB的非結構化文本數據。

反過來,處理能力要求的這些差異的原因實際上非常簡單。引用AI專家Wouter Gevaert的表述:

"神經網絡中的每個神經元都可以被視為邏輯迴歸單元。因此,神經網絡就像大量的邏輯迴歸" (當你使用sigmoid作為激活函數時)

然而,儘管神經網絡是人工智能技術中最需要處理的技術(尤其是具有大量層次的人工智能技術),有幾種傳統的機器學習技術也需要大量的處理能力。例如,支持向量機及其複雜的轉換也往往需要大量的計算時間。在我們的Spark測試中,斯坦福大學的NER系統是基於一個有監督的CRF模型,使用標記的英語數據集合。在測試中,它必須處理幾百GB的大量的非結構化文本。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

當然,大多數分析查詢仍然使用舊的SQL編寫。對於結構化和半結構化數據,對於OLAP多維數據集等,SQL代碼仍然很普遍。由於單個SQL查詢遠不及神經網絡那麼平行 - 在許多情況下它們是100%順序的 - CPU是這項工作的最佳工具。

因此,在實踐中,大多數數據(預處理)和許多人工智能軟件仍然運行在CPU上。GPU主要運行大規模並行的HPC應用程序和神經網絡,這無疑是一個重要的市場,但仍然只是更大的人工智能市場的一部分。這也是為什麼英偉達去年的數據中心收入為30億美元,而英特爾的數據中心收入為200億美元。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

然而,使整個情況更加複雜的不僅僅是隻看收入,還要看增長。在數據中心市場,英偉達一直在大幅增長,而英特爾只實現了個位數的增長。隨著新技術的出現,客戶的需求也在不斷變化;對數據分析市場的爭奪已經開始,而且正在加劇。

卷積,循環和可擴展性:尋求平衡

儘管英特爾Xeon Phi協處理器(Xeon Phi協處理器)作為加速器在市場上失敗了,而且已經停產,但英特爾並沒有放棄這個概念。該公司仍希望在人工智能市場佔據更大的份額,包括原本可能進入英偉達的份額。

Naveen提出了一個重點。因為雖然英偉達從未聲稱他們為所有類型的AI提供最好的硬件,但從表面上看整個行業新聞稿中引用最多的基準(ResNet,Inception等),你幾乎可以相信只有一種類型的AI事項。卷積神經網絡(CNN或ConvNets)在基準測試和產品演示中佔據主導地位,因為它們是分析圖像和視頻的最流行的技術。任何可以表示為“2D輸入”的東西都是這些流行神經網絡的輸入層的潛在候選者。

近年來,CNN取得了一些最引人注目的突破。例如,ResNet性能如此受歡迎並不是錯誤的。相關的ImageNet數據庫是斯坦福大學和普林斯頓大學之間的合作,包含了1400萬張圖像。直到最近十年,AI在識別這些圖像方面的表現非常差。美國有線電視新聞網(CNN)以快速的順序改變了這一點,從那以後它一直是最受歡迎的人工智能挑戰之一,因為公司希望能夠比以往更快,更準確地對這個數據庫進行分類。

早在2012年,AlexNet,一個相對簡單的神經網絡,在ImageNet分類競賽中取得了比傳統機器學習技術更好的準確率。在那次測試中,它達到了85%的準確率,幾乎是傳統方法73%準確率的一半。

在2015年,著名的Inception V3在對圖片進行分類時達到了3.58%的錯誤率,這與人類相似(甚至略好於人類)。ImageNet的挑戰變得更加困難,但是由於剩餘的學習,即使不增加層數,CNN也變得更好。這導致了著名的“ResNet”CNN,現在最流行的人工智能基準之一。長話短說,CNNs是人工智能領域的明星。到目前為止,他們得到了最多的關注、測試和研究。

CNN也具有很高的可擴展性:在降低網絡培訓時間時,增加更多GPU(幾乎)線性擴展。

坦率地說,CNN是上天送給英偉達的禮物。這是人們購買昂貴的英偉達 DGX服務器(40萬美元)或購買多臺特斯拉GPU (7k+美元)最常見的原因。

儘管如此,人工智能還有比CNN更多的東西。例如,遞歸神經網絡在語音識別、語言翻譯和時間序列方面也很受歡迎。

這就是MLperf基準計劃如此重要的原因。這是我們第一次獲得CNN未完全統治的基準。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

快速瀏覽一下MLperf,圖像和對象分類基準當然是CNN,但也表示了RNN(通過神經機器翻譯)和協同過濾。同時,甚至推薦引擎測試也基於神經網絡; 從技術上講,不包括“傳統的”機器學習測試,這是不幸的。但由於這是0.5版本並且該組織正在邀請更多反饋,它肯定是有希望的,一旦它成熟,我們預計它將成為最好的基準。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

然而,通過戴爾的基準測試,我們可以清楚地看到,並非所有的神經網絡都具有CNN那樣的可擴展性。當您移動到GPU數量的四倍(並添加第二個CPU)時,ResNet CNN很容易翻兩番,而協作過濾方法只提供了50%的更高性能。

事實上,相當多的學術研究都圍繞著優化和適應CNNs展開,這樣它們就可以像處理RNNs一樣處理這些序列建模工作負載,從而可以替代伸縮性較差的RNNs。

英特爾對人工智能的看法

總的來說,英特爾有一個很好的觀點,即存在“廣泛的AI應用”,例如CNN之外的AI生活。在許多現實場景中,傳統的機器學習技術優於CNN,並非所有深度學習都是通過超可擴展的CNN完成的。在其他實際案例中,擁有大量RAM是另一個重要的性能優勢,無論是在訓練模型還是使用它來推斷新數據時。

因此,儘管英偉達在運行CNN方面具有巨大優勢,但高端Xeon 可以在數據分析市場中提供可靠的替代方案。可以肯定的是,沒有人希望新的Cascade Lake Xeon在CNN訓練中勝過英偉達 GPU,但在很多情況下,英特爾可能會說服客戶投資更強大的Xeon而不是昂貴的Tesla加速器:

  • 需要大量內存的人工智能模型的推理

  • 不需要長時間訓練的“輕型”人工智能模型批處理或流處理時間比模型培訓時間更重要的數據體系結構

  • 人工智能模型依賴於傳統的“非神經網絡”統計模型

因此,英特爾或許有機會將英偉達擋在門外,直到他們在CNN工作負載中為英偉達的GPU找到一個合理的替代方案。英特爾一直在為Xeons可伸縮系列產品瘋狂地添加功能,並優化其軟件堆棧,以對抗英偉達的人工智能霸主地位。優化的人工智能軟件,如英特爾自己的Python發行版,英特爾數學內核庫用於深度學習,甚至英特爾數據分析加速庫——主要用於傳統的機器學習……

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

總而言之,對於第二代英特爾至強可擴展處理器,該公司在深度學習(DL)Boost名稱下添加了新的AI硬件功能。這主要包括矢量神經網絡指令(VNNI)集,它可以在一個指令中執行之前需要三個指令。然而,即便更進一步,第三代Xeon可擴展處理器Cooper Lake將增加對bfloat16的支持,進一步提高培訓性能。

總之,英特爾試圖重新佔領“更輕的AI工作負載”市場,同時在數據分析市場的其他部分站穩腳跟,同時在其產品組合中添加非常專業的硬件(FPGA,ASIC)。這對英特爾在IT市場的競爭力至關重要。英特爾一再表示,數據中心集團(DCG)或“企業部分”預計將成為該公司未來幾年的主要增長引擎。

英偉達的答案

英偉達不止一次證明,它可以憑藉出色的願景和戰略戰勝競爭對手。英偉達明白將所有神經網絡擴展為CNN並不容易,並且有很多應用要麼運行在除神經網絡之外的其他方法上,要麼是內存密集型而不是計算密集型。

在GTC Europe,英偉達推出了一個新的數據科學平臺,供企業使用,該平臺建立在英偉達新的“RAPIDS”框架之上。基本思想是數據管道的GPU加速不應侷限於深度學習。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

例如,CuDF允許數據科學家將數據加載到GPU內存中並對其進行批處理,類似於Pandas(用於操作數據的python庫)。cuML是目前有限的GPU加速機器學習庫集合。最終,Scikit-Learn工具包中提供的大多數(全部?)機器學習算法應該是GPU加速的,並且可以在cuML中使用。

英偉達還添加了一個柱狀內存數據庫Apache Arrow。這是因為GPU在向量上運行,因此有利於內存中的柱狀佈局。

通過利用Apache arrow作為“中央數據庫”,英偉達避免了大量開銷。

確保存在典型Python庫(如Sci-Kit和Pandas)的GPU加速版本是朝著正確方向邁出的一步。但是Pandas僅適用於較輕的“數據科學探索”任務。通過與Databricks合作確保RAPIDS也用於重型,分佈式“數據處理”框架Spark,英偉達正在邁出下一步,突破“深度學習”角色,並向“NVIDIA”展開其餘部分數據管道。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

然而,細節決定成敗。將GPU添加到經過多年優化的框架中,以便最優地使用CPU內核和服務器中可用的大量RAM,這並不容易。Spark被構建為運行在幾十個強大的服務器內核上,而不是運行在數千個微不足道的GPU內核上。Spark已經過優化,可以在服務器節點集群上運行,使其看起來像是RAM內存和核心的一個大塊。混合兩種內存(RAM和GPU VRAM)並保持Spark的分佈式計算特性並不容易。

其次,挑選最適合GPU的機器學習算法是一回事,但確保它們在基於gpu的機器上運行良好是另一回事。最後,在可預見的將來,GPU的內存仍然少於CPU,即使是一致的平臺也不能解決系統RAM的速度只是局部VRAM速度的一小部分的問題。

誰將贏得下一個企業市場?

在最後一個投資者日,英偉達的一張PPT清楚地表明瞭企業領域的下一場戰鬥將是什麼:數據分析。請注意昂貴的雙Xeon“Skylake”Scalable如何被視為基線。這是一個相當的聲明; 將最新的英特爾動力系統之一降低到一個完全優秀的簡單基線。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

英偉達的整個商業模式圍繞著這樣一個理論:購買昂貴的硬件,如DGXs和特斯拉,對你的TCO有好處(“買得越多,省得越多”)。不要購買5000臺服務器,而是購買50臺DGX。儘管DGX消耗的功率增加了5倍,而且耗資12萬美元而不是9,000美元,但你的狀況會好得多。當然,這是最好的營銷方式,也可能是最差的營銷方式,這取決於你如何看待它。但即使這些數字略有誇大,這也是一個強有力的信息:“從我們的深度學習的大本營到英特爾當前的增長市場(推論、高性能計算和機器學習),我們將以巨大優勢擊敗英特爾。”

不相信嗎?這就是英偉達和IDC對市場演變的看法。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

目前,在總計1000億美元的市場中,計算密集型或高性能子市場約為370億美元。英偉達認為,這個子市場將在2023年翻一番,他們將能夠解決500億美元的問題。換句話說,從廣義上講,數據分析市場將幾乎佔整個服務器市場的一半。

即使這是一種高估,但很明顯,時代在變,而且風險非常高。神經網絡更適合GPU,但如果英特爾可以確保大多數數據管道在CPU上運行得更好,並且您只需要GPU用於最密集和可擴展的神經網絡,那麼它將使英偉達重新回到更適合的角色。另一方面,另一方面,如果英偉達能夠加速更大一部分數據傳輸,它將征服大部分屬於英特爾並迅速擴展的市場。在這場激烈的戰鬥中,IBM和AMD必須確保他們獲得市場份額。IBM將提供更好的基於英偉達 GPU的服務器,AMD將嘗試構建合適的軟件生態系統。

測試筆記

隨著市場的發展,很明顯,除了AMD和ARM之外,英偉達的專業產品對英特爾在數據中心及其他領域的主導地位構成了真正的威脅。因此,對於我們今天的測試,我們將專注於機器學習,並瞭解英特爾新推出的DL Boosted產品如何應對ML領域的競爭。

當然,在英特爾方面,我們正在關注該公司新的Cascade Lake Xeon可擴展CPU。該公司提供了28個核心型號中的兩個,其中包括165瓦Xeon Platinum8176,以及更快的205瓦Xeon Platinum8280。

用於與Cascade Lake的比較評測,我們使用了英偉達最新的“圖靈(Turing)”泰坦(Titan)RTX卡。雖然這些並不是真正的數據中心卡,但它們是基於Turing的,這意味著它們提供了英偉達最新的功能。在我工作的大學裡,我們的深度學習研究人員使用這些GPU來訓練人工智能模型,因為泰坦卡價格低廉,而且有大量GPU內存可用。

另外,Titan RTX卡可以同時用於訓練(混合FP32/16)作為推理(FP16和INT8)。目前的特斯拉仍然基於英偉達的Volta架構,該架構沒有可供推斷的INT8。

最後,不排除,我們也包括AMD的第一代EPYC平臺在我們所有的測試。AMD沒有像英特爾那樣的硬件策略,也沒有像VNNI那樣的具體指令,但最近該公司提供了各種各樣的驚喜。

測試基準配置和方法

我們所有的測試都是在Ubuntu Server18.04 LTS上進行的。您會注意到DRAM容量因我們的服務器配置而異。這當然是因為Xeons可以訪問六個內存通道,而EPYC CPU有八個通道。據我們所知,我們所有的測試都適合128GB,因此DRAM容量對性能影響不大。但它會對總能耗產生影響,我們將對此進行討論。

最後但並非最不重要的是,我們要注意性能圖表是如何進行顏色編碼的。Orange是AMD的EPYC,深藍色是Intel最好的(Cascade Lake / Skylake-SP),淺藍色是上一代Xeon(Xeon E5-v4)。Gray已被用於即將被替換的Xeon v1。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

我們啟用了超線程和英特爾虛擬化加速。

Xeon - NVIDIA Titan RTX工作站

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

這是測試中唯一具有獨立GPU的服務器。

AMD EPYC 7601 - (2U機箱)

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

其他說明

兩臺服務器均由標準的歐洲230V(最大16安培)電源線供電。我們的Airwell CRAC監測室溫並保持在23°C。

CPU性能

在我們進入新的AI基準測試之前,讓我們快速瞭解一下英特爾提供的常用CPU基準測試和性能聲明。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

為了進行比較,我們將重點關注第二排 - 第一排是將價格極為驚人的400W雙芯片英特爾鉑金9282與更合理的產品進行比較,並向所有人提供英特爾鉑金8180.第二行說明了所有內容:幾MHz與第一代Xeon可擴展部件相比,RAM速度稍高,可使性能提高3%(整數)至5%(FP)。浮點性能的更高提升可能是因為英特爾的第二代部件可以使用更快的DDR4-2933 DIMM,從而為內核提供更多帶寬。

中端SKU得到更大的推動,因為一些x2xx Xeon 可擴展部件比以前的x1xx部件獲得更多內核和更多L3緩存。例如,6252具有24個核心和35.75 MB L3,而6152具有22個核心和30.25 MB L3。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

然而,與AMD的EPYC 7601的比較值得我們關注,因為這裡有一些有趣的數據。再次,400W,$50k小芯片CPU與180W $4k芯片CPU的比較沒有任何意義,所以我們忽略了第一行。

Linpack數據並不令人驚訝:更昂貴的Skylake SKU為現有的雙256位FMAC增加了512位FMAC,提供的AVX吞吐量比AMD的EPYC高出4倍。由於每個FP單元現在能夠執行256位AVX而不是128位,因此AMD的下一代將在這一領域更具競爭力。

圖像分類結果清楚地表明,英特爾試圖讓人們相信某些AI應用程序應該只在CPU上運行,而不需要GPU。

英特爾聲稱數據庫性能比EPYC好得多,這一事實非常有趣,正如我們之前指出的,AMD的4個NUMA芯片確實有缺陷。引用我們的Xeon Skylake vs . EPYC的評論:

開箱即用,EPYC CPU是一個相當普通的事務數據庫CPU…事務數據庫目前仍將是Intel的領域。

在數據庫中,緩存(一致性)延遲起著重要作用。看看AMD在第二代EPYC服務器芯片上是如何解決這一弱點的,將是一件很有趣的事情。

SAP S&D

在我們開始使用數據分析ML基準之前的最後一站:SAP。企業資源規劃軟件是“傳統”企業軟件的完美典範。

SAP S&D 2-Tier基準測試可能是供應商完成的所有服務器基準測試中最真實的基準測試。它是一個完整的應用程序,生活在一個繁重的關係數據庫之上。

我們在之前的一篇文章中深入分析了SAP Benchmark :

  • 非常並行,具有良好的伸縮性

  • 低到中等IPC,主要是由於“分支”代碼

  • 受內存帶寬的限制

  • 喜歡大型緩存(內存延遲)

  • 同步(“緩存一致性”)延遲非常敏感

不同供應商提供了許多基準測試結果。為了獲得(或多或少)蘋果與蘋果的比較,我們僅限於在SQL Server 2012Enterprise上運行的“SAPS結果”。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

基於Xeon 8180和8280的服務器的富士通基準測試與我們可以獲得的一樣多:與測試和調優相同的人,相同的操作系統和數據庫。略高的時鐘(+ 200 Mhz,+ 8%)使性能提高3%。兩個CPU都有28個內核,但8280的時鐘速度提高了8%,從某種意義上說,這種時鐘速度的提升並沒有帶來更大的性能提升,這令人驚訝。我們得到的結論是,Cascade Lake的時鐘頻率可能比Skylake略慢,因為兩個SPEC CPU基準測試也只增加了3%到5%。

因此,在典型的企業堆棧中,您需要在相同的價格/能耗下獲得約3%的性能提升。然而,AMD便宜得多(編輯:很快就會更新)$ 4k EPYC 7601並沒有那麼落後。考慮到EPYC已經在昂貴的兩倍8176(2.1 GHz,28個核心)的誤差範圍內,8276具有稍高的時鐘速度(2.2 Ghz)並不會顯著改善問題。即使是Xeon 8164(26 GHz,2 GHz)也能提供與EPYC 7601 大致相同的性能,但仍然要高出 50%。

考慮到AMD在Zen 2架構方面取得了多大進展,以及頂級SKU將內核數量增加一倍(64比32),看起來AMD羅馬將對Xeon銷售施加更大壓力。

Apache Spark 2.1基準測試

Apache Spark是大數據處理的典範。加速大數據應用程序是我工作的大學實驗室(西佛蘭德大學學院的Sizing Servers Lab)的首要項目,因此我們製作了一個基準,它使用了許多Spark功能並基於實際使用情況。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

該測試在上圖中描述。我們首先從從CommonCrawl收集的300 GB壓縮數據開始。這些壓縮文件是大量的Web存檔。我們在運行中解壓縮數據以避免長時間的等待,這主要與存儲相關。然後,我們使用Java庫“BoilerPipe”從存檔中提取有意義的文本數據。使用Stanford CoreNLP自然語言處理工具包,我們從文本中提取實體(“含義詞”),然後計算這些實體中出現次數最多的URL。然後使用交替最小二乘算法來推薦哪些URL對於某個主題最有趣。

我們將最新的服務器轉換為虛擬集群,以更好地利用所有這些核心。我們運行8個執行器。研究員Esli Heyvaert也升級了我們的Spark基準測試,因此它可以在Apache Spark 2.1.1上運行。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

結果如下:

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

我們的Spark基準測試需要大約120 GB的RAM才能運行。在存儲I / O上花費的時間可以忽略不計。數據處理非常平行,但是混洗階段需要大量的內存交互。ALS階段在許多線程上的擴展性不佳,但不到總測試時間的4%。

由於我們不知道的原因,我們可以讓我們的2.7 GHz 8280比2.1 GHz Xeon 8176 表現更好。我們懷疑我們使用新的Xeon芯片與舊的(Skylake-SP)服務器的事實可能是原因,嘗試不同的Spark配置(執行程序,JVM設置)沒有幫助。BIOS更新對我們也沒有幫助。

好吧,這是大數據處理與大多數“傳統”機器學習相結合:NER和ALS。一些“深度學習”怎麼樣?

卷積神經網絡訓練

很長一段時間,CNN的前進方向是增加層數 - 增加“更深入學習”的網絡深度。正如你可能猜到的那樣,這導致收益遞減,並使已經很複雜的神經網絡更難調整,導致更多的訓練錯誤。

所述RESNET-50基準是基於剩餘網絡(因此RESNET),其具有更少的訓練誤差的優點作為網絡變得更深。

同時,作為一些內部管家,對於普通讀者,我會注意到下面的基準與Nate為我們的Titan V評論所進行的測試不能直接比較。它是相同的基準,但Nate運行了英偉達的Caffe2 Docker映像中包含的標準ResNet-50培訓實現。但是,由於我的團隊主要使用TensorFlow作為深度學習框架,我們傾向於堅持使用它。所有基準測試

tf_cnn_benchmarks.py --num_gpus = 1 --model =resnet50 --variable_update = parameter_server

該模型在ImageNet上訓練併為我們提供吞吐量數據。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

缺少幾個基準,這是有充分理由的。在Titan RTX上以FP32精度運行批量大小為512個訓練樣本會導致“內存不足”錯誤,因為該卡“僅”具有24 GB可用空間。

同時在Intel CPU上,半精度(FP16)尚不可用。AVX512 _ BF16(bfloat16)將在Cascade Lake的繼任者Cooper Lake中推出。

已經觀察到,使用較大批次可以導致模型質量的顯著降低,如通過其概括的能力所測量的。因此,雖然較大的批量大小(512)可以更好地利用GPU內部的大規模並行性,但批量較小(128)的結果也很有用。該模型的準確性僅損失了幾個百分點,但在許多應用中,甚至幾個百分點的損失都很重要。

因此,儘管您可以很快得出結論,Titan RTX的速度比最佳CPU快7倍,但根據您想要的精度,它可以更準確地說它的速度提高了4.5到7倍。

循環神經網絡:LSTM

我們的忠實讀者知道我們喜歡現實世界的企業基準。因此,在我們尋求更好的基準和更好的數據的過程中,MCT IT學士 (荷蘭語)的研究負責人Pieter Bovijn 將現實世界的AI模型轉變為基準。

模型的輸入是時間序列數據,用於預測時間序列在未來的行為方式。由於這是典型的序列預測問題,我們使用長短期記憶(LSTM)網絡作為神經網絡。作為一種RNN,LSTM在一定的持續時間內選擇性地“記住”模式。

然而,LSTM的缺點是它們的帶寬密集程度更高。我們引用最近一篇關於該主題的論文:

由於冗餘數據移動和有限的片外帶寬,LSTM在移動GPU上執行時表現出非常低效的存儲器訪問模式。

所以我們對LSTM網絡的表現非常好奇。畢竟,我們的服務器Xeons擁有足夠的帶寬,擁有38.5 MB的L3和6個DDR4-2666 / 2933通道(每個插槽128-141 GB / s)。我們使用50 GB的數據運行此測試,並將模型訓練5個時期。

當然,您可以充分利用可用的AVX / AVX2 /AVX512 SIMD電源。這就是我們使用3種不同設置進行測試的原因

1. 我們開箱即用TensorFlow與conda

2. 我們使用PyPi repo的Intel優化TensorFlow進行了測試

3. 我們使用Bazel 從源代碼優化 。這使我們可以使用最新版本的TensorFlow。

結果非常有趣。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

最密集的TensorFlow應用程序通常在GPU上運行,因此在CPU上進行測試時必須格外小心。AMD的Zen核心只有兩個128位FMAC,並且僅限於(256位)AVX2。英特爾的高端Xeon處理器 有兩個256位FMACs和一個512位FMAC。換句話說,在紙面上,英特爾的至強可以在每個時鐘週期內提供比AMD高四倍的FLOP。但只有軟件是正確的。英特爾一直與谷歌密切合作,為英特爾新Xeon優化TensorFlow出於必要:它必須在英偉達 Tesla太昂貴的情況下提供可靠的替代方案。與此同時,AMD希望ROCm能夠繼續發展,未來軟件工程師將在Radeon Pro上運行TensorFlow。

"

很多內行會覺得將英特爾(Intel) Cascade Lake與英偉達(Nvidia) 的圖靈(Turing)放在一起比較不太合適,乍一看,硬件選擇看起來很簡單:Intel Xeon CPU為通用處理器,用於存儲和預處理數據,英偉達 GPU更多用於AI。事實上,這在過去幾年中已成為現實。然而,英偉達的競爭對手一直沒有袖手旁觀 - 尤其是英特爾。從專用的低功耗推理處理器到專用優化的Xeon,英特爾正在瞄準AI市場的各個層面。最終的結果是,在所有這些競爭對手之間,我們看到人工智能從許多不同的方向解決,人工智能時代的硬件爭奪是非常有趣的。

今天我們來看看英特爾的第二代Xeon可擴展處理器,即“Cascade Lake”,它可能是英特爾在AI領域硬件的核心。今年早些時候推出的這些新處理器仍然基於與第一代產品相同的核心Skylake架構,但採用了許多新指令來加速AI性能。

就新技術而言,這肯定是Cascade Lake最有趣的方面。雖然我們可以談論一般CPU性能提升3%到6%,英特爾最昂貴處理器的56核,以及“世界紀錄基準”, 但這些小的改進對於IT世界近期和中期的未來幾乎是無關緊要的。看看英特爾新聞與分析師簡報的第一張PPT就知道了。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

物聯網、數據工程和人工智能。這將是增長、創新和未來的主要領域。這就是英特爾的目標。目前,英偉達在這個市場上領域——深度學習和“大規模並行高性能計算”軟件——幾乎處於壟斷地位。由於硬件和軟件方面的一系列因素,大多數軟件都運行在英偉達GPU和集群上。因此,對於普通大眾來說,英偉達似乎擁有“人工智能市場”,這一圖景並不準確,但也不完整。人工智能市場不僅僅是神經網絡推理,特別是,所有為人工智能模型提供數據的事情都很少受到關注。因此,神經網絡和他的終結者機器人佔據了所有的頭條,儘管它們只是圖片的一部分。實際上,AI應用程序的處理網絡更類似於下圖。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

簡而言之,實際的機器學習代碼執行只是構建和AI應用程序所需的軟件工具的一小部分。為什麼?讓我們深入研究一下。

人工智能不僅僅是深度學習

在高層次上,雖然深度學習是人工智能的一種形式,但反過來並不總是正確的,實現AI的應用程序不一定要使用深度學習。許多人工智能應用程序使用“傳統統計”或“傳統”機器學習。畢竟,支持向量機、邏輯迴歸、K-nearest、Naive Bayes和決策樹在自動進行信息分類時仍然非常有用,尤其是在沒有大量數據的情況下。

例如,在自然語言處理中使用條件隨機域(CRF),許多推薦引擎都是基於玻爾茲曼機、交替最小二乘(ALS)等。舉個例子:我們的“大數據”基準測試是最苛刻、最獨特的基準測試之一,它使用ALS算法作為推薦引擎(“協同過濾”)。

當然,神經網絡的應用——它本身就是一個完整的研究領域——正在蓬勃發展,它們的應用往往主導著最新的人工智能應用。神經網絡也是要求最高的工作負載之一,需要大量的處理能力。所有這些都與邏輯迴歸(logistic regression)形成了鮮明對比,後者仍然是最常用的機器學習方法,而且恰好需要更少的處理。

儘管如此,儘管神經網絡是人工智能技術中處理最密集的技術(尤其是具有大量層的技術),但有幾種傳統的機器學習技術也需要大量的處理能力。例如,支持向量機及其複雜的轉換也往往需要大量的計算時間。在我們的Spark測試中,斯坦福大學的NER系統是基於一個有監督的CRF模型,使用標記的英語數據集合。在測試中,它必須處理大量的高達幾百GB的非結構化文本數據。

反過來,處理能力要求的這些差異的原因實際上非常簡單。引用AI專家Wouter Gevaert的表述:

"神經網絡中的每個神經元都可以被視為邏輯迴歸單元。因此,神經網絡就像大量的邏輯迴歸" (當你使用sigmoid作為激活函數時)

然而,儘管神經網絡是人工智能技術中最需要處理的技術(尤其是具有大量層次的人工智能技術),有幾種傳統的機器學習技術也需要大量的處理能力。例如,支持向量機及其複雜的轉換也往往需要大量的計算時間。在我們的Spark測試中,斯坦福大學的NER系統是基於一個有監督的CRF模型,使用標記的英語數據集合。在測試中,它必須處理幾百GB的大量的非結構化文本。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

當然,大多數分析查詢仍然使用舊的SQL編寫。對於結構化和半結構化數據,對於OLAP多維數據集等,SQL代碼仍然很普遍。由於單個SQL查詢遠不及神經網絡那麼平行 - 在許多情況下它們是100%順序的 - CPU是這項工作的最佳工具。

因此,在實踐中,大多數數據(預處理)和許多人工智能軟件仍然運行在CPU上。GPU主要運行大規模並行的HPC應用程序和神經網絡,這無疑是一個重要的市場,但仍然只是更大的人工智能市場的一部分。這也是為什麼英偉達去年的數據中心收入為30億美元,而英特爾的數據中心收入為200億美元。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

然而,使整個情況更加複雜的不僅僅是隻看收入,還要看增長。在數據中心市場,英偉達一直在大幅增長,而英特爾只實現了個位數的增長。隨著新技術的出現,客戶的需求也在不斷變化;對數據分析市場的爭奪已經開始,而且正在加劇。

卷積,循環和可擴展性:尋求平衡

儘管英特爾Xeon Phi協處理器(Xeon Phi協處理器)作為加速器在市場上失敗了,而且已經停產,但英特爾並沒有放棄這個概念。該公司仍希望在人工智能市場佔據更大的份額,包括原本可能進入英偉達的份額。

Naveen提出了一個重點。因為雖然英偉達從未聲稱他們為所有類型的AI提供最好的硬件,但從表面上看整個行業新聞稿中引用最多的基準(ResNet,Inception等),你幾乎可以相信只有一種類型的AI事項。卷積神經網絡(CNN或ConvNets)在基準測試和產品演示中佔據主導地位,因為它們是分析圖像和視頻的最流行的技術。任何可以表示為“2D輸入”的東西都是這些流行神經網絡的輸入層的潛在候選者。

近年來,CNN取得了一些最引人注目的突破。例如,ResNet性能如此受歡迎並不是錯誤的。相關的ImageNet數據庫是斯坦福大學和普林斯頓大學之間的合作,包含了1400萬張圖像。直到最近十年,AI在識別這些圖像方面的表現非常差。美國有線電視新聞網(CNN)以快速的順序改變了這一點,從那以後它一直是最受歡迎的人工智能挑戰之一,因為公司希望能夠比以往更快,更準確地對這個數據庫進行分類。

早在2012年,AlexNet,一個相對簡單的神經網絡,在ImageNet分類競賽中取得了比傳統機器學習技術更好的準確率。在那次測試中,它達到了85%的準確率,幾乎是傳統方法73%準確率的一半。

在2015年,著名的Inception V3在對圖片進行分類時達到了3.58%的錯誤率,這與人類相似(甚至略好於人類)。ImageNet的挑戰變得更加困難,但是由於剩餘的學習,即使不增加層數,CNN也變得更好。這導致了著名的“ResNet”CNN,現在最流行的人工智能基準之一。長話短說,CNNs是人工智能領域的明星。到目前為止,他們得到了最多的關注、測試和研究。

CNN也具有很高的可擴展性:在降低網絡培訓時間時,增加更多GPU(幾乎)線性擴展。

坦率地說,CNN是上天送給英偉達的禮物。這是人們購買昂貴的英偉達 DGX服務器(40萬美元)或購買多臺特斯拉GPU (7k+美元)最常見的原因。

儘管如此,人工智能還有比CNN更多的東西。例如,遞歸神經網絡在語音識別、語言翻譯和時間序列方面也很受歡迎。

這就是MLperf基準計劃如此重要的原因。這是我們第一次獲得CNN未完全統治的基準。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

快速瀏覽一下MLperf,圖像和對象分類基準當然是CNN,但也表示了RNN(通過神經機器翻譯)和協同過濾。同時,甚至推薦引擎測試也基於神經網絡; 從技術上講,不包括“傳統的”機器學習測試,這是不幸的。但由於這是0.5版本並且該組織正在邀請更多反饋,它肯定是有希望的,一旦它成熟,我們預計它將成為最好的基準。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

然而,通過戴爾的基準測試,我們可以清楚地看到,並非所有的神經網絡都具有CNN那樣的可擴展性。當您移動到GPU數量的四倍(並添加第二個CPU)時,ResNet CNN很容易翻兩番,而協作過濾方法只提供了50%的更高性能。

事實上,相當多的學術研究都圍繞著優化和適應CNNs展開,這樣它們就可以像處理RNNs一樣處理這些序列建模工作負載,從而可以替代伸縮性較差的RNNs。

英特爾對人工智能的看法

總的來說,英特爾有一個很好的觀點,即存在“廣泛的AI應用”,例如CNN之外的AI生活。在許多現實場景中,傳統的機器學習技術優於CNN,並非所有深度學習都是通過超可擴展的CNN完成的。在其他實際案例中,擁有大量RAM是另一個重要的性能優勢,無論是在訓練模型還是使用它來推斷新數據時。

因此,儘管英偉達在運行CNN方面具有巨大優勢,但高端Xeon 可以在數據分析市場中提供可靠的替代方案。可以肯定的是,沒有人希望新的Cascade Lake Xeon在CNN訓練中勝過英偉達 GPU,但在很多情況下,英特爾可能會說服客戶投資更強大的Xeon而不是昂貴的Tesla加速器:

  • 需要大量內存的人工智能模型的推理

  • 不需要長時間訓練的“輕型”人工智能模型批處理或流處理時間比模型培訓時間更重要的數據體系結構

  • 人工智能模型依賴於傳統的“非神經網絡”統計模型

因此,英特爾或許有機會將英偉達擋在門外,直到他們在CNN工作負載中為英偉達的GPU找到一個合理的替代方案。英特爾一直在為Xeons可伸縮系列產品瘋狂地添加功能,並優化其軟件堆棧,以對抗英偉達的人工智能霸主地位。優化的人工智能軟件,如英特爾自己的Python發行版,英特爾數學內核庫用於深度學習,甚至英特爾數據分析加速庫——主要用於傳統的機器學習……

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

總而言之,對於第二代英特爾至強可擴展處理器,該公司在深度學習(DL)Boost名稱下添加了新的AI硬件功能。這主要包括矢量神經網絡指令(VNNI)集,它可以在一個指令中執行之前需要三個指令。然而,即便更進一步,第三代Xeon可擴展處理器Cooper Lake將增加對bfloat16的支持,進一步提高培訓性能。

總之,英特爾試圖重新佔領“更輕的AI工作負載”市場,同時在數據分析市場的其他部分站穩腳跟,同時在其產品組合中添加非常專業的硬件(FPGA,ASIC)。這對英特爾在IT市場的競爭力至關重要。英特爾一再表示,數據中心集團(DCG)或“企業部分”預計將成為該公司未來幾年的主要增長引擎。

英偉達的答案

英偉達不止一次證明,它可以憑藉出色的願景和戰略戰勝競爭對手。英偉達明白將所有神經網絡擴展為CNN並不容易,並且有很多應用要麼運行在除神經網絡之外的其他方法上,要麼是內存密集型而不是計算密集型。

在GTC Europe,英偉達推出了一個新的數據科學平臺,供企業使用,該平臺建立在英偉達新的“RAPIDS”框架之上。基本思想是數據管道的GPU加速不應侷限於深度學習。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

例如,CuDF允許數據科學家將數據加載到GPU內存中並對其進行批處理,類似於Pandas(用於操作數據的python庫)。cuML是目前有限的GPU加速機器學習庫集合。最終,Scikit-Learn工具包中提供的大多數(全部?)機器學習算法應該是GPU加速的,並且可以在cuML中使用。

英偉達還添加了一個柱狀內存數據庫Apache Arrow。這是因為GPU在向量上運行,因此有利於內存中的柱狀佈局。

通過利用Apache arrow作為“中央數據庫”,英偉達避免了大量開銷。

確保存在典型Python庫(如Sci-Kit和Pandas)的GPU加速版本是朝著正確方向邁出的一步。但是Pandas僅適用於較輕的“數據科學探索”任務。通過與Databricks合作確保RAPIDS也用於重型,分佈式“數據處理”框架Spark,英偉達正在邁出下一步,突破“深度學習”角色,並向“NVIDIA”展開其餘部分數據管道。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

然而,細節決定成敗。將GPU添加到經過多年優化的框架中,以便最優地使用CPU內核和服務器中可用的大量RAM,這並不容易。Spark被構建為運行在幾十個強大的服務器內核上,而不是運行在數千個微不足道的GPU內核上。Spark已經過優化,可以在服務器節點集群上運行,使其看起來像是RAM內存和核心的一個大塊。混合兩種內存(RAM和GPU VRAM)並保持Spark的分佈式計算特性並不容易。

其次,挑選最適合GPU的機器學習算法是一回事,但確保它們在基於gpu的機器上運行良好是另一回事。最後,在可預見的將來,GPU的內存仍然少於CPU,即使是一致的平臺也不能解決系統RAM的速度只是局部VRAM速度的一小部分的問題。

誰將贏得下一個企業市場?

在最後一個投資者日,英偉達的一張PPT清楚地表明瞭企業領域的下一場戰鬥將是什麼:數據分析。請注意昂貴的雙Xeon“Skylake”Scalable如何被視為基線。這是一個相當的聲明; 將最新的英特爾動力系統之一降低到一個完全優秀的簡單基線。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

英偉達的整個商業模式圍繞著這樣一個理論:購買昂貴的硬件,如DGXs和特斯拉,對你的TCO有好處(“買得越多,省得越多”)。不要購買5000臺服務器,而是購買50臺DGX。儘管DGX消耗的功率增加了5倍,而且耗資12萬美元而不是9,000美元,但你的狀況會好得多。當然,這是最好的營銷方式,也可能是最差的營銷方式,這取決於你如何看待它。但即使這些數字略有誇大,這也是一個強有力的信息:“從我們的深度學習的大本營到英特爾當前的增長市場(推論、高性能計算和機器學習),我們將以巨大優勢擊敗英特爾。”

不相信嗎?這就是英偉達和IDC對市場演變的看法。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

目前,在總計1000億美元的市場中,計算密集型或高性能子市場約為370億美元。英偉達認為,這個子市場將在2023年翻一番,他們將能夠解決500億美元的問題。換句話說,從廣義上講,數據分析市場將幾乎佔整個服務器市場的一半。

即使這是一種高估,但很明顯,時代在變,而且風險非常高。神經網絡更適合GPU,但如果英特爾可以確保大多數數據管道在CPU上運行得更好,並且您只需要GPU用於最密集和可擴展的神經網絡,那麼它將使英偉達重新回到更適合的角色。另一方面,另一方面,如果英偉達能夠加速更大一部分數據傳輸,它將征服大部分屬於英特爾並迅速擴展的市場。在這場激烈的戰鬥中,IBM和AMD必須確保他們獲得市場份額。IBM將提供更好的基於英偉達 GPU的服務器,AMD將嘗試構建合適的軟件生態系統。

測試筆記

隨著市場的發展,很明顯,除了AMD和ARM之外,英偉達的專業產品對英特爾在數據中心及其他領域的主導地位構成了真正的威脅。因此,對於我們今天的測試,我們將專注於機器學習,並瞭解英特爾新推出的DL Boosted產品如何應對ML領域的競爭。

當然,在英特爾方面,我們正在關注該公司新的Cascade Lake Xeon可擴展CPU。該公司提供了28個核心型號中的兩個,其中包括165瓦Xeon Platinum8176,以及更快的205瓦Xeon Platinum8280。

用於與Cascade Lake的比較評測,我們使用了英偉達最新的“圖靈(Turing)”泰坦(Titan)RTX卡。雖然這些並不是真正的數據中心卡,但它們是基於Turing的,這意味著它們提供了英偉達最新的功能。在我工作的大學裡,我們的深度學習研究人員使用這些GPU來訓練人工智能模型,因為泰坦卡價格低廉,而且有大量GPU內存可用。

另外,Titan RTX卡可以同時用於訓練(混合FP32/16)作為推理(FP16和INT8)。目前的特斯拉仍然基於英偉達的Volta架構,該架構沒有可供推斷的INT8。

最後,不排除,我們也包括AMD的第一代EPYC平臺在我們所有的測試。AMD沒有像英特爾那樣的硬件策略,也沒有像VNNI那樣的具體指令,但最近該公司提供了各種各樣的驚喜。

測試基準配置和方法

我們所有的測試都是在Ubuntu Server18.04 LTS上進行的。您會注意到DRAM容量因我們的服務器配置而異。這當然是因為Xeons可以訪問六個內存通道,而EPYC CPU有八個通道。據我們所知,我們所有的測試都適合128GB,因此DRAM容量對性能影響不大。但它會對總能耗產生影響,我們將對此進行討論。

最後但並非最不重要的是,我們要注意性能圖表是如何進行顏色編碼的。Orange是AMD的EPYC,深藍色是Intel最好的(Cascade Lake / Skylake-SP),淺藍色是上一代Xeon(Xeon E5-v4)。Gray已被用於即將被替換的Xeon v1。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

我們啟用了超線程和英特爾虛擬化加速。

Xeon - NVIDIA Titan RTX工作站

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

這是測試中唯一具有獨立GPU的服務器。

AMD EPYC 7601 - (2U機箱)

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

其他說明

兩臺服務器均由標準的歐洲230V(最大16安培)電源線供電。我們的Airwell CRAC監測室溫並保持在23°C。

CPU性能

在我們進入新的AI基準測試之前,讓我們快速瞭解一下英特爾提供的常用CPU基準測試和性能聲明。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

為了進行比較,我們將重點關注第二排 - 第一排是將價格極為驚人的400W雙芯片英特爾鉑金9282與更合理的產品進行比較,並向所有人提供英特爾鉑金8180.第二行說明了所有內容:幾MHz與第一代Xeon可擴展部件相比,RAM速度稍高,可使性能提高3%(整數)至5%(FP)。浮點性能的更高提升可能是因為英特爾的第二代部件可以使用更快的DDR4-2933 DIMM,從而為內核提供更多帶寬。

中端SKU得到更大的推動,因為一些x2xx Xeon 可擴展部件比以前的x1xx部件獲得更多內核和更多L3緩存。例如,6252具有24個核心和35.75 MB L3,而6152具有22個核心和30.25 MB L3。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

然而,與AMD的EPYC 7601的比較值得我們關注,因為這裡有一些有趣的數據。再次,400W,$50k小芯片CPU與180W $4k芯片CPU的比較沒有任何意義,所以我們忽略了第一行。

Linpack數據並不令人驚訝:更昂貴的Skylake SKU為現有的雙256位FMAC增加了512位FMAC,提供的AVX吞吐量比AMD的EPYC高出4倍。由於每個FP單元現在能夠執行256位AVX而不是128位,因此AMD的下一代將在這一領域更具競爭力。

圖像分類結果清楚地表明,英特爾試圖讓人們相信某些AI應用程序應該只在CPU上運行,而不需要GPU。

英特爾聲稱數據庫性能比EPYC好得多,這一事實非常有趣,正如我們之前指出的,AMD的4個NUMA芯片確實有缺陷。引用我們的Xeon Skylake vs . EPYC的評論:

開箱即用,EPYC CPU是一個相當普通的事務數據庫CPU…事務數據庫目前仍將是Intel的領域。

在數據庫中,緩存(一致性)延遲起著重要作用。看看AMD在第二代EPYC服務器芯片上是如何解決這一弱點的,將是一件很有趣的事情。

SAP S&D

在我們開始使用數據分析ML基準之前的最後一站:SAP。企業資源規劃軟件是“傳統”企業軟件的完美典範。

SAP S&D 2-Tier基準測試可能是供應商完成的所有服務器基準測試中最真實的基準測試。它是一個完整的應用程序,生活在一個繁重的關係數據庫之上。

我們在之前的一篇文章中深入分析了SAP Benchmark :

  • 非常並行,具有良好的伸縮性

  • 低到中等IPC,主要是由於“分支”代碼

  • 受內存帶寬的限制

  • 喜歡大型緩存(內存延遲)

  • 同步(“緩存一致性”)延遲非常敏感

不同供應商提供了許多基準測試結果。為了獲得(或多或少)蘋果與蘋果的比較,我們僅限於在SQL Server 2012Enterprise上運行的“SAPS結果”。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

基於Xeon 8180和8280的服務器的富士通基準測試與我們可以獲得的一樣多:與測試和調優相同的人,相同的操作系統和數據庫。略高的時鐘(+ 200 Mhz,+ 8%)使性能提高3%。兩個CPU都有28個內核,但8280的時鐘速度提高了8%,從某種意義上說,這種時鐘速度的提升並沒有帶來更大的性能提升,這令人驚訝。我們得到的結論是,Cascade Lake的時鐘頻率可能比Skylake略慢,因為兩個SPEC CPU基準測試也只增加了3%到5%。

因此,在典型的企業堆棧中,您需要在相同的價格/能耗下獲得約3%的性能提升。然而,AMD便宜得多(編輯:很快就會更新)$ 4k EPYC 7601並沒有那麼落後。考慮到EPYC已經在昂貴的兩倍8176(2.1 GHz,28個核心)的誤差範圍內,8276具有稍高的時鐘速度(2.2 Ghz)並不會顯著改善問題。即使是Xeon 8164(26 GHz,2 GHz)也能提供與EPYC 7601 大致相同的性能,但仍然要高出 50%。

考慮到AMD在Zen 2架構方面取得了多大進展,以及頂級SKU將內核數量增加一倍(64比32),看起來AMD羅馬將對Xeon銷售施加更大壓力。

Apache Spark 2.1基準測試

Apache Spark是大數據處理的典範。加速大數據應用程序是我工作的大學實驗室(西佛蘭德大學學院的Sizing Servers Lab)的首要項目,因此我們製作了一個基準,它使用了許多Spark功能並基於實際使用情況。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

該測試在上圖中描述。我們首先從從CommonCrawl收集的300 GB壓縮數據開始。這些壓縮文件是大量的Web存檔。我們在運行中解壓縮數據以避免長時間的等待,這主要與存儲相關。然後,我們使用Java庫“BoilerPipe”從存檔中提取有意義的文本數據。使用Stanford CoreNLP自然語言處理工具包,我們從文本中提取實體(“含義詞”),然後計算這些實體中出現次數最多的URL。然後使用交替最小二乘算法來推薦哪些URL對於某個主題最有趣。

我們將最新的服務器轉換為虛擬集群,以更好地利用所有這些核心。我們運行8個執行器。研究員Esli Heyvaert也升級了我們的Spark基準測試,因此它可以在Apache Spark 2.1.1上運行。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

結果如下:

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

我們的Spark基準測試需要大約120 GB的RAM才能運行。在存儲I / O上花費的時間可以忽略不計。數據處理非常平行,但是混洗階段需要大量的內存交互。ALS階段在許多線程上的擴展性不佳,但不到總測試時間的4%。

由於我們不知道的原因,我們可以讓我們的2.7 GHz 8280比2.1 GHz Xeon 8176 表現更好。我們懷疑我們使用新的Xeon芯片與舊的(Skylake-SP)服務器的事實可能是原因,嘗試不同的Spark配置(執行程序,JVM設置)沒有幫助。BIOS更新對我們也沒有幫助。

好吧,這是大數據處理與大多數“傳統”機器學習相結合:NER和ALS。一些“深度學習”怎麼樣?

卷積神經網絡訓練

很長一段時間,CNN的前進方向是增加層數 - 增加“更深入學習”的網絡深度。正如你可能猜到的那樣,這導致收益遞減,並使已經很複雜的神經網絡更難調整,導致更多的訓練錯誤。

所述RESNET-50基準是基於剩餘網絡(因此RESNET),其具有更少的訓練誤差的優點作為網絡變得更深。

同時,作為一些內部管家,對於普通讀者,我會注意到下面的基準與Nate為我們的Titan V評論所進行的測試不能直接比較。它是相同的基準,但Nate運行了英偉達的Caffe2 Docker映像中包含的標準ResNet-50培訓實現。但是,由於我的團隊主要使用TensorFlow作為深度學習框架,我們傾向於堅持使用它。所有基準測試

tf_cnn_benchmarks.py --num_gpus = 1 --model =resnet50 --variable_update = parameter_server

該模型在ImageNet上訓練併為我們提供吞吐量數據。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

缺少幾個基準,這是有充分理由的。在Titan RTX上以FP32精度運行批量大小為512個訓練樣本會導致“內存不足”錯誤,因為該卡“僅”具有24 GB可用空間。

同時在Intel CPU上,半精度(FP16)尚不可用。AVX512 _ BF16(bfloat16)將在Cascade Lake的繼任者Cooper Lake中推出。

已經觀察到,使用較大批次可以導致模型質量的顯著降低,如通過其概括的能力所測量的。因此,雖然較大的批量大小(512)可以更好地利用GPU內部的大規模並行性,但批量較小(128)的結果也很有用。該模型的準確性僅損失了幾個百分點,但在許多應用中,甚至幾個百分點的損失都很重要。

因此,儘管您可以很快得出結論,Titan RTX的速度比最佳CPU快7倍,但根據您想要的精度,它可以更準確地說它的速度提高了4.5到7倍。

循環神經網絡:LSTM

我們的忠實讀者知道我們喜歡現實世界的企業基準。因此,在我們尋求更好的基準和更好的數據的過程中,MCT IT學士 (荷蘭語)的研究負責人Pieter Bovijn 將現實世界的AI模型轉變為基準。

模型的輸入是時間序列數據,用於預測時間序列在未來的行為方式。由於這是典型的序列預測問題,我們使用長短期記憶(LSTM)網絡作為神經網絡。作為一種RNN,LSTM在一定的持續時間內選擇性地“記住”模式。

然而,LSTM的缺點是它們的帶寬密集程度更高。我們引用最近一篇關於該主題的論文:

由於冗餘數據移動和有限的片外帶寬,LSTM在移動GPU上執行時表現出非常低效的存儲器訪問模式。

所以我們對LSTM網絡的表現非常好奇。畢竟,我們的服務器Xeons擁有足夠的帶寬,擁有38.5 MB的L3和6個DDR4-2666 / 2933通道(每個插槽128-141 GB / s)。我們使用50 GB的數據運行此測試,並將模型訓練5個時期。

當然,您可以充分利用可用的AVX / AVX2 /AVX512 SIMD電源。這就是我們使用3種不同設置進行測試的原因

1. 我們開箱即用TensorFlow與conda

2. 我們使用PyPi repo的Intel優化TensorFlow進行了測試

3. 我們使用Bazel 從源代碼優化 。這使我們可以使用最新版本的TensorFlow。

結果非常有趣。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

最密集的TensorFlow應用程序通常在GPU上運行,因此在CPU上進行測試時必須格外小心。AMD的Zen核心只有兩個128位FMAC,並且僅限於(256位)AVX2。英特爾的高端Xeon處理器 有兩個256位FMACs和一個512位FMAC。換句話說,在紙面上,英特爾的至強可以在每個時鐘週期內提供比AMD高四倍的FLOP。但只有軟件是正確的。英特爾一直與谷歌密切合作,為英特爾新Xeon優化TensorFlow出於必要:它必須在英偉達 Tesla太昂貴的情況下提供可靠的替代方案。與此同時,AMD希望ROCm能夠繼續發展,未來軟件工程師將在Radeon Pro上運行TensorFlow。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

當然,最大的問題是這與GPU相比如何。讓我們看看我們的英偉達 Titan RTX如何處理這種工作量。

首先,我們注意到FP16沒有太大的區別。其次,我們非常驚訝我們的Titan RTX比我們的雙Xeon設置快了不到3倍。

通過英偉達的系統管理接口(SMI)進一步調查,我們發現GPU確實以最高的渦輪速度運行:1.9 GHz,高於預期的1.775 GHz。同時利用率不時降至40%。

最後,這是另一個示例,說明實際應用程序的行為與基準測試的不同,以及軟件優化的重要性。如果我們剛剛使用了conda,上面的結果將會非常不同。使用正確的優化軟件使應用程序運行速度提高了2到6倍。此外,這另一個數據點證明CNN可能是GPU的最佳用例之一。您應該使用GPU來減少複雜LSTM的訓練時間。不過,這種神經網絡有點棘手 - 你不能簡單地添加更多的GPU來進一步減少訓練時間。

推論:ResNet-50

在根據訓練數據訓練您的模型之後,等待真正的測試。你的人工智能模型現在應該能夠將這些知識應用到現實世界中,並對新的現實數據做同樣的事情。這個過程叫做推理。推理不需要反向傳播,因為模型已經經過訓練——模型已經確定了權重。推理還可以利用較低的數值精度,並已證明,即使使用8位整數的精度有時是可以接受的。

從高級工作流執行的角度來看,一個工作的AI模型基本上是由一個服務控制的,而這個服務又是由另一個軟件服務調用的。因此模型應該響應非常快,但是應用程序的總延遲將由不同的服務決定。長話短說:如果推斷性能足夠高,感知到的延遲可能會轉移到另一個軟件組件。因此,Intel的任務是確保Xeons能夠提供足夠高的推理性能。

"

很多內行會覺得將英特爾(Intel) Cascade Lake與英偉達(Nvidia) 的圖靈(Turing)放在一起比較不太合適,乍一看,硬件選擇看起來很簡單:Intel Xeon CPU為通用處理器,用於存儲和預處理數據,英偉達 GPU更多用於AI。事實上,這在過去幾年中已成為現實。然而,英偉達的競爭對手一直沒有袖手旁觀 - 尤其是英特爾。從專用的低功耗推理處理器到專用優化的Xeon,英特爾正在瞄準AI市場的各個層面。最終的結果是,在所有這些競爭對手之間,我們看到人工智能從許多不同的方向解決,人工智能時代的硬件爭奪是非常有趣的。

今天我們來看看英特爾的第二代Xeon可擴展處理器,即“Cascade Lake”,它可能是英特爾在AI領域硬件的核心。今年早些時候推出的這些新處理器仍然基於與第一代產品相同的核心Skylake架構,但採用了許多新指令來加速AI性能。

就新技術而言,這肯定是Cascade Lake最有趣的方面。雖然我們可以談論一般CPU性能提升3%到6%,英特爾最昂貴處理器的56核,以及“世界紀錄基準”, 但這些小的改進對於IT世界近期和中期的未來幾乎是無關緊要的。看看英特爾新聞與分析師簡報的第一張PPT就知道了。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

物聯網、數據工程和人工智能。這將是增長、創新和未來的主要領域。這就是英特爾的目標。目前,英偉達在這個市場上領域——深度學習和“大規模並行高性能計算”軟件——幾乎處於壟斷地位。由於硬件和軟件方面的一系列因素,大多數軟件都運行在英偉達GPU和集群上。因此,對於普通大眾來說,英偉達似乎擁有“人工智能市場”,這一圖景並不準確,但也不完整。人工智能市場不僅僅是神經網絡推理,特別是,所有為人工智能模型提供數據的事情都很少受到關注。因此,神經網絡和他的終結者機器人佔據了所有的頭條,儘管它們只是圖片的一部分。實際上,AI應用程序的處理網絡更類似於下圖。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

簡而言之,實際的機器學習代碼執行只是構建和AI應用程序所需的軟件工具的一小部分。為什麼?讓我們深入研究一下。

人工智能不僅僅是深度學習

在高層次上,雖然深度學習是人工智能的一種形式,但反過來並不總是正確的,實現AI的應用程序不一定要使用深度學習。許多人工智能應用程序使用“傳統統計”或“傳統”機器學習。畢竟,支持向量機、邏輯迴歸、K-nearest、Naive Bayes和決策樹在自動進行信息分類時仍然非常有用,尤其是在沒有大量數據的情況下。

例如,在自然語言處理中使用條件隨機域(CRF),許多推薦引擎都是基於玻爾茲曼機、交替最小二乘(ALS)等。舉個例子:我們的“大數據”基準測試是最苛刻、最獨特的基準測試之一,它使用ALS算法作為推薦引擎(“協同過濾”)。

當然,神經網絡的應用——它本身就是一個完整的研究領域——正在蓬勃發展,它們的應用往往主導著最新的人工智能應用。神經網絡也是要求最高的工作負載之一,需要大量的處理能力。所有這些都與邏輯迴歸(logistic regression)形成了鮮明對比,後者仍然是最常用的機器學習方法,而且恰好需要更少的處理。

儘管如此,儘管神經網絡是人工智能技術中處理最密集的技術(尤其是具有大量層的技術),但有幾種傳統的機器學習技術也需要大量的處理能力。例如,支持向量機及其複雜的轉換也往往需要大量的計算時間。在我們的Spark測試中,斯坦福大學的NER系統是基於一個有監督的CRF模型,使用標記的英語數據集合。在測試中,它必須處理大量的高達幾百GB的非結構化文本數據。

反過來,處理能力要求的這些差異的原因實際上非常簡單。引用AI專家Wouter Gevaert的表述:

"神經網絡中的每個神經元都可以被視為邏輯迴歸單元。因此,神經網絡就像大量的邏輯迴歸" (當你使用sigmoid作為激活函數時)

然而,儘管神經網絡是人工智能技術中最需要處理的技術(尤其是具有大量層次的人工智能技術),有幾種傳統的機器學習技術也需要大量的處理能力。例如,支持向量機及其複雜的轉換也往往需要大量的計算時間。在我們的Spark測試中,斯坦福大學的NER系統是基於一個有監督的CRF模型,使用標記的英語數據集合。在測試中,它必須處理幾百GB的大量的非結構化文本。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

當然,大多數分析查詢仍然使用舊的SQL編寫。對於結構化和半結構化數據,對於OLAP多維數據集等,SQL代碼仍然很普遍。由於單個SQL查詢遠不及神經網絡那麼平行 - 在許多情況下它們是100%順序的 - CPU是這項工作的最佳工具。

因此,在實踐中,大多數數據(預處理)和許多人工智能軟件仍然運行在CPU上。GPU主要運行大規模並行的HPC應用程序和神經網絡,這無疑是一個重要的市場,但仍然只是更大的人工智能市場的一部分。這也是為什麼英偉達去年的數據中心收入為30億美元,而英特爾的數據中心收入為200億美元。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

然而,使整個情況更加複雜的不僅僅是隻看收入,還要看增長。在數據中心市場,英偉達一直在大幅增長,而英特爾只實現了個位數的增長。隨著新技術的出現,客戶的需求也在不斷變化;對數據分析市場的爭奪已經開始,而且正在加劇。

卷積,循環和可擴展性:尋求平衡

儘管英特爾Xeon Phi協處理器(Xeon Phi協處理器)作為加速器在市場上失敗了,而且已經停產,但英特爾並沒有放棄這個概念。該公司仍希望在人工智能市場佔據更大的份額,包括原本可能進入英偉達的份額。

Naveen提出了一個重點。因為雖然英偉達從未聲稱他們為所有類型的AI提供最好的硬件,但從表面上看整個行業新聞稿中引用最多的基準(ResNet,Inception等),你幾乎可以相信只有一種類型的AI事項。卷積神經網絡(CNN或ConvNets)在基準測試和產品演示中佔據主導地位,因為它們是分析圖像和視頻的最流行的技術。任何可以表示為“2D輸入”的東西都是這些流行神經網絡的輸入層的潛在候選者。

近年來,CNN取得了一些最引人注目的突破。例如,ResNet性能如此受歡迎並不是錯誤的。相關的ImageNet數據庫是斯坦福大學和普林斯頓大學之間的合作,包含了1400萬張圖像。直到最近十年,AI在識別這些圖像方面的表現非常差。美國有線電視新聞網(CNN)以快速的順序改變了這一點,從那以後它一直是最受歡迎的人工智能挑戰之一,因為公司希望能夠比以往更快,更準確地對這個數據庫進行分類。

早在2012年,AlexNet,一個相對簡單的神經網絡,在ImageNet分類競賽中取得了比傳統機器學習技術更好的準確率。在那次測試中,它達到了85%的準確率,幾乎是傳統方法73%準確率的一半。

在2015年,著名的Inception V3在對圖片進行分類時達到了3.58%的錯誤率,這與人類相似(甚至略好於人類)。ImageNet的挑戰變得更加困難,但是由於剩餘的學習,即使不增加層數,CNN也變得更好。這導致了著名的“ResNet”CNN,現在最流行的人工智能基準之一。長話短說,CNNs是人工智能領域的明星。到目前為止,他們得到了最多的關注、測試和研究。

CNN也具有很高的可擴展性:在降低網絡培訓時間時,增加更多GPU(幾乎)線性擴展。

坦率地說,CNN是上天送給英偉達的禮物。這是人們購買昂貴的英偉達 DGX服務器(40萬美元)或購買多臺特斯拉GPU (7k+美元)最常見的原因。

儘管如此,人工智能還有比CNN更多的東西。例如,遞歸神經網絡在語音識別、語言翻譯和時間序列方面也很受歡迎。

這就是MLperf基準計劃如此重要的原因。這是我們第一次獲得CNN未完全統治的基準。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

快速瀏覽一下MLperf,圖像和對象分類基準當然是CNN,但也表示了RNN(通過神經機器翻譯)和協同過濾。同時,甚至推薦引擎測試也基於神經網絡; 從技術上講,不包括“傳統的”機器學習測試,這是不幸的。但由於這是0.5版本並且該組織正在邀請更多反饋,它肯定是有希望的,一旦它成熟,我們預計它將成為最好的基準。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

然而,通過戴爾的基準測試,我們可以清楚地看到,並非所有的神經網絡都具有CNN那樣的可擴展性。當您移動到GPU數量的四倍(並添加第二個CPU)時,ResNet CNN很容易翻兩番,而協作過濾方法只提供了50%的更高性能。

事實上,相當多的學術研究都圍繞著優化和適應CNNs展開,這樣它們就可以像處理RNNs一樣處理這些序列建模工作負載,從而可以替代伸縮性較差的RNNs。

英特爾對人工智能的看法

總的來說,英特爾有一個很好的觀點,即存在“廣泛的AI應用”,例如CNN之外的AI生活。在許多現實場景中,傳統的機器學習技術優於CNN,並非所有深度學習都是通過超可擴展的CNN完成的。在其他實際案例中,擁有大量RAM是另一個重要的性能優勢,無論是在訓練模型還是使用它來推斷新數據時。

因此,儘管英偉達在運行CNN方面具有巨大優勢,但高端Xeon 可以在數據分析市場中提供可靠的替代方案。可以肯定的是,沒有人希望新的Cascade Lake Xeon在CNN訓練中勝過英偉達 GPU,但在很多情況下,英特爾可能會說服客戶投資更強大的Xeon而不是昂貴的Tesla加速器:

  • 需要大量內存的人工智能模型的推理

  • 不需要長時間訓練的“輕型”人工智能模型批處理或流處理時間比模型培訓時間更重要的數據體系結構

  • 人工智能模型依賴於傳統的“非神經網絡”統計模型

因此,英特爾或許有機會將英偉達擋在門外,直到他們在CNN工作負載中為英偉達的GPU找到一個合理的替代方案。英特爾一直在為Xeons可伸縮系列產品瘋狂地添加功能,並優化其軟件堆棧,以對抗英偉達的人工智能霸主地位。優化的人工智能軟件,如英特爾自己的Python發行版,英特爾數學內核庫用於深度學習,甚至英特爾數據分析加速庫——主要用於傳統的機器學習……

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

總而言之,對於第二代英特爾至強可擴展處理器,該公司在深度學習(DL)Boost名稱下添加了新的AI硬件功能。這主要包括矢量神經網絡指令(VNNI)集,它可以在一個指令中執行之前需要三個指令。然而,即便更進一步,第三代Xeon可擴展處理器Cooper Lake將增加對bfloat16的支持,進一步提高培訓性能。

總之,英特爾試圖重新佔領“更輕的AI工作負載”市場,同時在數據分析市場的其他部分站穩腳跟,同時在其產品組合中添加非常專業的硬件(FPGA,ASIC)。這對英特爾在IT市場的競爭力至關重要。英特爾一再表示,數據中心集團(DCG)或“企業部分”預計將成為該公司未來幾年的主要增長引擎。

英偉達的答案

英偉達不止一次證明,它可以憑藉出色的願景和戰略戰勝競爭對手。英偉達明白將所有神經網絡擴展為CNN並不容易,並且有很多應用要麼運行在除神經網絡之外的其他方法上,要麼是內存密集型而不是計算密集型。

在GTC Europe,英偉達推出了一個新的數據科學平臺,供企業使用,該平臺建立在英偉達新的“RAPIDS”框架之上。基本思想是數據管道的GPU加速不應侷限於深度學習。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

例如,CuDF允許數據科學家將數據加載到GPU內存中並對其進行批處理,類似於Pandas(用於操作數據的python庫)。cuML是目前有限的GPU加速機器學習庫集合。最終,Scikit-Learn工具包中提供的大多數(全部?)機器學習算法應該是GPU加速的,並且可以在cuML中使用。

英偉達還添加了一個柱狀內存數據庫Apache Arrow。這是因為GPU在向量上運行,因此有利於內存中的柱狀佈局。

通過利用Apache arrow作為“中央數據庫”,英偉達避免了大量開銷。

確保存在典型Python庫(如Sci-Kit和Pandas)的GPU加速版本是朝著正確方向邁出的一步。但是Pandas僅適用於較輕的“數據科學探索”任務。通過與Databricks合作確保RAPIDS也用於重型,分佈式“數據處理”框架Spark,英偉達正在邁出下一步,突破“深度學習”角色,並向“NVIDIA”展開其餘部分數據管道。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

然而,細節決定成敗。將GPU添加到經過多年優化的框架中,以便最優地使用CPU內核和服務器中可用的大量RAM,這並不容易。Spark被構建為運行在幾十個強大的服務器內核上,而不是運行在數千個微不足道的GPU內核上。Spark已經過優化,可以在服務器節點集群上運行,使其看起來像是RAM內存和核心的一個大塊。混合兩種內存(RAM和GPU VRAM)並保持Spark的分佈式計算特性並不容易。

其次,挑選最適合GPU的機器學習算法是一回事,但確保它們在基於gpu的機器上運行良好是另一回事。最後,在可預見的將來,GPU的內存仍然少於CPU,即使是一致的平臺也不能解決系統RAM的速度只是局部VRAM速度的一小部分的問題。

誰將贏得下一個企業市場?

在最後一個投資者日,英偉達的一張PPT清楚地表明瞭企業領域的下一場戰鬥將是什麼:數據分析。請注意昂貴的雙Xeon“Skylake”Scalable如何被視為基線。這是一個相當的聲明; 將最新的英特爾動力系統之一降低到一個完全優秀的簡單基線。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

英偉達的整個商業模式圍繞著這樣一個理論:購買昂貴的硬件,如DGXs和特斯拉,對你的TCO有好處(“買得越多,省得越多”)。不要購買5000臺服務器,而是購買50臺DGX。儘管DGX消耗的功率增加了5倍,而且耗資12萬美元而不是9,000美元,但你的狀況會好得多。當然,這是最好的營銷方式,也可能是最差的營銷方式,這取決於你如何看待它。但即使這些數字略有誇大,這也是一個強有力的信息:“從我們的深度學習的大本營到英特爾當前的增長市場(推論、高性能計算和機器學習),我們將以巨大優勢擊敗英特爾。”

不相信嗎?這就是英偉達和IDC對市場演變的看法。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

目前,在總計1000億美元的市場中,計算密集型或高性能子市場約為370億美元。英偉達認為,這個子市場將在2023年翻一番,他們將能夠解決500億美元的問題。換句話說,從廣義上講,數據分析市場將幾乎佔整個服務器市場的一半。

即使這是一種高估,但很明顯,時代在變,而且風險非常高。神經網絡更適合GPU,但如果英特爾可以確保大多數數據管道在CPU上運行得更好,並且您只需要GPU用於最密集和可擴展的神經網絡,那麼它將使英偉達重新回到更適合的角色。另一方面,另一方面,如果英偉達能夠加速更大一部分數據傳輸,它將征服大部分屬於英特爾並迅速擴展的市場。在這場激烈的戰鬥中,IBM和AMD必須確保他們獲得市場份額。IBM將提供更好的基於英偉達 GPU的服務器,AMD將嘗試構建合適的軟件生態系統。

測試筆記

隨著市場的發展,很明顯,除了AMD和ARM之外,英偉達的專業產品對英特爾在數據中心及其他領域的主導地位構成了真正的威脅。因此,對於我們今天的測試,我們將專注於機器學習,並瞭解英特爾新推出的DL Boosted產品如何應對ML領域的競爭。

當然,在英特爾方面,我們正在關注該公司新的Cascade Lake Xeon可擴展CPU。該公司提供了28個核心型號中的兩個,其中包括165瓦Xeon Platinum8176,以及更快的205瓦Xeon Platinum8280。

用於與Cascade Lake的比較評測,我們使用了英偉達最新的“圖靈(Turing)”泰坦(Titan)RTX卡。雖然這些並不是真正的數據中心卡,但它們是基於Turing的,這意味著它們提供了英偉達最新的功能。在我工作的大學裡,我們的深度學習研究人員使用這些GPU來訓練人工智能模型,因為泰坦卡價格低廉,而且有大量GPU內存可用。

另外,Titan RTX卡可以同時用於訓練(混合FP32/16)作為推理(FP16和INT8)。目前的特斯拉仍然基於英偉達的Volta架構,該架構沒有可供推斷的INT8。

最後,不排除,我們也包括AMD的第一代EPYC平臺在我們所有的測試。AMD沒有像英特爾那樣的硬件策略,也沒有像VNNI那樣的具體指令,但最近該公司提供了各種各樣的驚喜。

測試基準配置和方法

我們所有的測試都是在Ubuntu Server18.04 LTS上進行的。您會注意到DRAM容量因我們的服務器配置而異。這當然是因為Xeons可以訪問六個內存通道,而EPYC CPU有八個通道。據我們所知,我們所有的測試都適合128GB,因此DRAM容量對性能影響不大。但它會對總能耗產生影響,我們將對此進行討論。

最後但並非最不重要的是,我們要注意性能圖表是如何進行顏色編碼的。Orange是AMD的EPYC,深藍色是Intel最好的(Cascade Lake / Skylake-SP),淺藍色是上一代Xeon(Xeon E5-v4)。Gray已被用於即將被替換的Xeon v1。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

我們啟用了超線程和英特爾虛擬化加速。

Xeon - NVIDIA Titan RTX工作站

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

這是測試中唯一具有獨立GPU的服務器。

AMD EPYC 7601 - (2U機箱)

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

其他說明

兩臺服務器均由標準的歐洲230V(最大16安培)電源線供電。我們的Airwell CRAC監測室溫並保持在23°C。

CPU性能

在我們進入新的AI基準測試之前,讓我們快速瞭解一下英特爾提供的常用CPU基準測試和性能聲明。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

為了進行比較,我們將重點關注第二排 - 第一排是將價格極為驚人的400W雙芯片英特爾鉑金9282與更合理的產品進行比較,並向所有人提供英特爾鉑金8180.第二行說明了所有內容:幾MHz與第一代Xeon可擴展部件相比,RAM速度稍高,可使性能提高3%(整數)至5%(FP)。浮點性能的更高提升可能是因為英特爾的第二代部件可以使用更快的DDR4-2933 DIMM,從而為內核提供更多帶寬。

中端SKU得到更大的推動,因為一些x2xx Xeon 可擴展部件比以前的x1xx部件獲得更多內核和更多L3緩存。例如,6252具有24個核心和35.75 MB L3,而6152具有22個核心和30.25 MB L3。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

然而,與AMD的EPYC 7601的比較值得我們關注,因為這裡有一些有趣的數據。再次,400W,$50k小芯片CPU與180W $4k芯片CPU的比較沒有任何意義,所以我們忽略了第一行。

Linpack數據並不令人驚訝:更昂貴的Skylake SKU為現有的雙256位FMAC增加了512位FMAC,提供的AVX吞吐量比AMD的EPYC高出4倍。由於每個FP單元現在能夠執行256位AVX而不是128位,因此AMD的下一代將在這一領域更具競爭力。

圖像分類結果清楚地表明,英特爾試圖讓人們相信某些AI應用程序應該只在CPU上運行,而不需要GPU。

英特爾聲稱數據庫性能比EPYC好得多,這一事實非常有趣,正如我們之前指出的,AMD的4個NUMA芯片確實有缺陷。引用我們的Xeon Skylake vs . EPYC的評論:

開箱即用,EPYC CPU是一個相當普通的事務數據庫CPU…事務數據庫目前仍將是Intel的領域。

在數據庫中,緩存(一致性)延遲起著重要作用。看看AMD在第二代EPYC服務器芯片上是如何解決這一弱點的,將是一件很有趣的事情。

SAP S&D

在我們開始使用數據分析ML基準之前的最後一站:SAP。企業資源規劃軟件是“傳統”企業軟件的完美典範。

SAP S&D 2-Tier基準測試可能是供應商完成的所有服務器基準測試中最真實的基準測試。它是一個完整的應用程序,生活在一個繁重的關係數據庫之上。

我們在之前的一篇文章中深入分析了SAP Benchmark :

  • 非常並行,具有良好的伸縮性

  • 低到中等IPC,主要是由於“分支”代碼

  • 受內存帶寬的限制

  • 喜歡大型緩存(內存延遲)

  • 同步(“緩存一致性”)延遲非常敏感

不同供應商提供了許多基準測試結果。為了獲得(或多或少)蘋果與蘋果的比較,我們僅限於在SQL Server 2012Enterprise上運行的“SAPS結果”。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

基於Xeon 8180和8280的服務器的富士通基準測試與我們可以獲得的一樣多:與測試和調優相同的人,相同的操作系統和數據庫。略高的時鐘(+ 200 Mhz,+ 8%)使性能提高3%。兩個CPU都有28個內核,但8280的時鐘速度提高了8%,從某種意義上說,這種時鐘速度的提升並沒有帶來更大的性能提升,這令人驚訝。我們得到的結論是,Cascade Lake的時鐘頻率可能比Skylake略慢,因為兩個SPEC CPU基準測試也只增加了3%到5%。

因此,在典型的企業堆棧中,您需要在相同的價格/能耗下獲得約3%的性能提升。然而,AMD便宜得多(編輯:很快就會更新)$ 4k EPYC 7601並沒有那麼落後。考慮到EPYC已經在昂貴的兩倍8176(2.1 GHz,28個核心)的誤差範圍內,8276具有稍高的時鐘速度(2.2 Ghz)並不會顯著改善問題。即使是Xeon 8164(26 GHz,2 GHz)也能提供與EPYC 7601 大致相同的性能,但仍然要高出 50%。

考慮到AMD在Zen 2架構方面取得了多大進展,以及頂級SKU將內核數量增加一倍(64比32),看起來AMD羅馬將對Xeon銷售施加更大壓力。

Apache Spark 2.1基準測試

Apache Spark是大數據處理的典範。加速大數據應用程序是我工作的大學實驗室(西佛蘭德大學學院的Sizing Servers Lab)的首要項目,因此我們製作了一個基準,它使用了許多Spark功能並基於實際使用情況。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

該測試在上圖中描述。我們首先從從CommonCrawl收集的300 GB壓縮數據開始。這些壓縮文件是大量的Web存檔。我們在運行中解壓縮數據以避免長時間的等待,這主要與存儲相關。然後,我們使用Java庫“BoilerPipe”從存檔中提取有意義的文本數據。使用Stanford CoreNLP自然語言處理工具包,我們從文本中提取實體(“含義詞”),然後計算這些實體中出現次數最多的URL。然後使用交替最小二乘算法來推薦哪些URL對於某個主題最有趣。

我們將最新的服務器轉換為虛擬集群,以更好地利用所有這些核心。我們運行8個執行器。研究員Esli Heyvaert也升級了我們的Spark基準測試,因此它可以在Apache Spark 2.1.1上運行。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

結果如下:

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

我們的Spark基準測試需要大約120 GB的RAM才能運行。在存儲I / O上花費的時間可以忽略不計。數據處理非常平行,但是混洗階段需要大量的內存交互。ALS階段在許多線程上的擴展性不佳,但不到總測試時間的4%。

由於我們不知道的原因,我們可以讓我們的2.7 GHz 8280比2.1 GHz Xeon 8176 表現更好。我們懷疑我們使用新的Xeon芯片與舊的(Skylake-SP)服務器的事實可能是原因,嘗試不同的Spark配置(執行程序,JVM設置)沒有幫助。BIOS更新對我們也沒有幫助。

好吧,這是大數據處理與大多數“傳統”機器學習相結合:NER和ALS。一些“深度學習”怎麼樣?

卷積神經網絡訓練

很長一段時間,CNN的前進方向是增加層數 - 增加“更深入學習”的網絡深度。正如你可能猜到的那樣,這導致收益遞減,並使已經很複雜的神經網絡更難調整,導致更多的訓練錯誤。

所述RESNET-50基準是基於剩餘網絡(因此RESNET),其具有更少的訓練誤差的優點作為網絡變得更深。

同時,作為一些內部管家,對於普通讀者,我會注意到下面的基準與Nate為我們的Titan V評論所進行的測試不能直接比較。它是相同的基準,但Nate運行了英偉達的Caffe2 Docker映像中包含的標準ResNet-50培訓實現。但是,由於我的團隊主要使用TensorFlow作為深度學習框架,我們傾向於堅持使用它。所有基準測試

tf_cnn_benchmarks.py --num_gpus = 1 --model =resnet50 --variable_update = parameter_server

該模型在ImageNet上訓練併為我們提供吞吐量數據。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

缺少幾個基準,這是有充分理由的。在Titan RTX上以FP32精度運行批量大小為512個訓練樣本會導致“內存不足”錯誤,因為該卡“僅”具有24 GB可用空間。

同時在Intel CPU上,半精度(FP16)尚不可用。AVX512 _ BF16(bfloat16)將在Cascade Lake的繼任者Cooper Lake中推出。

已經觀察到,使用較大批次可以導致模型質量的顯著降低,如通過其概括的能力所測量的。因此,雖然較大的批量大小(512)可以更好地利用GPU內部的大規模並行性,但批量較小(128)的結果也很有用。該模型的準確性僅損失了幾個百分點,但在許多應用中,甚至幾個百分點的損失都很重要。

因此,儘管您可以很快得出結論,Titan RTX的速度比最佳CPU快7倍,但根據您想要的精度,它可以更準確地說它的速度提高了4.5到7倍。

循環神經網絡:LSTM

我們的忠實讀者知道我們喜歡現實世界的企業基準。因此,在我們尋求更好的基準和更好的數據的過程中,MCT IT學士 (荷蘭語)的研究負責人Pieter Bovijn 將現實世界的AI模型轉變為基準。

模型的輸入是時間序列數據,用於預測時間序列在未來的行為方式。由於這是典型的序列預測問題,我們使用長短期記憶(LSTM)網絡作為神經網絡。作為一種RNN,LSTM在一定的持續時間內選擇性地“記住”模式。

然而,LSTM的缺點是它們的帶寬密集程度更高。我們引用最近一篇關於該主題的論文:

由於冗餘數據移動和有限的片外帶寬,LSTM在移動GPU上執行時表現出非常低效的存儲器訪問模式。

所以我們對LSTM網絡的表現非常好奇。畢竟,我們的服務器Xeons擁有足夠的帶寬,擁有38.5 MB的L3和6個DDR4-2666 / 2933通道(每個插槽128-141 GB / s)。我們使用50 GB的數據運行此測試,並將模型訓練5個時期。

當然,您可以充分利用可用的AVX / AVX2 /AVX512 SIMD電源。這就是我們使用3種不同設置進行測試的原因

1. 我們開箱即用TensorFlow與conda

2. 我們使用PyPi repo的Intel優化TensorFlow進行了測試

3. 我們使用Bazel 從源代碼優化 。這使我們可以使用最新版本的TensorFlow。

結果非常有趣。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

最密集的TensorFlow應用程序通常在GPU上運行,因此在CPU上進行測試時必須格外小心。AMD的Zen核心只有兩個128位FMAC,並且僅限於(256位)AVX2。英特爾的高端Xeon處理器 有兩個256位FMACs和一個512位FMAC。換句話說,在紙面上,英特爾的至強可以在每個時鐘週期內提供比AMD高四倍的FLOP。但只有軟件是正確的。英特爾一直與谷歌密切合作,為英特爾新Xeon優化TensorFlow出於必要:它必須在英偉達 Tesla太昂貴的情況下提供可靠的替代方案。與此同時,AMD希望ROCm能夠繼續發展,未來軟件工程師將在Radeon Pro上運行TensorFlow。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

當然,最大的問題是這與GPU相比如何。讓我們看看我們的英偉達 Titan RTX如何處理這種工作量。

首先,我們注意到FP16沒有太大的區別。其次,我們非常驚訝我們的Titan RTX比我們的雙Xeon設置快了不到3倍。

通過英偉達的系統管理接口(SMI)進一步調查,我們發現GPU確實以最高的渦輪速度運行:1.9 GHz,高於預期的1.775 GHz。同時利用率不時降至40%。

最後,這是另一個示例,說明實際應用程序的行為與基準測試的不同,以及軟件優化的重要性。如果我們剛剛使用了conda,上面的結果將會非常不同。使用正確的優化軟件使應用程序運行速度提高了2到6倍。此外,這另一個數據點證明CNN可能是GPU的最佳用例之一。您應該使用GPU來減少複雜LSTM的訓練時間。不過,這種神經網絡有點棘手 - 你不能簡單地添加更多的GPU來進一步減少訓練時間。

推論:ResNet-50

在根據訓練數據訓練您的模型之後,等待真正的測試。你的人工智能模型現在應該能夠將這些知識應用到現實世界中,並對新的現實數據做同樣的事情。這個過程叫做推理。推理不需要反向傳播,因為模型已經經過訓練——模型已經確定了權重。推理還可以利用較低的數值精度,並已證明,即使使用8位整數的精度有時是可以接受的。

從高級工作流執行的角度來看,一個工作的AI模型基本上是由一個服務控制的,而這個服務又是由另一個軟件服務調用的。因此模型應該響應非常快,但是應用程序的總延遲將由不同的服務決定。長話短說:如果推斷性能足夠高,感知到的延遲可能會轉移到另一個軟件組件。因此,Intel的任務是確保Xeons能夠提供足夠高的推理性能。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

由於DL Boost技術,英特爾有一個特殊的“祕訣”,可以在Cascade Lake上達到最佳推理性能。DLBoost包含矢量神經網絡指令,允許使用INT8操作代替FP32。整數運算本質上更快,並且通過僅使用8位,您獲得理論峰值,這是高四倍。

更復雜的是,當我們的Cascade Lake服務器崩潰時,我們正在嘗試推理。對於它的價值,我們從未達到每秒超過2000張圖像。但由於我們無法進一步實驗,我們給了英特爾懷疑的好處並使用了他們的數字。

與此同時,9282的出版引起了不小的轟動,因為英特爾聲稱最新的Xeons比英偉達的旗艦加速器(特斯拉V100)略勝一籌:7844比7636每秒的圖像。英偉達通過強調性能/瓦特/美元立即作出反應,並在報刊上獲得了大量報道。然而,我們拙見的最重要的一點是,特斯拉V100的結果無法比擬,因為每秒7600張圖像是在混合模式(FP32 / 16)而非INT8中獲得的。

一旦我們啟用INT8,2500美元的Titan RTX速度不會低於一對價值10萬 美元的Xeon 8280。

英特爾無法贏得這場戰鬥,而不是一蹴而就。儘管如此,英特爾的努力以及NIVIDA的迴應表明英特爾在提高推理和培訓績效方面的重要性。說服人們投資高端 Xeon而不是使用特斯拉V100的低端Xeon。在某些情況下,由於推理軟件組件只是軟件堆棧的一部分,因此比英偉達的產品慢3倍。

事實上,要真正分析所有角度的情況,我們還應該測量完整的AI應用程序的延遲,而不僅僅是測量推理吞吐量。但是,這將花費我們更多的時間來使這一個正確......

探索並行HPC

與服務器軟件基準測試一樣,HPC基準測試需要大量研究。我們絕對不是HPC專家,所以我們將自己限制在一個HPC基準測試中。

NAMD由伊利諾伊大學厄巴納 - 香檳分校的理論和計算生物物理學小組開發,是一套用於數千個核心極端並行化的並行分子動力學代碼。NAMD也是SPEC CPU2006 FP的一部分。

公平地說,NAMD主要是單精度。而且,正如您可能知道的那樣,Titan RTX旨在擅長單精度工作負載; 所以NAMD基準測試與Titan RTX非常匹配。特別是現在NAMD的作者揭示了:

在Pascal(P100)或更新的支持CUDA的GPU上運行時,性能顯著提高。

不過,這是一個有趣的基準,因為NAMD二進制文件是使用英特爾ICC編譯的,並針對AVX進行了優化。對於我們的測試,我們使用了“ NAMD _2.13_ Linux-x86 _ 64-multicore ”二進制文件。這個二進制文件支持AVX指令,但只支持Intel Xeon Phi 的“特殊” AVX-512指令。因此,我們還編譯了一個AVX-512 ICC優化二進制文件。這樣我們就能真正衡量AVX-512的運算能力。Xeon與英偉達的GPU加速相比。

我們使用了最流行的基準負載apoa1(載脂蛋白 A1)。結果以每個掛鐘日的模擬納秒錶示。我們測量500步。

"

很多內行會覺得將英特爾(Intel) Cascade Lake與英偉達(Nvidia) 的圖靈(Turing)放在一起比較不太合適,乍一看,硬件選擇看起來很簡單:Intel Xeon CPU為通用處理器,用於存儲和預處理數據,英偉達 GPU更多用於AI。事實上,這在過去幾年中已成為現實。然而,英偉達的競爭對手一直沒有袖手旁觀 - 尤其是英特爾。從專用的低功耗推理處理器到專用優化的Xeon,英特爾正在瞄準AI市場的各個層面。最終的結果是,在所有這些競爭對手之間,我們看到人工智能從許多不同的方向解決,人工智能時代的硬件爭奪是非常有趣的。

今天我們來看看英特爾的第二代Xeon可擴展處理器,即“Cascade Lake”,它可能是英特爾在AI領域硬件的核心。今年早些時候推出的這些新處理器仍然基於與第一代產品相同的核心Skylake架構,但採用了許多新指令來加速AI性能。

就新技術而言,這肯定是Cascade Lake最有趣的方面。雖然我們可以談論一般CPU性能提升3%到6%,英特爾最昂貴處理器的56核,以及“世界紀錄基準”, 但這些小的改進對於IT世界近期和中期的未來幾乎是無關緊要的。看看英特爾新聞與分析師簡報的第一張PPT就知道了。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

物聯網、數據工程和人工智能。這將是增長、創新和未來的主要領域。這就是英特爾的目標。目前,英偉達在這個市場上領域——深度學習和“大規模並行高性能計算”軟件——幾乎處於壟斷地位。由於硬件和軟件方面的一系列因素,大多數軟件都運行在英偉達GPU和集群上。因此,對於普通大眾來說,英偉達似乎擁有“人工智能市場”,這一圖景並不準確,但也不完整。人工智能市場不僅僅是神經網絡推理,特別是,所有為人工智能模型提供數據的事情都很少受到關注。因此,神經網絡和他的終結者機器人佔據了所有的頭條,儘管它們只是圖片的一部分。實際上,AI應用程序的處理網絡更類似於下圖。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

簡而言之,實際的機器學習代碼執行只是構建和AI應用程序所需的軟件工具的一小部分。為什麼?讓我們深入研究一下。

人工智能不僅僅是深度學習

在高層次上,雖然深度學習是人工智能的一種形式,但反過來並不總是正確的,實現AI的應用程序不一定要使用深度學習。許多人工智能應用程序使用“傳統統計”或“傳統”機器學習。畢竟,支持向量機、邏輯迴歸、K-nearest、Naive Bayes和決策樹在自動進行信息分類時仍然非常有用,尤其是在沒有大量數據的情況下。

例如,在自然語言處理中使用條件隨機域(CRF),許多推薦引擎都是基於玻爾茲曼機、交替最小二乘(ALS)等。舉個例子:我們的“大數據”基準測試是最苛刻、最獨特的基準測試之一,它使用ALS算法作為推薦引擎(“協同過濾”)。

當然,神經網絡的應用——它本身就是一個完整的研究領域——正在蓬勃發展,它們的應用往往主導著最新的人工智能應用。神經網絡也是要求最高的工作負載之一,需要大量的處理能力。所有這些都與邏輯迴歸(logistic regression)形成了鮮明對比,後者仍然是最常用的機器學習方法,而且恰好需要更少的處理。

儘管如此,儘管神經網絡是人工智能技術中處理最密集的技術(尤其是具有大量層的技術),但有幾種傳統的機器學習技術也需要大量的處理能力。例如,支持向量機及其複雜的轉換也往往需要大量的計算時間。在我們的Spark測試中,斯坦福大學的NER系統是基於一個有監督的CRF模型,使用標記的英語數據集合。在測試中,它必須處理大量的高達幾百GB的非結構化文本數據。

反過來,處理能力要求的這些差異的原因實際上非常簡單。引用AI專家Wouter Gevaert的表述:

"神經網絡中的每個神經元都可以被視為邏輯迴歸單元。因此,神經網絡就像大量的邏輯迴歸" (當你使用sigmoid作為激活函數時)

然而,儘管神經網絡是人工智能技術中最需要處理的技術(尤其是具有大量層次的人工智能技術),有幾種傳統的機器學習技術也需要大量的處理能力。例如,支持向量機及其複雜的轉換也往往需要大量的計算時間。在我們的Spark測試中,斯坦福大學的NER系統是基於一個有監督的CRF模型,使用標記的英語數據集合。在測試中,它必須處理幾百GB的大量的非結構化文本。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

當然,大多數分析查詢仍然使用舊的SQL編寫。對於結構化和半結構化數據,對於OLAP多維數據集等,SQL代碼仍然很普遍。由於單個SQL查詢遠不及神經網絡那麼平行 - 在許多情況下它們是100%順序的 - CPU是這項工作的最佳工具。

因此,在實踐中,大多數數據(預處理)和許多人工智能軟件仍然運行在CPU上。GPU主要運行大規模並行的HPC應用程序和神經網絡,這無疑是一個重要的市場,但仍然只是更大的人工智能市場的一部分。這也是為什麼英偉達去年的數據中心收入為30億美元,而英特爾的數據中心收入為200億美元。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

然而,使整個情況更加複雜的不僅僅是隻看收入,還要看增長。在數據中心市場,英偉達一直在大幅增長,而英特爾只實現了個位數的增長。隨著新技術的出現,客戶的需求也在不斷變化;對數據分析市場的爭奪已經開始,而且正在加劇。

卷積,循環和可擴展性:尋求平衡

儘管英特爾Xeon Phi協處理器(Xeon Phi協處理器)作為加速器在市場上失敗了,而且已經停產,但英特爾並沒有放棄這個概念。該公司仍希望在人工智能市場佔據更大的份額,包括原本可能進入英偉達的份額。

Naveen提出了一個重點。因為雖然英偉達從未聲稱他們為所有類型的AI提供最好的硬件,但從表面上看整個行業新聞稿中引用最多的基準(ResNet,Inception等),你幾乎可以相信只有一種類型的AI事項。卷積神經網絡(CNN或ConvNets)在基準測試和產品演示中佔據主導地位,因為它們是分析圖像和視頻的最流行的技術。任何可以表示為“2D輸入”的東西都是這些流行神經網絡的輸入層的潛在候選者。

近年來,CNN取得了一些最引人注目的突破。例如,ResNet性能如此受歡迎並不是錯誤的。相關的ImageNet數據庫是斯坦福大學和普林斯頓大學之間的合作,包含了1400萬張圖像。直到最近十年,AI在識別這些圖像方面的表現非常差。美國有線電視新聞網(CNN)以快速的順序改變了這一點,從那以後它一直是最受歡迎的人工智能挑戰之一,因為公司希望能夠比以往更快,更準確地對這個數據庫進行分類。

早在2012年,AlexNet,一個相對簡單的神經網絡,在ImageNet分類競賽中取得了比傳統機器學習技術更好的準確率。在那次測試中,它達到了85%的準確率,幾乎是傳統方法73%準確率的一半。

在2015年,著名的Inception V3在對圖片進行分類時達到了3.58%的錯誤率,這與人類相似(甚至略好於人類)。ImageNet的挑戰變得更加困難,但是由於剩餘的學習,即使不增加層數,CNN也變得更好。這導致了著名的“ResNet”CNN,現在最流行的人工智能基準之一。長話短說,CNNs是人工智能領域的明星。到目前為止,他們得到了最多的關注、測試和研究。

CNN也具有很高的可擴展性:在降低網絡培訓時間時,增加更多GPU(幾乎)線性擴展。

坦率地說,CNN是上天送給英偉達的禮物。這是人們購買昂貴的英偉達 DGX服務器(40萬美元)或購買多臺特斯拉GPU (7k+美元)最常見的原因。

儘管如此,人工智能還有比CNN更多的東西。例如,遞歸神經網絡在語音識別、語言翻譯和時間序列方面也很受歡迎。

這就是MLperf基準計劃如此重要的原因。這是我們第一次獲得CNN未完全統治的基準。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

快速瀏覽一下MLperf,圖像和對象分類基準當然是CNN,但也表示了RNN(通過神經機器翻譯)和協同過濾。同時,甚至推薦引擎測試也基於神經網絡; 從技術上講,不包括“傳統的”機器學習測試,這是不幸的。但由於這是0.5版本並且該組織正在邀請更多反饋,它肯定是有希望的,一旦它成熟,我們預計它將成為最好的基準。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

然而,通過戴爾的基準測試,我們可以清楚地看到,並非所有的神經網絡都具有CNN那樣的可擴展性。當您移動到GPU數量的四倍(並添加第二個CPU)時,ResNet CNN很容易翻兩番,而協作過濾方法只提供了50%的更高性能。

事實上,相當多的學術研究都圍繞著優化和適應CNNs展開,這樣它們就可以像處理RNNs一樣處理這些序列建模工作負載,從而可以替代伸縮性較差的RNNs。

英特爾對人工智能的看法

總的來說,英特爾有一個很好的觀點,即存在“廣泛的AI應用”,例如CNN之外的AI生活。在許多現實場景中,傳統的機器學習技術優於CNN,並非所有深度學習都是通過超可擴展的CNN完成的。在其他實際案例中,擁有大量RAM是另一個重要的性能優勢,無論是在訓練模型還是使用它來推斷新數據時。

因此,儘管英偉達在運行CNN方面具有巨大優勢,但高端Xeon 可以在數據分析市場中提供可靠的替代方案。可以肯定的是,沒有人希望新的Cascade Lake Xeon在CNN訓練中勝過英偉達 GPU,但在很多情況下,英特爾可能會說服客戶投資更強大的Xeon而不是昂貴的Tesla加速器:

  • 需要大量內存的人工智能模型的推理

  • 不需要長時間訓練的“輕型”人工智能模型批處理或流處理時間比模型培訓時間更重要的數據體系結構

  • 人工智能模型依賴於傳統的“非神經網絡”統計模型

因此,英特爾或許有機會將英偉達擋在門外,直到他們在CNN工作負載中為英偉達的GPU找到一個合理的替代方案。英特爾一直在為Xeons可伸縮系列產品瘋狂地添加功能,並優化其軟件堆棧,以對抗英偉達的人工智能霸主地位。優化的人工智能軟件,如英特爾自己的Python發行版,英特爾數學內核庫用於深度學習,甚至英特爾數據分析加速庫——主要用於傳統的機器學習……

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

總而言之,對於第二代英特爾至強可擴展處理器,該公司在深度學習(DL)Boost名稱下添加了新的AI硬件功能。這主要包括矢量神經網絡指令(VNNI)集,它可以在一個指令中執行之前需要三個指令。然而,即便更進一步,第三代Xeon可擴展處理器Cooper Lake將增加對bfloat16的支持,進一步提高培訓性能。

總之,英特爾試圖重新佔領“更輕的AI工作負載”市場,同時在數據分析市場的其他部分站穩腳跟,同時在其產品組合中添加非常專業的硬件(FPGA,ASIC)。這對英特爾在IT市場的競爭力至關重要。英特爾一再表示,數據中心集團(DCG)或“企業部分”預計將成為該公司未來幾年的主要增長引擎。

英偉達的答案

英偉達不止一次證明,它可以憑藉出色的願景和戰略戰勝競爭對手。英偉達明白將所有神經網絡擴展為CNN並不容易,並且有很多應用要麼運行在除神經網絡之外的其他方法上,要麼是內存密集型而不是計算密集型。

在GTC Europe,英偉達推出了一個新的數據科學平臺,供企業使用,該平臺建立在英偉達新的“RAPIDS”框架之上。基本思想是數據管道的GPU加速不應侷限於深度學習。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

例如,CuDF允許數據科學家將數據加載到GPU內存中並對其進行批處理,類似於Pandas(用於操作數據的python庫)。cuML是目前有限的GPU加速機器學習庫集合。最終,Scikit-Learn工具包中提供的大多數(全部?)機器學習算法應該是GPU加速的,並且可以在cuML中使用。

英偉達還添加了一個柱狀內存數據庫Apache Arrow。這是因為GPU在向量上運行,因此有利於內存中的柱狀佈局。

通過利用Apache arrow作為“中央數據庫”,英偉達避免了大量開銷。

確保存在典型Python庫(如Sci-Kit和Pandas)的GPU加速版本是朝著正確方向邁出的一步。但是Pandas僅適用於較輕的“數據科學探索”任務。通過與Databricks合作確保RAPIDS也用於重型,分佈式“數據處理”框架Spark,英偉達正在邁出下一步,突破“深度學習”角色,並向“NVIDIA”展開其餘部分數據管道。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

然而,細節決定成敗。將GPU添加到經過多年優化的框架中,以便最優地使用CPU內核和服務器中可用的大量RAM,這並不容易。Spark被構建為運行在幾十個強大的服務器內核上,而不是運行在數千個微不足道的GPU內核上。Spark已經過優化,可以在服務器節點集群上運行,使其看起來像是RAM內存和核心的一個大塊。混合兩種內存(RAM和GPU VRAM)並保持Spark的分佈式計算特性並不容易。

其次,挑選最適合GPU的機器學習算法是一回事,但確保它們在基於gpu的機器上運行良好是另一回事。最後,在可預見的將來,GPU的內存仍然少於CPU,即使是一致的平臺也不能解決系統RAM的速度只是局部VRAM速度的一小部分的問題。

誰將贏得下一個企業市場?

在最後一個投資者日,英偉達的一張PPT清楚地表明瞭企業領域的下一場戰鬥將是什麼:數據分析。請注意昂貴的雙Xeon“Skylake”Scalable如何被視為基線。這是一個相當的聲明; 將最新的英特爾動力系統之一降低到一個完全優秀的簡單基線。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

英偉達的整個商業模式圍繞著這樣一個理論:購買昂貴的硬件,如DGXs和特斯拉,對你的TCO有好處(“買得越多,省得越多”)。不要購買5000臺服務器,而是購買50臺DGX。儘管DGX消耗的功率增加了5倍,而且耗資12萬美元而不是9,000美元,但你的狀況會好得多。當然,這是最好的營銷方式,也可能是最差的營銷方式,這取決於你如何看待它。但即使這些數字略有誇大,這也是一個強有力的信息:“從我們的深度學習的大本營到英特爾當前的增長市場(推論、高性能計算和機器學習),我們將以巨大優勢擊敗英特爾。”

不相信嗎?這就是英偉達和IDC對市場演變的看法。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

目前,在總計1000億美元的市場中,計算密集型或高性能子市場約為370億美元。英偉達認為,這個子市場將在2023年翻一番,他們將能夠解決500億美元的問題。換句話說,從廣義上講,數據分析市場將幾乎佔整個服務器市場的一半。

即使這是一種高估,但很明顯,時代在變,而且風險非常高。神經網絡更適合GPU,但如果英特爾可以確保大多數數據管道在CPU上運行得更好,並且您只需要GPU用於最密集和可擴展的神經網絡,那麼它將使英偉達重新回到更適合的角色。另一方面,另一方面,如果英偉達能夠加速更大一部分數據傳輸,它將征服大部分屬於英特爾並迅速擴展的市場。在這場激烈的戰鬥中,IBM和AMD必須確保他們獲得市場份額。IBM將提供更好的基於英偉達 GPU的服務器,AMD將嘗試構建合適的軟件生態系統。

測試筆記

隨著市場的發展,很明顯,除了AMD和ARM之外,英偉達的專業產品對英特爾在數據中心及其他領域的主導地位構成了真正的威脅。因此,對於我們今天的測試,我們將專注於機器學習,並瞭解英特爾新推出的DL Boosted產品如何應對ML領域的競爭。

當然,在英特爾方面,我們正在關注該公司新的Cascade Lake Xeon可擴展CPU。該公司提供了28個核心型號中的兩個,其中包括165瓦Xeon Platinum8176,以及更快的205瓦Xeon Platinum8280。

用於與Cascade Lake的比較評測,我們使用了英偉達最新的“圖靈(Turing)”泰坦(Titan)RTX卡。雖然這些並不是真正的數據中心卡,但它們是基於Turing的,這意味著它們提供了英偉達最新的功能。在我工作的大學裡,我們的深度學習研究人員使用這些GPU來訓練人工智能模型,因為泰坦卡價格低廉,而且有大量GPU內存可用。

另外,Titan RTX卡可以同時用於訓練(混合FP32/16)作為推理(FP16和INT8)。目前的特斯拉仍然基於英偉達的Volta架構,該架構沒有可供推斷的INT8。

最後,不排除,我們也包括AMD的第一代EPYC平臺在我們所有的測試。AMD沒有像英特爾那樣的硬件策略,也沒有像VNNI那樣的具體指令,但最近該公司提供了各種各樣的驚喜。

測試基準配置和方法

我們所有的測試都是在Ubuntu Server18.04 LTS上進行的。您會注意到DRAM容量因我們的服務器配置而異。這當然是因為Xeons可以訪問六個內存通道,而EPYC CPU有八個通道。據我們所知,我們所有的測試都適合128GB,因此DRAM容量對性能影響不大。但它會對總能耗產生影響,我們將對此進行討論。

最後但並非最不重要的是,我們要注意性能圖表是如何進行顏色編碼的。Orange是AMD的EPYC,深藍色是Intel最好的(Cascade Lake / Skylake-SP),淺藍色是上一代Xeon(Xeon E5-v4)。Gray已被用於即將被替換的Xeon v1。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

我們啟用了超線程和英特爾虛擬化加速。

Xeon - NVIDIA Titan RTX工作站

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

這是測試中唯一具有獨立GPU的服務器。

AMD EPYC 7601 - (2U機箱)

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

其他說明

兩臺服務器均由標準的歐洲230V(最大16安培)電源線供電。我們的Airwell CRAC監測室溫並保持在23°C。

CPU性能

在我們進入新的AI基準測試之前,讓我們快速瞭解一下英特爾提供的常用CPU基準測試和性能聲明。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

為了進行比較,我們將重點關注第二排 - 第一排是將價格極為驚人的400W雙芯片英特爾鉑金9282與更合理的產品進行比較,並向所有人提供英特爾鉑金8180.第二行說明了所有內容:幾MHz與第一代Xeon可擴展部件相比,RAM速度稍高,可使性能提高3%(整數)至5%(FP)。浮點性能的更高提升可能是因為英特爾的第二代部件可以使用更快的DDR4-2933 DIMM,從而為內核提供更多帶寬。

中端SKU得到更大的推動,因為一些x2xx Xeon 可擴展部件比以前的x1xx部件獲得更多內核和更多L3緩存。例如,6252具有24個核心和35.75 MB L3,而6152具有22個核心和30.25 MB L3。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

然而,與AMD的EPYC 7601的比較值得我們關注,因為這裡有一些有趣的數據。再次,400W,$50k小芯片CPU與180W $4k芯片CPU的比較沒有任何意義,所以我們忽略了第一行。

Linpack數據並不令人驚訝:更昂貴的Skylake SKU為現有的雙256位FMAC增加了512位FMAC,提供的AVX吞吐量比AMD的EPYC高出4倍。由於每個FP單元現在能夠執行256位AVX而不是128位,因此AMD的下一代將在這一領域更具競爭力。

圖像分類結果清楚地表明,英特爾試圖讓人們相信某些AI應用程序應該只在CPU上運行,而不需要GPU。

英特爾聲稱數據庫性能比EPYC好得多,這一事實非常有趣,正如我們之前指出的,AMD的4個NUMA芯片確實有缺陷。引用我們的Xeon Skylake vs . EPYC的評論:

開箱即用,EPYC CPU是一個相當普通的事務數據庫CPU…事務數據庫目前仍將是Intel的領域。

在數據庫中,緩存(一致性)延遲起著重要作用。看看AMD在第二代EPYC服務器芯片上是如何解決這一弱點的,將是一件很有趣的事情。

SAP S&D

在我們開始使用數據分析ML基準之前的最後一站:SAP。企業資源規劃軟件是“傳統”企業軟件的完美典範。

SAP S&D 2-Tier基準測試可能是供應商完成的所有服務器基準測試中最真實的基準測試。它是一個完整的應用程序,生活在一個繁重的關係數據庫之上。

我們在之前的一篇文章中深入分析了SAP Benchmark :

  • 非常並行,具有良好的伸縮性

  • 低到中等IPC,主要是由於“分支”代碼

  • 受內存帶寬的限制

  • 喜歡大型緩存(內存延遲)

  • 同步(“緩存一致性”)延遲非常敏感

不同供應商提供了許多基準測試結果。為了獲得(或多或少)蘋果與蘋果的比較,我們僅限於在SQL Server 2012Enterprise上運行的“SAPS結果”。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

基於Xeon 8180和8280的服務器的富士通基準測試與我們可以獲得的一樣多:與測試和調優相同的人,相同的操作系統和數據庫。略高的時鐘(+ 200 Mhz,+ 8%)使性能提高3%。兩個CPU都有28個內核,但8280的時鐘速度提高了8%,從某種意義上說,這種時鐘速度的提升並沒有帶來更大的性能提升,這令人驚訝。我們得到的結論是,Cascade Lake的時鐘頻率可能比Skylake略慢,因為兩個SPEC CPU基準測試也只增加了3%到5%。

因此,在典型的企業堆棧中,您需要在相同的價格/能耗下獲得約3%的性能提升。然而,AMD便宜得多(編輯:很快就會更新)$ 4k EPYC 7601並沒有那麼落後。考慮到EPYC已經在昂貴的兩倍8176(2.1 GHz,28個核心)的誤差範圍內,8276具有稍高的時鐘速度(2.2 Ghz)並不會顯著改善問題。即使是Xeon 8164(26 GHz,2 GHz)也能提供與EPYC 7601 大致相同的性能,但仍然要高出 50%。

考慮到AMD在Zen 2架構方面取得了多大進展,以及頂級SKU將內核數量增加一倍(64比32),看起來AMD羅馬將對Xeon銷售施加更大壓力。

Apache Spark 2.1基準測試

Apache Spark是大數據處理的典範。加速大數據應用程序是我工作的大學實驗室(西佛蘭德大學學院的Sizing Servers Lab)的首要項目,因此我們製作了一個基準,它使用了許多Spark功能並基於實際使用情況。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

該測試在上圖中描述。我們首先從從CommonCrawl收集的300 GB壓縮數據開始。這些壓縮文件是大量的Web存檔。我們在運行中解壓縮數據以避免長時間的等待,這主要與存儲相關。然後,我們使用Java庫“BoilerPipe”從存檔中提取有意義的文本數據。使用Stanford CoreNLP自然語言處理工具包,我們從文本中提取實體(“含義詞”),然後計算這些實體中出現次數最多的URL。然後使用交替最小二乘算法來推薦哪些URL對於某個主題最有趣。

我們將最新的服務器轉換為虛擬集群,以更好地利用所有這些核心。我們運行8個執行器。研究員Esli Heyvaert也升級了我們的Spark基準測試,因此它可以在Apache Spark 2.1.1上運行。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

結果如下:

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

我們的Spark基準測試需要大約120 GB的RAM才能運行。在存儲I / O上花費的時間可以忽略不計。數據處理非常平行,但是混洗階段需要大量的內存交互。ALS階段在許多線程上的擴展性不佳,但不到總測試時間的4%。

由於我們不知道的原因,我們可以讓我們的2.7 GHz 8280比2.1 GHz Xeon 8176 表現更好。我們懷疑我們使用新的Xeon芯片與舊的(Skylake-SP)服務器的事實可能是原因,嘗試不同的Spark配置(執行程序,JVM設置)沒有幫助。BIOS更新對我們也沒有幫助。

好吧,這是大數據處理與大多數“傳統”機器學習相結合:NER和ALS。一些“深度學習”怎麼樣?

卷積神經網絡訓練

很長一段時間,CNN的前進方向是增加層數 - 增加“更深入學習”的網絡深度。正如你可能猜到的那樣,這導致收益遞減,並使已經很複雜的神經網絡更難調整,導致更多的訓練錯誤。

所述RESNET-50基準是基於剩餘網絡(因此RESNET),其具有更少的訓練誤差的優點作為網絡變得更深。

同時,作為一些內部管家,對於普通讀者,我會注意到下面的基準與Nate為我們的Titan V評論所進行的測試不能直接比較。它是相同的基準,但Nate運行了英偉達的Caffe2 Docker映像中包含的標準ResNet-50培訓實現。但是,由於我的團隊主要使用TensorFlow作為深度學習框架,我們傾向於堅持使用它。所有基準測試

tf_cnn_benchmarks.py --num_gpus = 1 --model =resnet50 --variable_update = parameter_server

該模型在ImageNet上訓練併為我們提供吞吐量數據。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

缺少幾個基準,這是有充分理由的。在Titan RTX上以FP32精度運行批量大小為512個訓練樣本會導致“內存不足”錯誤,因為該卡“僅”具有24 GB可用空間。

同時在Intel CPU上,半精度(FP16)尚不可用。AVX512 _ BF16(bfloat16)將在Cascade Lake的繼任者Cooper Lake中推出。

已經觀察到,使用較大批次可以導致模型質量的顯著降低,如通過其概括的能力所測量的。因此,雖然較大的批量大小(512)可以更好地利用GPU內部的大規模並行性,但批量較小(128)的結果也很有用。該模型的準確性僅損失了幾個百分點,但在許多應用中,甚至幾個百分點的損失都很重要。

因此,儘管您可以很快得出結論,Titan RTX的速度比最佳CPU快7倍,但根據您想要的精度,它可以更準確地說它的速度提高了4.5到7倍。

循環神經網絡:LSTM

我們的忠實讀者知道我們喜歡現實世界的企業基準。因此,在我們尋求更好的基準和更好的數據的過程中,MCT IT學士 (荷蘭語)的研究負責人Pieter Bovijn 將現實世界的AI模型轉變為基準。

模型的輸入是時間序列數據,用於預測時間序列在未來的行為方式。由於這是典型的序列預測問題,我們使用長短期記憶(LSTM)網絡作為神經網絡。作為一種RNN,LSTM在一定的持續時間內選擇性地“記住”模式。

然而,LSTM的缺點是它們的帶寬密集程度更高。我們引用最近一篇關於該主題的論文:

由於冗餘數據移動和有限的片外帶寬,LSTM在移動GPU上執行時表現出非常低效的存儲器訪問模式。

所以我們對LSTM網絡的表現非常好奇。畢竟,我們的服務器Xeons擁有足夠的帶寬,擁有38.5 MB的L3和6個DDR4-2666 / 2933通道(每個插槽128-141 GB / s)。我們使用50 GB的數據運行此測試,並將模型訓練5個時期。

當然,您可以充分利用可用的AVX / AVX2 /AVX512 SIMD電源。這就是我們使用3種不同設置進行測試的原因

1. 我們開箱即用TensorFlow與conda

2. 我們使用PyPi repo的Intel優化TensorFlow進行了測試

3. 我們使用Bazel 從源代碼優化 。這使我們可以使用最新版本的TensorFlow。

結果非常有趣。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

最密集的TensorFlow應用程序通常在GPU上運行,因此在CPU上進行測試時必須格外小心。AMD的Zen核心只有兩個128位FMAC,並且僅限於(256位)AVX2。英特爾的高端Xeon處理器 有兩個256位FMACs和一個512位FMAC。換句話說,在紙面上,英特爾的至強可以在每個時鐘週期內提供比AMD高四倍的FLOP。但只有軟件是正確的。英特爾一直與谷歌密切合作,為英特爾新Xeon優化TensorFlow出於必要:它必須在英偉達 Tesla太昂貴的情況下提供可靠的替代方案。與此同時,AMD希望ROCm能夠繼續發展,未來軟件工程師將在Radeon Pro上運行TensorFlow。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

當然,最大的問題是這與GPU相比如何。讓我們看看我們的英偉達 Titan RTX如何處理這種工作量。

首先,我們注意到FP16沒有太大的區別。其次,我們非常驚訝我們的Titan RTX比我們的雙Xeon設置快了不到3倍。

通過英偉達的系統管理接口(SMI)進一步調查,我們發現GPU確實以最高的渦輪速度運行:1.9 GHz,高於預期的1.775 GHz。同時利用率不時降至40%。

最後,這是另一個示例,說明實際應用程序的行為與基準測試的不同,以及軟件優化的重要性。如果我們剛剛使用了conda,上面的結果將會非常不同。使用正確的優化軟件使應用程序運行速度提高了2到6倍。此外,這另一個數據點證明CNN可能是GPU的最佳用例之一。您應該使用GPU來減少複雜LSTM的訓練時間。不過,這種神經網絡有點棘手 - 你不能簡單地添加更多的GPU來進一步減少訓練時間。

推論:ResNet-50

在根據訓練數據訓練您的模型之後,等待真正的測試。你的人工智能模型現在應該能夠將這些知識應用到現實世界中,並對新的現實數據做同樣的事情。這個過程叫做推理。推理不需要反向傳播,因為模型已經經過訓練——模型已經確定了權重。推理還可以利用較低的數值精度,並已證明,即使使用8位整數的精度有時是可以接受的。

從高級工作流執行的角度來看,一個工作的AI模型基本上是由一個服務控制的,而這個服務又是由另一個軟件服務調用的。因此模型應該響應非常快,但是應用程序的總延遲將由不同的服務決定。長話短說:如果推斷性能足夠高,感知到的延遲可能會轉移到另一個軟件組件。因此,Intel的任務是確保Xeons能夠提供足夠高的推理性能。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

由於DL Boost技術,英特爾有一個特殊的“祕訣”,可以在Cascade Lake上達到最佳推理性能。DLBoost包含矢量神經網絡指令,允許使用INT8操作代替FP32。整數運算本質上更快,並且通過僅使用8位,您獲得理論峰值,這是高四倍。

更復雜的是,當我們的Cascade Lake服務器崩潰時,我們正在嘗試推理。對於它的價值,我們從未達到每秒超過2000張圖像。但由於我們無法進一步實驗,我們給了英特爾懷疑的好處並使用了他們的數字。

與此同時,9282的出版引起了不小的轟動,因為英特爾聲稱最新的Xeons比英偉達的旗艦加速器(特斯拉V100)略勝一籌:7844比7636每秒的圖像。英偉達通過強調性能/瓦特/美元立即作出反應,並在報刊上獲得了大量報道。然而,我們拙見的最重要的一點是,特斯拉V100的結果無法比擬,因為每秒7600張圖像是在混合模式(FP32 / 16)而非INT8中獲得的。

一旦我們啟用INT8,2500美元的Titan RTX速度不會低於一對價值10萬 美元的Xeon 8280。

英特爾無法贏得這場戰鬥,而不是一蹴而就。儘管如此,英特爾的努力以及NIVIDA的迴應表明英特爾在提高推理和培訓績效方面的重要性。說服人們投資高端 Xeon而不是使用特斯拉V100的低端Xeon。在某些情況下,由於推理軟件組件只是軟件堆棧的一部分,因此比英偉達的產品慢3倍。

事實上,要真正分析所有角度的情況,我們還應該測量完整的AI應用程序的延遲,而不僅僅是測量推理吞吐量。但是,這將花費我們更多的時間來使這一個正確......

探索並行HPC

與服務器軟件基準測試一樣,HPC基準測試需要大量研究。我們絕對不是HPC專家,所以我們將自己限制在一個HPC基準測試中。

NAMD由伊利諾伊大學厄巴納 - 香檳分校的理論和計算生物物理學小組開發,是一套用於數千個核心極端並行化的並行分子動力學代碼。NAMD也是SPEC CPU2006 FP的一部分。

公平地說,NAMD主要是單精度。而且,正如您可能知道的那樣,Titan RTX旨在擅長單精度工作負載; 所以NAMD基準測試與Titan RTX非常匹配。特別是現在NAMD的作者揭示了:

在Pascal(P100)或更新的支持CUDA的GPU上運行時,性能顯著提高。

不過,這是一個有趣的基準,因為NAMD二進制文件是使用英特爾ICC編譯的,並針對AVX進行了優化。對於我們的測試,我們使用了“ NAMD _2.13_ Linux-x86 _ 64-multicore ”二進制文件。這個二進制文件支持AVX指令,但只支持Intel Xeon Phi 的“特殊” AVX-512指令。因此,我們還編譯了一個AVX-512 ICC優化二進制文件。這樣我們就能真正衡量AVX-512的運算能力。Xeon與英偉達的GPU加速相比。

我們使用了最流行的基準負載apoa1(載脂蛋白 A1)。結果以每個掛鐘日的模擬納秒錶示。我們測量500步。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

使用AVX-512可將此基準測試的性能提升46%。但同樣,這款軟件在GPU上的運行速度要快得多,這當然是可以理解的。至多,Xeon有28個內核,運行頻率為2.3 GHz。每個循環可以完成32次單精度浮動操作。總而言之,Xeon可以做2個TFLOP(2.3 G * 28 * 32)。所以雙Xeon設置最多可以完成4個TFLOP。泰坦RTX,在另一方面,可以做 16TFLOP 小號,或4倍之多。最終結果是,NAMD在Titan上的運行速度比雙Intel Xeon快3倍。

在人工智能新時代分析英特爾的Cascade Lake

總結一下,讓我們來看看第二代Xeon Scalable的性能,以及它在功能方面帶來的好處。使用Cascade Lake,英特爾將性能提高了3%到6%,提高了安全性,修復了一些非常重要的漏洞/攻擊,添加了一些SIMD指令,並改進了整個服務器平臺。這不是什麼驚天動地,但是你得到更多相同的價格和功率範圍,那麼什麼不喜歡?

5年前,當AMD沒有像Zen(2)體系結構這樣的東西時,ARM供應商仍然在努力應對提供痛苦的單線程性能緩慢的內核,並且深度學習處於早期階段。但這不是2014年,當時英特爾的表現優於最接近的競爭對手3倍!最終,Cascade Lake在CPU(而且只有CPU)運行良好的領域提供服務。但即使有英特爾的DL Boost努力,如果新芯片必須與GPU進行正面交鋒,而後者並不完全畏縮,那還不夠。

現實情況是,英特爾的數據中心集團面臨來自各方的巨大壓力。儘管整個服務器市場正在增長,但數據中心多年來第一次出現收入下降。

它已經持續了一段時間,但正如我們親身經歷的那樣,基於機器學習的AI應用程序正在成功推出,它們是軟件和硬件的遊戲規則改變者。因此,未來的服務器CPU評論將永遠不會完全相同:它不再是Intel與AMD甚至ARM,而是英偉達。英偉達在深度學習市場上非常成功,他們有足夠的信心在英特爾主導多年的領域採用英特爾:HPC,機器學習,甚至數據處理。英偉達已準備好加速數據管道的更大部分和更廣泛的AI應用程序。

英特爾Cascade Lake中的功能如DL Boost(VNNI)是英特爾首次嘗試推遲 - 以削減英偉達在推理性能方面的巨大優勢。與此同時,下一個Xeon - CooperLake將嘗試更接近英偉達的訓練表現。

"

很多內行會覺得將英特爾(Intel) Cascade Lake與英偉達(Nvidia) 的圖靈(Turing)放在一起比較不太合適,乍一看,硬件選擇看起來很簡單:Intel Xeon CPU為通用處理器,用於存儲和預處理數據,英偉達 GPU更多用於AI。事實上,這在過去幾年中已成為現實。然而,英偉達的競爭對手一直沒有袖手旁觀 - 尤其是英特爾。從專用的低功耗推理處理器到專用優化的Xeon,英特爾正在瞄準AI市場的各個層面。最終的結果是,在所有這些競爭對手之間,我們看到人工智能從許多不同的方向解決,人工智能時代的硬件爭奪是非常有趣的。

今天我們來看看英特爾的第二代Xeon可擴展處理器,即“Cascade Lake”,它可能是英特爾在AI領域硬件的核心。今年早些時候推出的這些新處理器仍然基於與第一代產品相同的核心Skylake架構,但採用了許多新指令來加速AI性能。

就新技術而言,這肯定是Cascade Lake最有趣的方面。雖然我們可以談論一般CPU性能提升3%到6%,英特爾最昂貴處理器的56核,以及“世界紀錄基準”, 但這些小的改進對於IT世界近期和中期的未來幾乎是無關緊要的。看看英特爾新聞與分析師簡報的第一張PPT就知道了。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

物聯網、數據工程和人工智能。這將是增長、創新和未來的主要領域。這就是英特爾的目標。目前,英偉達在這個市場上領域——深度學習和“大規模並行高性能計算”軟件——幾乎處於壟斷地位。由於硬件和軟件方面的一系列因素,大多數軟件都運行在英偉達GPU和集群上。因此,對於普通大眾來說,英偉達似乎擁有“人工智能市場”,這一圖景並不準確,但也不完整。人工智能市場不僅僅是神經網絡推理,特別是,所有為人工智能模型提供數據的事情都很少受到關注。因此,神經網絡和他的終結者機器人佔據了所有的頭條,儘管它們只是圖片的一部分。實際上,AI應用程序的處理網絡更類似於下圖。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

簡而言之,實際的機器學習代碼執行只是構建和AI應用程序所需的軟件工具的一小部分。為什麼?讓我們深入研究一下。

人工智能不僅僅是深度學習

在高層次上,雖然深度學習是人工智能的一種形式,但反過來並不總是正確的,實現AI的應用程序不一定要使用深度學習。許多人工智能應用程序使用“傳統統計”或“傳統”機器學習。畢竟,支持向量機、邏輯迴歸、K-nearest、Naive Bayes和決策樹在自動進行信息分類時仍然非常有用,尤其是在沒有大量數據的情況下。

例如,在自然語言處理中使用條件隨機域(CRF),許多推薦引擎都是基於玻爾茲曼機、交替最小二乘(ALS)等。舉個例子:我們的“大數據”基準測試是最苛刻、最獨特的基準測試之一,它使用ALS算法作為推薦引擎(“協同過濾”)。

當然,神經網絡的應用——它本身就是一個完整的研究領域——正在蓬勃發展,它們的應用往往主導著最新的人工智能應用。神經網絡也是要求最高的工作負載之一,需要大量的處理能力。所有這些都與邏輯迴歸(logistic regression)形成了鮮明對比,後者仍然是最常用的機器學習方法,而且恰好需要更少的處理。

儘管如此,儘管神經網絡是人工智能技術中處理最密集的技術(尤其是具有大量層的技術),但有幾種傳統的機器學習技術也需要大量的處理能力。例如,支持向量機及其複雜的轉換也往往需要大量的計算時間。在我們的Spark測試中,斯坦福大學的NER系統是基於一個有監督的CRF模型,使用標記的英語數據集合。在測試中,它必須處理大量的高達幾百GB的非結構化文本數據。

反過來,處理能力要求的這些差異的原因實際上非常簡單。引用AI專家Wouter Gevaert的表述:

"神經網絡中的每個神經元都可以被視為邏輯迴歸單元。因此,神經網絡就像大量的邏輯迴歸" (當你使用sigmoid作為激活函數時)

然而,儘管神經網絡是人工智能技術中最需要處理的技術(尤其是具有大量層次的人工智能技術),有幾種傳統的機器學習技術也需要大量的處理能力。例如,支持向量機及其複雜的轉換也往往需要大量的計算時間。在我們的Spark測試中,斯坦福大學的NER系統是基於一個有監督的CRF模型,使用標記的英語數據集合。在測試中,它必須處理幾百GB的大量的非結構化文本。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

當然,大多數分析查詢仍然使用舊的SQL編寫。對於結構化和半結構化數據,對於OLAP多維數據集等,SQL代碼仍然很普遍。由於單個SQL查詢遠不及神經網絡那麼平行 - 在許多情況下它們是100%順序的 - CPU是這項工作的最佳工具。

因此,在實踐中,大多數數據(預處理)和許多人工智能軟件仍然運行在CPU上。GPU主要運行大規模並行的HPC應用程序和神經網絡,這無疑是一個重要的市場,但仍然只是更大的人工智能市場的一部分。這也是為什麼英偉達去年的數據中心收入為30億美元,而英特爾的數據中心收入為200億美元。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

然而,使整個情況更加複雜的不僅僅是隻看收入,還要看增長。在數據中心市場,英偉達一直在大幅增長,而英特爾只實現了個位數的增長。隨著新技術的出現,客戶的需求也在不斷變化;對數據分析市場的爭奪已經開始,而且正在加劇。

卷積,循環和可擴展性:尋求平衡

儘管英特爾Xeon Phi協處理器(Xeon Phi協處理器)作為加速器在市場上失敗了,而且已經停產,但英特爾並沒有放棄這個概念。該公司仍希望在人工智能市場佔據更大的份額,包括原本可能進入英偉達的份額。

Naveen提出了一個重點。因為雖然英偉達從未聲稱他們為所有類型的AI提供最好的硬件,但從表面上看整個行業新聞稿中引用最多的基準(ResNet,Inception等),你幾乎可以相信只有一種類型的AI事項。卷積神經網絡(CNN或ConvNets)在基準測試和產品演示中佔據主導地位,因為它們是分析圖像和視頻的最流行的技術。任何可以表示為“2D輸入”的東西都是這些流行神經網絡的輸入層的潛在候選者。

近年來,CNN取得了一些最引人注目的突破。例如,ResNet性能如此受歡迎並不是錯誤的。相關的ImageNet數據庫是斯坦福大學和普林斯頓大學之間的合作,包含了1400萬張圖像。直到最近十年,AI在識別這些圖像方面的表現非常差。美國有線電視新聞網(CNN)以快速的順序改變了這一點,從那以後它一直是最受歡迎的人工智能挑戰之一,因為公司希望能夠比以往更快,更準確地對這個數據庫進行分類。

早在2012年,AlexNet,一個相對簡單的神經網絡,在ImageNet分類競賽中取得了比傳統機器學習技術更好的準確率。在那次測試中,它達到了85%的準確率,幾乎是傳統方法73%準確率的一半。

在2015年,著名的Inception V3在對圖片進行分類時達到了3.58%的錯誤率,這與人類相似(甚至略好於人類)。ImageNet的挑戰變得更加困難,但是由於剩餘的學習,即使不增加層數,CNN也變得更好。這導致了著名的“ResNet”CNN,現在最流行的人工智能基準之一。長話短說,CNNs是人工智能領域的明星。到目前為止,他們得到了最多的關注、測試和研究。

CNN也具有很高的可擴展性:在降低網絡培訓時間時,增加更多GPU(幾乎)線性擴展。

坦率地說,CNN是上天送給英偉達的禮物。這是人們購買昂貴的英偉達 DGX服務器(40萬美元)或購買多臺特斯拉GPU (7k+美元)最常見的原因。

儘管如此,人工智能還有比CNN更多的東西。例如,遞歸神經網絡在語音識別、語言翻譯和時間序列方面也很受歡迎。

這就是MLperf基準計劃如此重要的原因。這是我們第一次獲得CNN未完全統治的基準。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

快速瀏覽一下MLperf,圖像和對象分類基準當然是CNN,但也表示了RNN(通過神經機器翻譯)和協同過濾。同時,甚至推薦引擎測試也基於神經網絡; 從技術上講,不包括“傳統的”機器學習測試,這是不幸的。但由於這是0.5版本並且該組織正在邀請更多反饋,它肯定是有希望的,一旦它成熟,我們預計它將成為最好的基準。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

然而,通過戴爾的基準測試,我們可以清楚地看到,並非所有的神經網絡都具有CNN那樣的可擴展性。當您移動到GPU數量的四倍(並添加第二個CPU)時,ResNet CNN很容易翻兩番,而協作過濾方法只提供了50%的更高性能。

事實上,相當多的學術研究都圍繞著優化和適應CNNs展開,這樣它們就可以像處理RNNs一樣處理這些序列建模工作負載,從而可以替代伸縮性較差的RNNs。

英特爾對人工智能的看法

總的來說,英特爾有一個很好的觀點,即存在“廣泛的AI應用”,例如CNN之外的AI生活。在許多現實場景中,傳統的機器學習技術優於CNN,並非所有深度學習都是通過超可擴展的CNN完成的。在其他實際案例中,擁有大量RAM是另一個重要的性能優勢,無論是在訓練模型還是使用它來推斷新數據時。

因此,儘管英偉達在運行CNN方面具有巨大優勢,但高端Xeon 可以在數據分析市場中提供可靠的替代方案。可以肯定的是,沒有人希望新的Cascade Lake Xeon在CNN訓練中勝過英偉達 GPU,但在很多情況下,英特爾可能會說服客戶投資更強大的Xeon而不是昂貴的Tesla加速器:

  • 需要大量內存的人工智能模型的推理

  • 不需要長時間訓練的“輕型”人工智能模型批處理或流處理時間比模型培訓時間更重要的數據體系結構

  • 人工智能模型依賴於傳統的“非神經網絡”統計模型

因此,英特爾或許有機會將英偉達擋在門外,直到他們在CNN工作負載中為英偉達的GPU找到一個合理的替代方案。英特爾一直在為Xeons可伸縮系列產品瘋狂地添加功能,並優化其軟件堆棧,以對抗英偉達的人工智能霸主地位。優化的人工智能軟件,如英特爾自己的Python發行版,英特爾數學內核庫用於深度學習,甚至英特爾數據分析加速庫——主要用於傳統的機器學習……

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

總而言之,對於第二代英特爾至強可擴展處理器,該公司在深度學習(DL)Boost名稱下添加了新的AI硬件功能。這主要包括矢量神經網絡指令(VNNI)集,它可以在一個指令中執行之前需要三個指令。然而,即便更進一步,第三代Xeon可擴展處理器Cooper Lake將增加對bfloat16的支持,進一步提高培訓性能。

總之,英特爾試圖重新佔領“更輕的AI工作負載”市場,同時在數據分析市場的其他部分站穩腳跟,同時在其產品組合中添加非常專業的硬件(FPGA,ASIC)。這對英特爾在IT市場的競爭力至關重要。英特爾一再表示,數據中心集團(DCG)或“企業部分”預計將成為該公司未來幾年的主要增長引擎。

英偉達的答案

英偉達不止一次證明,它可以憑藉出色的願景和戰略戰勝競爭對手。英偉達明白將所有神經網絡擴展為CNN並不容易,並且有很多應用要麼運行在除神經網絡之外的其他方法上,要麼是內存密集型而不是計算密集型。

在GTC Europe,英偉達推出了一個新的數據科學平臺,供企業使用,該平臺建立在英偉達新的“RAPIDS”框架之上。基本思想是數據管道的GPU加速不應侷限於深度學習。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

例如,CuDF允許數據科學家將數據加載到GPU內存中並對其進行批處理,類似於Pandas(用於操作數據的python庫)。cuML是目前有限的GPU加速機器學習庫集合。最終,Scikit-Learn工具包中提供的大多數(全部?)機器學習算法應該是GPU加速的,並且可以在cuML中使用。

英偉達還添加了一個柱狀內存數據庫Apache Arrow。這是因為GPU在向量上運行,因此有利於內存中的柱狀佈局。

通過利用Apache arrow作為“中央數據庫”,英偉達避免了大量開銷。

確保存在典型Python庫(如Sci-Kit和Pandas)的GPU加速版本是朝著正確方向邁出的一步。但是Pandas僅適用於較輕的“數據科學探索”任務。通過與Databricks合作確保RAPIDS也用於重型,分佈式“數據處理”框架Spark,英偉達正在邁出下一步,突破“深度學習”角色,並向“NVIDIA”展開其餘部分數據管道。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

然而,細節決定成敗。將GPU添加到經過多年優化的框架中,以便最優地使用CPU內核和服務器中可用的大量RAM,這並不容易。Spark被構建為運行在幾十個強大的服務器內核上,而不是運行在數千個微不足道的GPU內核上。Spark已經過優化,可以在服務器節點集群上運行,使其看起來像是RAM內存和核心的一個大塊。混合兩種內存(RAM和GPU VRAM)並保持Spark的分佈式計算特性並不容易。

其次,挑選最適合GPU的機器學習算法是一回事,但確保它們在基於gpu的機器上運行良好是另一回事。最後,在可預見的將來,GPU的內存仍然少於CPU,即使是一致的平臺也不能解決系統RAM的速度只是局部VRAM速度的一小部分的問題。

誰將贏得下一個企業市場?

在最後一個投資者日,英偉達的一張PPT清楚地表明瞭企業領域的下一場戰鬥將是什麼:數據分析。請注意昂貴的雙Xeon“Skylake”Scalable如何被視為基線。這是一個相當的聲明; 將最新的英特爾動力系統之一降低到一個完全優秀的簡單基線。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

英偉達的整個商業模式圍繞著這樣一個理論:購買昂貴的硬件,如DGXs和特斯拉,對你的TCO有好處(“買得越多,省得越多”)。不要購買5000臺服務器,而是購買50臺DGX。儘管DGX消耗的功率增加了5倍,而且耗資12萬美元而不是9,000美元,但你的狀況會好得多。當然,這是最好的營銷方式,也可能是最差的營銷方式,這取決於你如何看待它。但即使這些數字略有誇大,這也是一個強有力的信息:“從我們的深度學習的大本營到英特爾當前的增長市場(推論、高性能計算和機器學習),我們將以巨大優勢擊敗英特爾。”

不相信嗎?這就是英偉達和IDC對市場演變的看法。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

目前,在總計1000億美元的市場中,計算密集型或高性能子市場約為370億美元。英偉達認為,這個子市場將在2023年翻一番,他們將能夠解決500億美元的問題。換句話說,從廣義上講,數據分析市場將幾乎佔整個服務器市場的一半。

即使這是一種高估,但很明顯,時代在變,而且風險非常高。神經網絡更適合GPU,但如果英特爾可以確保大多數數據管道在CPU上運行得更好,並且您只需要GPU用於最密集和可擴展的神經網絡,那麼它將使英偉達重新回到更適合的角色。另一方面,另一方面,如果英偉達能夠加速更大一部分數據傳輸,它將征服大部分屬於英特爾並迅速擴展的市場。在這場激烈的戰鬥中,IBM和AMD必須確保他們獲得市場份額。IBM將提供更好的基於英偉達 GPU的服務器,AMD將嘗試構建合適的軟件生態系統。

測試筆記

隨著市場的發展,很明顯,除了AMD和ARM之外,英偉達的專業產品對英特爾在數據中心及其他領域的主導地位構成了真正的威脅。因此,對於我們今天的測試,我們將專注於機器學習,並瞭解英特爾新推出的DL Boosted產品如何應對ML領域的競爭。

當然,在英特爾方面,我們正在關注該公司新的Cascade Lake Xeon可擴展CPU。該公司提供了28個核心型號中的兩個,其中包括165瓦Xeon Platinum8176,以及更快的205瓦Xeon Platinum8280。

用於與Cascade Lake的比較評測,我們使用了英偉達最新的“圖靈(Turing)”泰坦(Titan)RTX卡。雖然這些並不是真正的數據中心卡,但它們是基於Turing的,這意味著它們提供了英偉達最新的功能。在我工作的大學裡,我們的深度學習研究人員使用這些GPU來訓練人工智能模型,因為泰坦卡價格低廉,而且有大量GPU內存可用。

另外,Titan RTX卡可以同時用於訓練(混合FP32/16)作為推理(FP16和INT8)。目前的特斯拉仍然基於英偉達的Volta架構,該架構沒有可供推斷的INT8。

最後,不排除,我們也包括AMD的第一代EPYC平臺在我們所有的測試。AMD沒有像英特爾那樣的硬件策略,也沒有像VNNI那樣的具體指令,但最近該公司提供了各種各樣的驚喜。

測試基準配置和方法

我們所有的測試都是在Ubuntu Server18.04 LTS上進行的。您會注意到DRAM容量因我們的服務器配置而異。這當然是因為Xeons可以訪問六個內存通道,而EPYC CPU有八個通道。據我們所知,我們所有的測試都適合128GB,因此DRAM容量對性能影響不大。但它會對總能耗產生影響,我們將對此進行討論。

最後但並非最不重要的是,我們要注意性能圖表是如何進行顏色編碼的。Orange是AMD的EPYC,深藍色是Intel最好的(Cascade Lake / Skylake-SP),淺藍色是上一代Xeon(Xeon E5-v4)。Gray已被用於即將被替換的Xeon v1。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

我們啟用了超線程和英特爾虛擬化加速。

Xeon - NVIDIA Titan RTX工作站

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

這是測試中唯一具有獨立GPU的服務器。

AMD EPYC 7601 - (2U機箱)

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

其他說明

兩臺服務器均由標準的歐洲230V(最大16安培)電源線供電。我們的Airwell CRAC監測室溫並保持在23°C。

CPU性能

在我們進入新的AI基準測試之前,讓我們快速瞭解一下英特爾提供的常用CPU基準測試和性能聲明。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

為了進行比較,我們將重點關注第二排 - 第一排是將價格極為驚人的400W雙芯片英特爾鉑金9282與更合理的產品進行比較,並向所有人提供英特爾鉑金8180.第二行說明了所有內容:幾MHz與第一代Xeon可擴展部件相比,RAM速度稍高,可使性能提高3%(整數)至5%(FP)。浮點性能的更高提升可能是因為英特爾的第二代部件可以使用更快的DDR4-2933 DIMM,從而為內核提供更多帶寬。

中端SKU得到更大的推動,因為一些x2xx Xeon 可擴展部件比以前的x1xx部件獲得更多內核和更多L3緩存。例如,6252具有24個核心和35.75 MB L3,而6152具有22個核心和30.25 MB L3。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

然而,與AMD的EPYC 7601的比較值得我們關注,因為這裡有一些有趣的數據。再次,400W,$50k小芯片CPU與180W $4k芯片CPU的比較沒有任何意義,所以我們忽略了第一行。

Linpack數據並不令人驚訝:更昂貴的Skylake SKU為現有的雙256位FMAC增加了512位FMAC,提供的AVX吞吐量比AMD的EPYC高出4倍。由於每個FP單元現在能夠執行256位AVX而不是128位,因此AMD的下一代將在這一領域更具競爭力。

圖像分類結果清楚地表明,英特爾試圖讓人們相信某些AI應用程序應該只在CPU上運行,而不需要GPU。

英特爾聲稱數據庫性能比EPYC好得多,這一事實非常有趣,正如我們之前指出的,AMD的4個NUMA芯片確實有缺陷。引用我們的Xeon Skylake vs . EPYC的評論:

開箱即用,EPYC CPU是一個相當普通的事務數據庫CPU…事務數據庫目前仍將是Intel的領域。

在數據庫中,緩存(一致性)延遲起著重要作用。看看AMD在第二代EPYC服務器芯片上是如何解決這一弱點的,將是一件很有趣的事情。

SAP S&D

在我們開始使用數據分析ML基準之前的最後一站:SAP。企業資源規劃軟件是“傳統”企業軟件的完美典範。

SAP S&D 2-Tier基準測試可能是供應商完成的所有服務器基準測試中最真實的基準測試。它是一個完整的應用程序,生活在一個繁重的關係數據庫之上。

我們在之前的一篇文章中深入分析了SAP Benchmark :

  • 非常並行,具有良好的伸縮性

  • 低到中等IPC,主要是由於“分支”代碼

  • 受內存帶寬的限制

  • 喜歡大型緩存(內存延遲)

  • 同步(“緩存一致性”)延遲非常敏感

不同供應商提供了許多基準測試結果。為了獲得(或多或少)蘋果與蘋果的比較,我們僅限於在SQL Server 2012Enterprise上運行的“SAPS結果”。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

基於Xeon 8180和8280的服務器的富士通基準測試與我們可以獲得的一樣多:與測試和調優相同的人,相同的操作系統和數據庫。略高的時鐘(+ 200 Mhz,+ 8%)使性能提高3%。兩個CPU都有28個內核,但8280的時鐘速度提高了8%,從某種意義上說,這種時鐘速度的提升並沒有帶來更大的性能提升,這令人驚訝。我們得到的結論是,Cascade Lake的時鐘頻率可能比Skylake略慢,因為兩個SPEC CPU基準測試也只增加了3%到5%。

因此,在典型的企業堆棧中,您需要在相同的價格/能耗下獲得約3%的性能提升。然而,AMD便宜得多(編輯:很快就會更新)$ 4k EPYC 7601並沒有那麼落後。考慮到EPYC已經在昂貴的兩倍8176(2.1 GHz,28個核心)的誤差範圍內,8276具有稍高的時鐘速度(2.2 Ghz)並不會顯著改善問題。即使是Xeon 8164(26 GHz,2 GHz)也能提供與EPYC 7601 大致相同的性能,但仍然要高出 50%。

考慮到AMD在Zen 2架構方面取得了多大進展,以及頂級SKU將內核數量增加一倍(64比32),看起來AMD羅馬將對Xeon銷售施加更大壓力。

Apache Spark 2.1基準測試

Apache Spark是大數據處理的典範。加速大數據應用程序是我工作的大學實驗室(西佛蘭德大學學院的Sizing Servers Lab)的首要項目,因此我們製作了一個基準,它使用了許多Spark功能並基於實際使用情況。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

該測試在上圖中描述。我們首先從從CommonCrawl收集的300 GB壓縮數據開始。這些壓縮文件是大量的Web存檔。我們在運行中解壓縮數據以避免長時間的等待,這主要與存儲相關。然後,我們使用Java庫“BoilerPipe”從存檔中提取有意義的文本數據。使用Stanford CoreNLP自然語言處理工具包,我們從文本中提取實體(“含義詞”),然後計算這些實體中出現次數最多的URL。然後使用交替最小二乘算法來推薦哪些URL對於某個主題最有趣。

我們將最新的服務器轉換為虛擬集群,以更好地利用所有這些核心。我們運行8個執行器。研究員Esli Heyvaert也升級了我們的Spark基準測試,因此它可以在Apache Spark 2.1.1上運行。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

結果如下:

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

我們的Spark基準測試需要大約120 GB的RAM才能運行。在存儲I / O上花費的時間可以忽略不計。數據處理非常平行,但是混洗階段需要大量的內存交互。ALS階段在許多線程上的擴展性不佳,但不到總測試時間的4%。

由於我們不知道的原因,我們可以讓我們的2.7 GHz 8280比2.1 GHz Xeon 8176 表現更好。我們懷疑我們使用新的Xeon芯片與舊的(Skylake-SP)服務器的事實可能是原因,嘗試不同的Spark配置(執行程序,JVM設置)沒有幫助。BIOS更新對我們也沒有幫助。

好吧,這是大數據處理與大多數“傳統”機器學習相結合:NER和ALS。一些“深度學習”怎麼樣?

卷積神經網絡訓練

很長一段時間,CNN的前進方向是增加層數 - 增加“更深入學習”的網絡深度。正如你可能猜到的那樣,這導致收益遞減,並使已經很複雜的神經網絡更難調整,導致更多的訓練錯誤。

所述RESNET-50基準是基於剩餘網絡(因此RESNET),其具有更少的訓練誤差的優點作為網絡變得更深。

同時,作為一些內部管家,對於普通讀者,我會注意到下面的基準與Nate為我們的Titan V評論所進行的測試不能直接比較。它是相同的基準,但Nate運行了英偉達的Caffe2 Docker映像中包含的標準ResNet-50培訓實現。但是,由於我的團隊主要使用TensorFlow作為深度學習框架,我們傾向於堅持使用它。所有基準測試

tf_cnn_benchmarks.py --num_gpus = 1 --model =resnet50 --variable_update = parameter_server

該模型在ImageNet上訓練併為我們提供吞吐量數據。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

缺少幾個基準,這是有充分理由的。在Titan RTX上以FP32精度運行批量大小為512個訓練樣本會導致“內存不足”錯誤,因為該卡“僅”具有24 GB可用空間。

同時在Intel CPU上,半精度(FP16)尚不可用。AVX512 _ BF16(bfloat16)將在Cascade Lake的繼任者Cooper Lake中推出。

已經觀察到,使用較大批次可以導致模型質量的顯著降低,如通過其概括的能力所測量的。因此,雖然較大的批量大小(512)可以更好地利用GPU內部的大規模並行性,但批量較小(128)的結果也很有用。該模型的準確性僅損失了幾個百分點,但在許多應用中,甚至幾個百分點的損失都很重要。

因此,儘管您可以很快得出結論,Titan RTX的速度比最佳CPU快7倍,但根據您想要的精度,它可以更準確地說它的速度提高了4.5到7倍。

循環神經網絡:LSTM

我們的忠實讀者知道我們喜歡現實世界的企業基準。因此,在我們尋求更好的基準和更好的數據的過程中,MCT IT學士 (荷蘭語)的研究負責人Pieter Bovijn 將現實世界的AI模型轉變為基準。

模型的輸入是時間序列數據,用於預測時間序列在未來的行為方式。由於這是典型的序列預測問題,我們使用長短期記憶(LSTM)網絡作為神經網絡。作為一種RNN,LSTM在一定的持續時間內選擇性地“記住”模式。

然而,LSTM的缺點是它們的帶寬密集程度更高。我們引用最近一篇關於該主題的論文:

由於冗餘數據移動和有限的片外帶寬,LSTM在移動GPU上執行時表現出非常低效的存儲器訪問模式。

所以我們對LSTM網絡的表現非常好奇。畢竟,我們的服務器Xeons擁有足夠的帶寬,擁有38.5 MB的L3和6個DDR4-2666 / 2933通道(每個插槽128-141 GB / s)。我們使用50 GB的數據運行此測試,並將模型訓練5個時期。

當然,您可以充分利用可用的AVX / AVX2 /AVX512 SIMD電源。這就是我們使用3種不同設置進行測試的原因

1. 我們開箱即用TensorFlow與conda

2. 我們使用PyPi repo的Intel優化TensorFlow進行了測試

3. 我們使用Bazel 從源代碼優化 。這使我們可以使用最新版本的TensorFlow。

結果非常有趣。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

最密集的TensorFlow應用程序通常在GPU上運行,因此在CPU上進行測試時必須格外小心。AMD的Zen核心只有兩個128位FMAC,並且僅限於(256位)AVX2。英特爾的高端Xeon處理器 有兩個256位FMACs和一個512位FMAC。換句話說,在紙面上,英特爾的至強可以在每個時鐘週期內提供比AMD高四倍的FLOP。但只有軟件是正確的。英特爾一直與谷歌密切合作,為英特爾新Xeon優化TensorFlow出於必要:它必須在英偉達 Tesla太昂貴的情況下提供可靠的替代方案。與此同時,AMD希望ROCm能夠繼續發展,未來軟件工程師將在Radeon Pro上運行TensorFlow。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

當然,最大的問題是這與GPU相比如何。讓我們看看我們的英偉達 Titan RTX如何處理這種工作量。

首先,我們注意到FP16沒有太大的區別。其次,我們非常驚訝我們的Titan RTX比我們的雙Xeon設置快了不到3倍。

通過英偉達的系統管理接口(SMI)進一步調查,我們發現GPU確實以最高的渦輪速度運行:1.9 GHz,高於預期的1.775 GHz。同時利用率不時降至40%。

最後,這是另一個示例,說明實際應用程序的行為與基準測試的不同,以及軟件優化的重要性。如果我們剛剛使用了conda,上面的結果將會非常不同。使用正確的優化軟件使應用程序運行速度提高了2到6倍。此外,這另一個數據點證明CNN可能是GPU的最佳用例之一。您應該使用GPU來減少複雜LSTM的訓練時間。不過,這種神經網絡有點棘手 - 你不能簡單地添加更多的GPU來進一步減少訓練時間。

推論:ResNet-50

在根據訓練數據訓練您的模型之後,等待真正的測試。你的人工智能模型現在應該能夠將這些知識應用到現實世界中,並對新的現實數據做同樣的事情。這個過程叫做推理。推理不需要反向傳播,因為模型已經經過訓練——模型已經確定了權重。推理還可以利用較低的數值精度,並已證明,即使使用8位整數的精度有時是可以接受的。

從高級工作流執行的角度來看,一個工作的AI模型基本上是由一個服務控制的,而這個服務又是由另一個軟件服務調用的。因此模型應該響應非常快,但是應用程序的總延遲將由不同的服務決定。長話短說:如果推斷性能足夠高,感知到的延遲可能會轉移到另一個軟件組件。因此,Intel的任務是確保Xeons能夠提供足夠高的推理性能。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

由於DL Boost技術,英特爾有一個特殊的“祕訣”,可以在Cascade Lake上達到最佳推理性能。DLBoost包含矢量神經網絡指令,允許使用INT8操作代替FP32。整數運算本質上更快,並且通過僅使用8位,您獲得理論峰值,這是高四倍。

更復雜的是,當我們的Cascade Lake服務器崩潰時,我們正在嘗試推理。對於它的價值,我們從未達到每秒超過2000張圖像。但由於我們無法進一步實驗,我們給了英特爾懷疑的好處並使用了他們的數字。

與此同時,9282的出版引起了不小的轟動,因為英特爾聲稱最新的Xeons比英偉達的旗艦加速器(特斯拉V100)略勝一籌:7844比7636每秒的圖像。英偉達通過強調性能/瓦特/美元立即作出反應,並在報刊上獲得了大量報道。然而,我們拙見的最重要的一點是,特斯拉V100的結果無法比擬,因為每秒7600張圖像是在混合模式(FP32 / 16)而非INT8中獲得的。

一旦我們啟用INT8,2500美元的Titan RTX速度不會低於一對價值10萬 美元的Xeon 8280。

英特爾無法贏得這場戰鬥,而不是一蹴而就。儘管如此,英特爾的努力以及NIVIDA的迴應表明英特爾在提高推理和培訓績效方面的重要性。說服人們投資高端 Xeon而不是使用特斯拉V100的低端Xeon。在某些情況下,由於推理軟件組件只是軟件堆棧的一部分,因此比英偉達的產品慢3倍。

事實上,要真正分析所有角度的情況,我們還應該測量完整的AI應用程序的延遲,而不僅僅是測量推理吞吐量。但是,這將花費我們更多的時間來使這一個正確......

探索並行HPC

與服務器軟件基準測試一樣,HPC基準測試需要大量研究。我們絕對不是HPC專家,所以我們將自己限制在一個HPC基準測試中。

NAMD由伊利諾伊大學厄巴納 - 香檳分校的理論和計算生物物理學小組開發,是一套用於數千個核心極端並行化的並行分子動力學代碼。NAMD也是SPEC CPU2006 FP的一部分。

公平地說,NAMD主要是單精度。而且,正如您可能知道的那樣,Titan RTX旨在擅長單精度工作負載; 所以NAMD基準測試與Titan RTX非常匹配。特別是現在NAMD的作者揭示了:

在Pascal(P100)或更新的支持CUDA的GPU上運行時,性能顯著提高。

不過,這是一個有趣的基準,因為NAMD二進制文件是使用英特爾ICC編譯的,並針對AVX進行了優化。對於我們的測試,我們使用了“ NAMD _2.13_ Linux-x86 _ 64-multicore ”二進制文件。這個二進制文件支持AVX指令,但只支持Intel Xeon Phi 的“特殊” AVX-512指令。因此,我們還編譯了一個AVX-512 ICC優化二進制文件。這樣我們就能真正衡量AVX-512的運算能力。Xeon與英偉達的GPU加速相比。

我們使用了最流行的基準負載apoa1(載脂蛋白 A1)。結果以每個掛鐘日的模擬納秒錶示。我們測量500步。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

使用AVX-512可將此基準測試的性能提升46%。但同樣,這款軟件在GPU上的運行速度要快得多,這當然是可以理解的。至多,Xeon有28個內核,運行頻率為2.3 GHz。每個循環可以完成32次單精度浮動操作。總而言之,Xeon可以做2個TFLOP(2.3 G * 28 * 32)。所以雙Xeon設置最多可以完成4個TFLOP。泰坦RTX,在另一方面,可以做 16TFLOP 小號,或4倍之多。最終結果是,NAMD在Titan上的運行速度比雙Intel Xeon快3倍。

在人工智能新時代分析英特爾的Cascade Lake

總結一下,讓我們來看看第二代Xeon Scalable的性能,以及它在功能方面帶來的好處。使用Cascade Lake,英特爾將性能提高了3%到6%,提高了安全性,修復了一些非常重要的漏洞/攻擊,添加了一些SIMD指令,並改進了整個服務器平臺。這不是什麼驚天動地,但是你得到更多相同的價格和功率範圍,那麼什麼不喜歡?

5年前,當AMD沒有像Zen(2)體系結構這樣的東西時,ARM供應商仍然在努力應對提供痛苦的單線程性能緩慢的內核,並且深度學習處於早期階段。但這不是2014年,當時英特爾的表現優於最接近的競爭對手3倍!最終,Cascade Lake在CPU(而且只有CPU)運行良好的領域提供服務。但即使有英特爾的DL Boost努力,如果新芯片必須與GPU進行正面交鋒,而後者並不完全畏縮,那還不夠。

現實情況是,英特爾的數據中心集團面臨來自各方的巨大壓力。儘管整個服務器市場正在增長,但數據中心多年來第一次出現收入下降。

它已經持續了一段時間,但正如我們親身經歷的那樣,基於機器學習的AI應用程序正在成功推出,它們是軟件和硬件的遊戲規則改變者。因此,未來的服務器CPU評論將永遠不會完全相同:它不再是Intel與AMD甚至ARM,而是英偉達。英偉達在深度學習市場上非常成功,他們有足夠的信心在英特爾主導多年的領域採用英特爾:HPC,機器學習,甚至數據處理。英偉達已準備好加速數據管道的更大部分和更廣泛的AI應用程序。

英特爾Cascade Lake中的功能如DL Boost(VNNI)是英特爾首次嘗試推遲 - 以削減英偉達在推理性能方面的巨大優勢。與此同時,下一個Xeon - CooperLake將嘗試更接近英偉達的訓練表現。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

這張以“領先表現”為賣點的PPT還很方便地描述了英特爾在哪些市場處於非常脆弱的地位,儘管英特爾目前在數據中心佔據主導地位。雖然PPT的重點是英特爾Xeon 9200,這可能是一個很容易為高端鉑金8200 Xeons的PPT。

英特爾瞄準了高性能計算、人工智能和高密度的基礎設施來銷售其昂貴的Xeons。但隨著市場轉向不那麼傳統的商業智能、更多的機器學習和GPU加速的高性能計算,高端Xeons的市場正在萎縮。英特爾擁有非常廣泛的人工智能產品組合,從Movidius (edge inference)到Nervana NNP(用於DL培訓的ASIC),他們將需要它來取代Xeon在這些細分市場的份額。

中檔的Xeon與Nervana NNP協處理器結合使用可能會很好,而且對於大多數人工智能應用程序來說,它肯定是比Xeon 9200更好的解決方案。同樣的道理也適用於高性能計算:我們願意打賭,如果你使用中檔Xeons和一個快速的英偉達 GPU,你的情況會好得多。根據AMD的EPYC 2的定價,即使是這樣也可能會有爭議。

創芯大講堂是EETOP旗下的在線教育平臺,我們將針對中高級工程師開設電子行業的高質量系列培訓課程。

創芯大講堂推出的課程主要圍繞半導體集成電路全產業鏈。將會包括:設計製造,前端後端,模擬、數字,混合集成電路等相關技術領域。

作為大型電子工程師社區---EETOP旗下的教育平臺,創芯大講堂在開設集成電路設計相關課程基礎上也會陸續推出針對受眾群更廣泛的硬件設計、嵌入式、軟件開發等各類課程。

在此我們也誠摯邀請集成電路設計、硬件設計及項目開發經驗豐富並願意分享給更多工程師的培訓講師加入到我們的講師團隊中來!

EETOP誠邀以下技術領域講師加入“培訓講師團”:

  • IC設計、驗證、版圖、測試、製造與封裝等

  • 模擬/數字電路設計

  • FPGA設計

  • 人工智能、物聯網等行業芯片及系統設計

  • 嵌入式開發

願您一展身手,並將您的知識和經驗轉化為成長中的集成電路工程師們的指路明燈。

成為EETOP的“培訓講師”,您將:

  • 按課程收益情況,獲取非常具有吸引力的報酬,保障付出回報。

  • EETOP將為您進行內部渠道推廣,第一時間將您的課程推送給EETOP百萬高質量工程師用戶群。

  • 通過分享,提升講師在行業裡的個人影響力,讓講師與EETOP平臺同步成長。

培訓課程將分線上、線下兩種模式進行(線上課程又分錄播和直播)。讓我們一起攜手,幫助越來越多想要在集成電路行業發光發亮的工程師開啟夢想之旅。

"

很多內行會覺得將英特爾(Intel) Cascade Lake與英偉達(Nvidia) 的圖靈(Turing)放在一起比較不太合適,乍一看,硬件選擇看起來很簡單:Intel Xeon CPU為通用處理器,用於存儲和預處理數據,英偉達 GPU更多用於AI。事實上,這在過去幾年中已成為現實。然而,英偉達的競爭對手一直沒有袖手旁觀 - 尤其是英特爾。從專用的低功耗推理處理器到專用優化的Xeon,英特爾正在瞄準AI市場的各個層面。最終的結果是,在所有這些競爭對手之間,我們看到人工智能從許多不同的方向解決,人工智能時代的硬件爭奪是非常有趣的。

今天我們來看看英特爾的第二代Xeon可擴展處理器,即“Cascade Lake”,它可能是英特爾在AI領域硬件的核心。今年早些時候推出的這些新處理器仍然基於與第一代產品相同的核心Skylake架構,但採用了許多新指令來加速AI性能。

就新技術而言,這肯定是Cascade Lake最有趣的方面。雖然我們可以談論一般CPU性能提升3%到6%,英特爾最昂貴處理器的56核,以及“世界紀錄基準”, 但這些小的改進對於IT世界近期和中期的未來幾乎是無關緊要的。看看英特爾新聞與分析師簡報的第一張PPT就知道了。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

物聯網、數據工程和人工智能。這將是增長、創新和未來的主要領域。這就是英特爾的目標。目前,英偉達在這個市場上領域——深度學習和“大規模並行高性能計算”軟件——幾乎處於壟斷地位。由於硬件和軟件方面的一系列因素,大多數軟件都運行在英偉達GPU和集群上。因此,對於普通大眾來說,英偉達似乎擁有“人工智能市場”,這一圖景並不準確,但也不完整。人工智能市場不僅僅是神經網絡推理,特別是,所有為人工智能模型提供數據的事情都很少受到關注。因此,神經網絡和他的終結者機器人佔據了所有的頭條,儘管它們只是圖片的一部分。實際上,AI應用程序的處理網絡更類似於下圖。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

簡而言之,實際的機器學習代碼執行只是構建和AI應用程序所需的軟件工具的一小部分。為什麼?讓我們深入研究一下。

人工智能不僅僅是深度學習

在高層次上,雖然深度學習是人工智能的一種形式,但反過來並不總是正確的,實現AI的應用程序不一定要使用深度學習。許多人工智能應用程序使用“傳統統計”或“傳統”機器學習。畢竟,支持向量機、邏輯迴歸、K-nearest、Naive Bayes和決策樹在自動進行信息分類時仍然非常有用,尤其是在沒有大量數據的情況下。

例如,在自然語言處理中使用條件隨機域(CRF),許多推薦引擎都是基於玻爾茲曼機、交替最小二乘(ALS)等。舉個例子:我們的“大數據”基準測試是最苛刻、最獨特的基準測試之一,它使用ALS算法作為推薦引擎(“協同過濾”)。

當然,神經網絡的應用——它本身就是一個完整的研究領域——正在蓬勃發展,它們的應用往往主導著最新的人工智能應用。神經網絡也是要求最高的工作負載之一,需要大量的處理能力。所有這些都與邏輯迴歸(logistic regression)形成了鮮明對比,後者仍然是最常用的機器學習方法,而且恰好需要更少的處理。

儘管如此,儘管神經網絡是人工智能技術中處理最密集的技術(尤其是具有大量層的技術),但有幾種傳統的機器學習技術也需要大量的處理能力。例如,支持向量機及其複雜的轉換也往往需要大量的計算時間。在我們的Spark測試中,斯坦福大學的NER系統是基於一個有監督的CRF模型,使用標記的英語數據集合。在測試中,它必須處理大量的高達幾百GB的非結構化文本數據。

反過來,處理能力要求的這些差異的原因實際上非常簡單。引用AI專家Wouter Gevaert的表述:

"神經網絡中的每個神經元都可以被視為邏輯迴歸單元。因此,神經網絡就像大量的邏輯迴歸" (當你使用sigmoid作為激活函數時)

然而,儘管神經網絡是人工智能技術中最需要處理的技術(尤其是具有大量層次的人工智能技術),有幾種傳統的機器學習技術也需要大量的處理能力。例如,支持向量機及其複雜的轉換也往往需要大量的計算時間。在我們的Spark測試中,斯坦福大學的NER系統是基於一個有監督的CRF模型,使用標記的英語數據集合。在測試中,它必須處理幾百GB的大量的非結構化文本。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

當然,大多數分析查詢仍然使用舊的SQL編寫。對於結構化和半結構化數據,對於OLAP多維數據集等,SQL代碼仍然很普遍。由於單個SQL查詢遠不及神經網絡那麼平行 - 在許多情況下它們是100%順序的 - CPU是這項工作的最佳工具。

因此,在實踐中,大多數數據(預處理)和許多人工智能軟件仍然運行在CPU上。GPU主要運行大規模並行的HPC應用程序和神經網絡,這無疑是一個重要的市場,但仍然只是更大的人工智能市場的一部分。這也是為什麼英偉達去年的數據中心收入為30億美元,而英特爾的數據中心收入為200億美元。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

然而,使整個情況更加複雜的不僅僅是隻看收入,還要看增長。在數據中心市場,英偉達一直在大幅增長,而英特爾只實現了個位數的增長。隨著新技術的出現,客戶的需求也在不斷變化;對數據分析市場的爭奪已經開始,而且正在加劇。

卷積,循環和可擴展性:尋求平衡

儘管英特爾Xeon Phi協處理器(Xeon Phi協處理器)作為加速器在市場上失敗了,而且已經停產,但英特爾並沒有放棄這個概念。該公司仍希望在人工智能市場佔據更大的份額,包括原本可能進入英偉達的份額。

Naveen提出了一個重點。因為雖然英偉達從未聲稱他們為所有類型的AI提供最好的硬件,但從表面上看整個行業新聞稿中引用最多的基準(ResNet,Inception等),你幾乎可以相信只有一種類型的AI事項。卷積神經網絡(CNN或ConvNets)在基準測試和產品演示中佔據主導地位,因為它們是分析圖像和視頻的最流行的技術。任何可以表示為“2D輸入”的東西都是這些流行神經網絡的輸入層的潛在候選者。

近年來,CNN取得了一些最引人注目的突破。例如,ResNet性能如此受歡迎並不是錯誤的。相關的ImageNet數據庫是斯坦福大學和普林斯頓大學之間的合作,包含了1400萬張圖像。直到最近十年,AI在識別這些圖像方面的表現非常差。美國有線電視新聞網(CNN)以快速的順序改變了這一點,從那以後它一直是最受歡迎的人工智能挑戰之一,因為公司希望能夠比以往更快,更準確地對這個數據庫進行分類。

早在2012年,AlexNet,一個相對簡單的神經網絡,在ImageNet分類競賽中取得了比傳統機器學習技術更好的準確率。在那次測試中,它達到了85%的準確率,幾乎是傳統方法73%準確率的一半。

在2015年,著名的Inception V3在對圖片進行分類時達到了3.58%的錯誤率,這與人類相似(甚至略好於人類)。ImageNet的挑戰變得更加困難,但是由於剩餘的學習,即使不增加層數,CNN也變得更好。這導致了著名的“ResNet”CNN,現在最流行的人工智能基準之一。長話短說,CNNs是人工智能領域的明星。到目前為止,他們得到了最多的關注、測試和研究。

CNN也具有很高的可擴展性:在降低網絡培訓時間時,增加更多GPU(幾乎)線性擴展。

坦率地說,CNN是上天送給英偉達的禮物。這是人們購買昂貴的英偉達 DGX服務器(40萬美元)或購買多臺特斯拉GPU (7k+美元)最常見的原因。

儘管如此,人工智能還有比CNN更多的東西。例如,遞歸神經網絡在語音識別、語言翻譯和時間序列方面也很受歡迎。

這就是MLperf基準計劃如此重要的原因。這是我們第一次獲得CNN未完全統治的基準。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

快速瀏覽一下MLperf,圖像和對象分類基準當然是CNN,但也表示了RNN(通過神經機器翻譯)和協同過濾。同時,甚至推薦引擎測試也基於神經網絡; 從技術上講,不包括“傳統的”機器學習測試,這是不幸的。但由於這是0.5版本並且該組織正在邀請更多反饋,它肯定是有希望的,一旦它成熟,我們預計它將成為最好的基準。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

然而,通過戴爾的基準測試,我們可以清楚地看到,並非所有的神經網絡都具有CNN那樣的可擴展性。當您移動到GPU數量的四倍(並添加第二個CPU)時,ResNet CNN很容易翻兩番,而協作過濾方法只提供了50%的更高性能。

事實上,相當多的學術研究都圍繞著優化和適應CNNs展開,這樣它們就可以像處理RNNs一樣處理這些序列建模工作負載,從而可以替代伸縮性較差的RNNs。

英特爾對人工智能的看法

總的來說,英特爾有一個很好的觀點,即存在“廣泛的AI應用”,例如CNN之外的AI生活。在許多現實場景中,傳統的機器學習技術優於CNN,並非所有深度學習都是通過超可擴展的CNN完成的。在其他實際案例中,擁有大量RAM是另一個重要的性能優勢,無論是在訓練模型還是使用它來推斷新數據時。

因此,儘管英偉達在運行CNN方面具有巨大優勢,但高端Xeon 可以在數據分析市場中提供可靠的替代方案。可以肯定的是,沒有人希望新的Cascade Lake Xeon在CNN訓練中勝過英偉達 GPU,但在很多情況下,英特爾可能會說服客戶投資更強大的Xeon而不是昂貴的Tesla加速器:

  • 需要大量內存的人工智能模型的推理

  • 不需要長時間訓練的“輕型”人工智能模型批處理或流處理時間比模型培訓時間更重要的數據體系結構

  • 人工智能模型依賴於傳統的“非神經網絡”統計模型

因此,英特爾或許有機會將英偉達擋在門外,直到他們在CNN工作負載中為英偉達的GPU找到一個合理的替代方案。英特爾一直在為Xeons可伸縮系列產品瘋狂地添加功能,並優化其軟件堆棧,以對抗英偉達的人工智能霸主地位。優化的人工智能軟件,如英特爾自己的Python發行版,英特爾數學內核庫用於深度學習,甚至英特爾數據分析加速庫——主要用於傳統的機器學習……

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

總而言之,對於第二代英特爾至強可擴展處理器,該公司在深度學習(DL)Boost名稱下添加了新的AI硬件功能。這主要包括矢量神經網絡指令(VNNI)集,它可以在一個指令中執行之前需要三個指令。然而,即便更進一步,第三代Xeon可擴展處理器Cooper Lake將增加對bfloat16的支持,進一步提高培訓性能。

總之,英特爾試圖重新佔領“更輕的AI工作負載”市場,同時在數據分析市場的其他部分站穩腳跟,同時在其產品組合中添加非常專業的硬件(FPGA,ASIC)。這對英特爾在IT市場的競爭力至關重要。英特爾一再表示,數據中心集團(DCG)或“企業部分”預計將成為該公司未來幾年的主要增長引擎。

英偉達的答案

英偉達不止一次證明,它可以憑藉出色的願景和戰略戰勝競爭對手。英偉達明白將所有神經網絡擴展為CNN並不容易,並且有很多應用要麼運行在除神經網絡之外的其他方法上,要麼是內存密集型而不是計算密集型。

在GTC Europe,英偉達推出了一個新的數據科學平臺,供企業使用,該平臺建立在英偉達新的“RAPIDS”框架之上。基本思想是數據管道的GPU加速不應侷限於深度學習。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

例如,CuDF允許數據科學家將數據加載到GPU內存中並對其進行批處理,類似於Pandas(用於操作數據的python庫)。cuML是目前有限的GPU加速機器學習庫集合。最終,Scikit-Learn工具包中提供的大多數(全部?)機器學習算法應該是GPU加速的,並且可以在cuML中使用。

英偉達還添加了一個柱狀內存數據庫Apache Arrow。這是因為GPU在向量上運行,因此有利於內存中的柱狀佈局。

通過利用Apache arrow作為“中央數據庫”,英偉達避免了大量開銷。

確保存在典型Python庫(如Sci-Kit和Pandas)的GPU加速版本是朝著正確方向邁出的一步。但是Pandas僅適用於較輕的“數據科學探索”任務。通過與Databricks合作確保RAPIDS也用於重型,分佈式“數據處理”框架Spark,英偉達正在邁出下一步,突破“深度學習”角色,並向“NVIDIA”展開其餘部分數據管道。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

然而,細節決定成敗。將GPU添加到經過多年優化的框架中,以便最優地使用CPU內核和服務器中可用的大量RAM,這並不容易。Spark被構建為運行在幾十個強大的服務器內核上,而不是運行在數千個微不足道的GPU內核上。Spark已經過優化,可以在服務器節點集群上運行,使其看起來像是RAM內存和核心的一個大塊。混合兩種內存(RAM和GPU VRAM)並保持Spark的分佈式計算特性並不容易。

其次,挑選最適合GPU的機器學習算法是一回事,但確保它們在基於gpu的機器上運行良好是另一回事。最後,在可預見的將來,GPU的內存仍然少於CPU,即使是一致的平臺也不能解決系統RAM的速度只是局部VRAM速度的一小部分的問題。

誰將贏得下一個企業市場?

在最後一個投資者日,英偉達的一張PPT清楚地表明瞭企業領域的下一場戰鬥將是什麼:數據分析。請注意昂貴的雙Xeon“Skylake”Scalable如何被視為基線。這是一個相當的聲明; 將最新的英特爾動力系統之一降低到一個完全優秀的簡單基線。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

英偉達的整個商業模式圍繞著這樣一個理論:購買昂貴的硬件,如DGXs和特斯拉,對你的TCO有好處(“買得越多,省得越多”)。不要購買5000臺服務器,而是購買50臺DGX。儘管DGX消耗的功率增加了5倍,而且耗資12萬美元而不是9,000美元,但你的狀況會好得多。當然,這是最好的營銷方式,也可能是最差的營銷方式,這取決於你如何看待它。但即使這些數字略有誇大,這也是一個強有力的信息:“從我們的深度學習的大本營到英特爾當前的增長市場(推論、高性能計算和機器學習),我們將以巨大優勢擊敗英特爾。”

不相信嗎?這就是英偉達和IDC對市場演變的看法。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

目前,在總計1000億美元的市場中,計算密集型或高性能子市場約為370億美元。英偉達認為,這個子市場將在2023年翻一番,他們將能夠解決500億美元的問題。換句話說,從廣義上講,數據分析市場將幾乎佔整個服務器市場的一半。

即使這是一種高估,但很明顯,時代在變,而且風險非常高。神經網絡更適合GPU,但如果英特爾可以確保大多數數據管道在CPU上運行得更好,並且您只需要GPU用於最密集和可擴展的神經網絡,那麼它將使英偉達重新回到更適合的角色。另一方面,另一方面,如果英偉達能夠加速更大一部分數據傳輸,它將征服大部分屬於英特爾並迅速擴展的市場。在這場激烈的戰鬥中,IBM和AMD必須確保他們獲得市場份額。IBM將提供更好的基於英偉達 GPU的服務器,AMD將嘗試構建合適的軟件生態系統。

測試筆記

隨著市場的發展,很明顯,除了AMD和ARM之外,英偉達的專業產品對英特爾在數據中心及其他領域的主導地位構成了真正的威脅。因此,對於我們今天的測試,我們將專注於機器學習,並瞭解英特爾新推出的DL Boosted產品如何應對ML領域的競爭。

當然,在英特爾方面,我們正在關注該公司新的Cascade Lake Xeon可擴展CPU。該公司提供了28個核心型號中的兩個,其中包括165瓦Xeon Platinum8176,以及更快的205瓦Xeon Platinum8280。

用於與Cascade Lake的比較評測,我們使用了英偉達最新的“圖靈(Turing)”泰坦(Titan)RTX卡。雖然這些並不是真正的數據中心卡,但它們是基於Turing的,這意味著它們提供了英偉達最新的功能。在我工作的大學裡,我們的深度學習研究人員使用這些GPU來訓練人工智能模型,因為泰坦卡價格低廉,而且有大量GPU內存可用。

另外,Titan RTX卡可以同時用於訓練(混合FP32/16)作為推理(FP16和INT8)。目前的特斯拉仍然基於英偉達的Volta架構,該架構沒有可供推斷的INT8。

最後,不排除,我們也包括AMD的第一代EPYC平臺在我們所有的測試。AMD沒有像英特爾那樣的硬件策略,也沒有像VNNI那樣的具體指令,但最近該公司提供了各種各樣的驚喜。

測試基準配置和方法

我們所有的測試都是在Ubuntu Server18.04 LTS上進行的。您會注意到DRAM容量因我們的服務器配置而異。這當然是因為Xeons可以訪問六個內存通道,而EPYC CPU有八個通道。據我們所知,我們所有的測試都適合128GB,因此DRAM容量對性能影響不大。但它會對總能耗產生影響,我們將對此進行討論。

最後但並非最不重要的是,我們要注意性能圖表是如何進行顏色編碼的。Orange是AMD的EPYC,深藍色是Intel最好的(Cascade Lake / Skylake-SP),淺藍色是上一代Xeon(Xeon E5-v4)。Gray已被用於即將被替換的Xeon v1。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

我們啟用了超線程和英特爾虛擬化加速。

Xeon - NVIDIA Titan RTX工作站

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

這是測試中唯一具有獨立GPU的服務器。

AMD EPYC 7601 - (2U機箱)

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

其他說明

兩臺服務器均由標準的歐洲230V(最大16安培)電源線供電。我們的Airwell CRAC監測室溫並保持在23°C。

CPU性能

在我們進入新的AI基準測試之前,讓我們快速瞭解一下英特爾提供的常用CPU基準測試和性能聲明。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

為了進行比較,我們將重點關注第二排 - 第一排是將價格極為驚人的400W雙芯片英特爾鉑金9282與更合理的產品進行比較,並向所有人提供英特爾鉑金8180.第二行說明了所有內容:幾MHz與第一代Xeon可擴展部件相比,RAM速度稍高,可使性能提高3%(整數)至5%(FP)。浮點性能的更高提升可能是因為英特爾的第二代部件可以使用更快的DDR4-2933 DIMM,從而為內核提供更多帶寬。

中端SKU得到更大的推動,因為一些x2xx Xeon 可擴展部件比以前的x1xx部件獲得更多內核和更多L3緩存。例如,6252具有24個核心和35.75 MB L3,而6152具有22個核心和30.25 MB L3。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

然而,與AMD的EPYC 7601的比較值得我們關注,因為這裡有一些有趣的數據。再次,400W,$50k小芯片CPU與180W $4k芯片CPU的比較沒有任何意義,所以我們忽略了第一行。

Linpack數據並不令人驚訝:更昂貴的Skylake SKU為現有的雙256位FMAC增加了512位FMAC,提供的AVX吞吐量比AMD的EPYC高出4倍。由於每個FP單元現在能夠執行256位AVX而不是128位,因此AMD的下一代將在這一領域更具競爭力。

圖像分類結果清楚地表明,英特爾試圖讓人們相信某些AI應用程序應該只在CPU上運行,而不需要GPU。

英特爾聲稱數據庫性能比EPYC好得多,這一事實非常有趣,正如我們之前指出的,AMD的4個NUMA芯片確實有缺陷。引用我們的Xeon Skylake vs . EPYC的評論:

開箱即用,EPYC CPU是一個相當普通的事務數據庫CPU…事務數據庫目前仍將是Intel的領域。

在數據庫中,緩存(一致性)延遲起著重要作用。看看AMD在第二代EPYC服務器芯片上是如何解決這一弱點的,將是一件很有趣的事情。

SAP S&D

在我們開始使用數據分析ML基準之前的最後一站:SAP。企業資源規劃軟件是“傳統”企業軟件的完美典範。

SAP S&D 2-Tier基準測試可能是供應商完成的所有服務器基準測試中最真實的基準測試。它是一個完整的應用程序,生活在一個繁重的關係數據庫之上。

我們在之前的一篇文章中深入分析了SAP Benchmark :

  • 非常並行,具有良好的伸縮性

  • 低到中等IPC,主要是由於“分支”代碼

  • 受內存帶寬的限制

  • 喜歡大型緩存(內存延遲)

  • 同步(“緩存一致性”)延遲非常敏感

不同供應商提供了許多基準測試結果。為了獲得(或多或少)蘋果與蘋果的比較,我們僅限於在SQL Server 2012Enterprise上運行的“SAPS結果”。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

基於Xeon 8180和8280的服務器的富士通基準測試與我們可以獲得的一樣多:與測試和調優相同的人,相同的操作系統和數據庫。略高的時鐘(+ 200 Mhz,+ 8%)使性能提高3%。兩個CPU都有28個內核,但8280的時鐘速度提高了8%,從某種意義上說,這種時鐘速度的提升並沒有帶來更大的性能提升,這令人驚訝。我們得到的結論是,Cascade Lake的時鐘頻率可能比Skylake略慢,因為兩個SPEC CPU基準測試也只增加了3%到5%。

因此,在典型的企業堆棧中,您需要在相同的價格/能耗下獲得約3%的性能提升。然而,AMD便宜得多(編輯:很快就會更新)$ 4k EPYC 7601並沒有那麼落後。考慮到EPYC已經在昂貴的兩倍8176(2.1 GHz,28個核心)的誤差範圍內,8276具有稍高的時鐘速度(2.2 Ghz)並不會顯著改善問題。即使是Xeon 8164(26 GHz,2 GHz)也能提供與EPYC 7601 大致相同的性能,但仍然要高出 50%。

考慮到AMD在Zen 2架構方面取得了多大進展,以及頂級SKU將內核數量增加一倍(64比32),看起來AMD羅馬將對Xeon銷售施加更大壓力。

Apache Spark 2.1基準測試

Apache Spark是大數據處理的典範。加速大數據應用程序是我工作的大學實驗室(西佛蘭德大學學院的Sizing Servers Lab)的首要項目,因此我們製作了一個基準,它使用了許多Spark功能並基於實際使用情況。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

該測試在上圖中描述。我們首先從從CommonCrawl收集的300 GB壓縮數據開始。這些壓縮文件是大量的Web存檔。我們在運行中解壓縮數據以避免長時間的等待,這主要與存儲相關。然後,我們使用Java庫“BoilerPipe”從存檔中提取有意義的文本數據。使用Stanford CoreNLP自然語言處理工具包,我們從文本中提取實體(“含義詞”),然後計算這些實體中出現次數最多的URL。然後使用交替最小二乘算法來推薦哪些URL對於某個主題最有趣。

我們將最新的服務器轉換為虛擬集群,以更好地利用所有這些核心。我們運行8個執行器。研究員Esli Heyvaert也升級了我們的Spark基準測試,因此它可以在Apache Spark 2.1.1上運行。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

結果如下:

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

我們的Spark基準測試需要大約120 GB的RAM才能運行。在存儲I / O上花費的時間可以忽略不計。數據處理非常平行,但是混洗階段需要大量的內存交互。ALS階段在許多線程上的擴展性不佳,但不到總測試時間的4%。

由於我們不知道的原因,我們可以讓我們的2.7 GHz 8280比2.1 GHz Xeon 8176 表現更好。我們懷疑我們使用新的Xeon芯片與舊的(Skylake-SP)服務器的事實可能是原因,嘗試不同的Spark配置(執行程序,JVM設置)沒有幫助。BIOS更新對我們也沒有幫助。

好吧,這是大數據處理與大多數“傳統”機器學習相結合:NER和ALS。一些“深度學習”怎麼樣?

卷積神經網絡訓練

很長一段時間,CNN的前進方向是增加層數 - 增加“更深入學習”的網絡深度。正如你可能猜到的那樣,這導致收益遞減,並使已經很複雜的神經網絡更難調整,導致更多的訓練錯誤。

所述RESNET-50基準是基於剩餘網絡(因此RESNET),其具有更少的訓練誤差的優點作為網絡變得更深。

同時,作為一些內部管家,對於普通讀者,我會注意到下面的基準與Nate為我們的Titan V評論所進行的測試不能直接比較。它是相同的基準,但Nate運行了英偉達的Caffe2 Docker映像中包含的標準ResNet-50培訓實現。但是,由於我的團隊主要使用TensorFlow作為深度學習框架,我們傾向於堅持使用它。所有基準測試

tf_cnn_benchmarks.py --num_gpus = 1 --model =resnet50 --variable_update = parameter_server

該模型在ImageNet上訓練併為我們提供吞吐量數據。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

缺少幾個基準,這是有充分理由的。在Titan RTX上以FP32精度運行批量大小為512個訓練樣本會導致“內存不足”錯誤,因為該卡“僅”具有24 GB可用空間。

同時在Intel CPU上,半精度(FP16)尚不可用。AVX512 _ BF16(bfloat16)將在Cascade Lake的繼任者Cooper Lake中推出。

已經觀察到,使用較大批次可以導致模型質量的顯著降低,如通過其概括的能力所測量的。因此,雖然較大的批量大小(512)可以更好地利用GPU內部的大規模並行性,但批量較小(128)的結果也很有用。該模型的準確性僅損失了幾個百分點,但在許多應用中,甚至幾個百分點的損失都很重要。

因此,儘管您可以很快得出結論,Titan RTX的速度比最佳CPU快7倍,但根據您想要的精度,它可以更準確地說它的速度提高了4.5到7倍。

循環神經網絡:LSTM

我們的忠實讀者知道我們喜歡現實世界的企業基準。因此,在我們尋求更好的基準和更好的數據的過程中,MCT IT學士 (荷蘭語)的研究負責人Pieter Bovijn 將現實世界的AI模型轉變為基準。

模型的輸入是時間序列數據,用於預測時間序列在未來的行為方式。由於這是典型的序列預測問題,我們使用長短期記憶(LSTM)網絡作為神經網絡。作為一種RNN,LSTM在一定的持續時間內選擇性地“記住”模式。

然而,LSTM的缺點是它們的帶寬密集程度更高。我們引用最近一篇關於該主題的論文:

由於冗餘數據移動和有限的片外帶寬,LSTM在移動GPU上執行時表現出非常低效的存儲器訪問模式。

所以我們對LSTM網絡的表現非常好奇。畢竟,我們的服務器Xeons擁有足夠的帶寬,擁有38.5 MB的L3和6個DDR4-2666 / 2933通道(每個插槽128-141 GB / s)。我們使用50 GB的數據運行此測試,並將模型訓練5個時期。

當然,您可以充分利用可用的AVX / AVX2 /AVX512 SIMD電源。這就是我們使用3種不同設置進行測試的原因

1. 我們開箱即用TensorFlow與conda

2. 我們使用PyPi repo的Intel優化TensorFlow進行了測試

3. 我們使用Bazel 從源代碼優化 。這使我們可以使用最新版本的TensorFlow。

結果非常有趣。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

最密集的TensorFlow應用程序通常在GPU上運行,因此在CPU上進行測試時必須格外小心。AMD的Zen核心只有兩個128位FMAC,並且僅限於(256位)AVX2。英特爾的高端Xeon處理器 有兩個256位FMACs和一個512位FMAC。換句話說,在紙面上,英特爾的至強可以在每個時鐘週期內提供比AMD高四倍的FLOP。但只有軟件是正確的。英特爾一直與谷歌密切合作,為英特爾新Xeon優化TensorFlow出於必要:它必須在英偉達 Tesla太昂貴的情況下提供可靠的替代方案。與此同時,AMD希望ROCm能夠繼續發展,未來軟件工程師將在Radeon Pro上運行TensorFlow。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

當然,最大的問題是這與GPU相比如何。讓我們看看我們的英偉達 Titan RTX如何處理這種工作量。

首先,我們注意到FP16沒有太大的區別。其次,我們非常驚訝我們的Titan RTX比我們的雙Xeon設置快了不到3倍。

通過英偉達的系統管理接口(SMI)進一步調查,我們發現GPU確實以最高的渦輪速度運行:1.9 GHz,高於預期的1.775 GHz。同時利用率不時降至40%。

最後,這是另一個示例,說明實際應用程序的行為與基準測試的不同,以及軟件優化的重要性。如果我們剛剛使用了conda,上面的結果將會非常不同。使用正確的優化軟件使應用程序運行速度提高了2到6倍。此外,這另一個數據點證明CNN可能是GPU的最佳用例之一。您應該使用GPU來減少複雜LSTM的訓練時間。不過,這種神經網絡有點棘手 - 你不能簡單地添加更多的GPU來進一步減少訓練時間。

推論:ResNet-50

在根據訓練數據訓練您的模型之後,等待真正的測試。你的人工智能模型現在應該能夠將這些知識應用到現實世界中,並對新的現實數據做同樣的事情。這個過程叫做推理。推理不需要反向傳播,因為模型已經經過訓練——模型已經確定了權重。推理還可以利用較低的數值精度,並已證明,即使使用8位整數的精度有時是可以接受的。

從高級工作流執行的角度來看,一個工作的AI模型基本上是由一個服務控制的,而這個服務又是由另一個軟件服務調用的。因此模型應該響應非常快,但是應用程序的總延遲將由不同的服務決定。長話短說:如果推斷性能足夠高,感知到的延遲可能會轉移到另一個軟件組件。因此,Intel的任務是確保Xeons能夠提供足夠高的推理性能。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

由於DL Boost技術,英特爾有一個特殊的“祕訣”,可以在Cascade Lake上達到最佳推理性能。DLBoost包含矢量神經網絡指令,允許使用INT8操作代替FP32。整數運算本質上更快,並且通過僅使用8位,您獲得理論峰值,這是高四倍。

更復雜的是,當我們的Cascade Lake服務器崩潰時,我們正在嘗試推理。對於它的價值,我們從未達到每秒超過2000張圖像。但由於我們無法進一步實驗,我們給了英特爾懷疑的好處並使用了他們的數字。

與此同時,9282的出版引起了不小的轟動,因為英特爾聲稱最新的Xeons比英偉達的旗艦加速器(特斯拉V100)略勝一籌:7844比7636每秒的圖像。英偉達通過強調性能/瓦特/美元立即作出反應,並在報刊上獲得了大量報道。然而,我們拙見的最重要的一點是,特斯拉V100的結果無法比擬,因為每秒7600張圖像是在混合模式(FP32 / 16)而非INT8中獲得的。

一旦我們啟用INT8,2500美元的Titan RTX速度不會低於一對價值10萬 美元的Xeon 8280。

英特爾無法贏得這場戰鬥,而不是一蹴而就。儘管如此,英特爾的努力以及NIVIDA的迴應表明英特爾在提高推理和培訓績效方面的重要性。說服人們投資高端 Xeon而不是使用特斯拉V100的低端Xeon。在某些情況下,由於推理軟件組件只是軟件堆棧的一部分,因此比英偉達的產品慢3倍。

事實上,要真正分析所有角度的情況,我們還應該測量完整的AI應用程序的延遲,而不僅僅是測量推理吞吐量。但是,這將花費我們更多的時間來使這一個正確......

探索並行HPC

與服務器軟件基準測試一樣,HPC基準測試需要大量研究。我們絕對不是HPC專家,所以我們將自己限制在一個HPC基準測試中。

NAMD由伊利諾伊大學厄巴納 - 香檳分校的理論和計算生物物理學小組開發,是一套用於數千個核心極端並行化的並行分子動力學代碼。NAMD也是SPEC CPU2006 FP的一部分。

公平地說,NAMD主要是單精度。而且,正如您可能知道的那樣,Titan RTX旨在擅長單精度工作負載; 所以NAMD基準測試與Titan RTX非常匹配。特別是現在NAMD的作者揭示了:

在Pascal(P100)或更新的支持CUDA的GPU上運行時,性能顯著提高。

不過,這是一個有趣的基準,因為NAMD二進制文件是使用英特爾ICC編譯的,並針對AVX進行了優化。對於我們的測試,我們使用了“ NAMD _2.13_ Linux-x86 _ 64-multicore ”二進制文件。這個二進制文件支持AVX指令,但只支持Intel Xeon Phi 的“特殊” AVX-512指令。因此,我們還編譯了一個AVX-512 ICC優化二進制文件。這樣我們就能真正衡量AVX-512的運算能力。Xeon與英偉達的GPU加速相比。

我們使用了最流行的基準負載apoa1(載脂蛋白 A1)。結果以每個掛鐘日的模擬納秒錶示。我們測量500步。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

使用AVX-512可將此基準測試的性能提升46%。但同樣,這款軟件在GPU上的運行速度要快得多,這當然是可以理解的。至多,Xeon有28個內核,運行頻率為2.3 GHz。每個循環可以完成32次單精度浮動操作。總而言之,Xeon可以做2個TFLOP(2.3 G * 28 * 32)。所以雙Xeon設置最多可以完成4個TFLOP。泰坦RTX,在另一方面,可以做 16TFLOP 小號,或4倍之多。最終結果是,NAMD在Titan上的運行速度比雙Intel Xeon快3倍。

在人工智能新時代分析英特爾的Cascade Lake

總結一下,讓我們來看看第二代Xeon Scalable的性能,以及它在功能方面帶來的好處。使用Cascade Lake,英特爾將性能提高了3%到6%,提高了安全性,修復了一些非常重要的漏洞/攻擊,添加了一些SIMD指令,並改進了整個服務器平臺。這不是什麼驚天動地,但是你得到更多相同的價格和功率範圍,那麼什麼不喜歡?

5年前,當AMD沒有像Zen(2)體系結構這樣的東西時,ARM供應商仍然在努力應對提供痛苦的單線程性能緩慢的內核,並且深度學習處於早期階段。但這不是2014年,當時英特爾的表現優於最接近的競爭對手3倍!最終,Cascade Lake在CPU(而且只有CPU)運行良好的領域提供服務。但即使有英特爾的DL Boost努力,如果新芯片必須與GPU進行正面交鋒,而後者並不完全畏縮,那還不夠。

現實情況是,英特爾的數據中心集團面臨來自各方的巨大壓力。儘管整個服務器市場正在增長,但數據中心多年來第一次出現收入下降。

它已經持續了一段時間,但正如我們親身經歷的那樣,基於機器學習的AI應用程序正在成功推出,它們是軟件和硬件的遊戲規則改變者。因此,未來的服務器CPU評論將永遠不會完全相同:它不再是Intel與AMD甚至ARM,而是英偉達。英偉達在深度學習市場上非常成功,他們有足夠的信心在英特爾主導多年的領域採用英特爾:HPC,機器學習,甚至數據處理。英偉達已準備好加速數據管道的更大部分和更廣泛的AI應用程序。

英特爾Cascade Lake中的功能如DL Boost(VNNI)是英特爾首次嘗試推遲 - 以削減英偉達在推理性能方面的巨大優勢。與此同時,下一個Xeon - CooperLake將嘗試更接近英偉達的訓練表現。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

這張以“領先表現”為賣點的PPT還很方便地描述了英特爾在哪些市場處於非常脆弱的地位,儘管英特爾目前在數據中心佔據主導地位。雖然PPT的重點是英特爾Xeon 9200,這可能是一個很容易為高端鉑金8200 Xeons的PPT。

英特爾瞄準了高性能計算、人工智能和高密度的基礎設施來銷售其昂貴的Xeons。但隨著市場轉向不那麼傳統的商業智能、更多的機器學習和GPU加速的高性能計算,高端Xeons的市場正在萎縮。英特爾擁有非常廣泛的人工智能產品組合,從Movidius (edge inference)到Nervana NNP(用於DL培訓的ASIC),他們將需要它來取代Xeon在這些細分市場的份額。

中檔的Xeon與Nervana NNP協處理器結合使用可能會很好,而且對於大多數人工智能應用程序來說,它肯定是比Xeon 9200更好的解決方案。同樣的道理也適用於高性能計算:我們願意打賭,如果你使用中檔Xeons和一個快速的英偉達 GPU,你的情況會好得多。根據AMD的EPYC 2的定價,即使是這樣也可能會有爭議。

創芯大講堂是EETOP旗下的在線教育平臺,我們將針對中高級工程師開設電子行業的高質量系列培訓課程。

創芯大講堂推出的課程主要圍繞半導體集成電路全產業鏈。將會包括:設計製造,前端後端,模擬、數字,混合集成電路等相關技術領域。

作為大型電子工程師社區---EETOP旗下的教育平臺,創芯大講堂在開設集成電路設計相關課程基礎上也會陸續推出針對受眾群更廣泛的硬件設計、嵌入式、軟件開發等各類課程。

在此我們也誠摯邀請集成電路設計、硬件設計及項目開發經驗豐富並願意分享給更多工程師的培訓講師加入到我們的講師團隊中來!

EETOP誠邀以下技術領域講師加入“培訓講師團”:

  • IC設計、驗證、版圖、測試、製造與封裝等

  • 模擬/數字電路設計

  • FPGA設計

  • 人工智能、物聯網等行業芯片及系統設計

  • 嵌入式開發

願您一展身手,並將您的知識和經驗轉化為成長中的集成電路工程師們的指路明燈。

成為EETOP的“培訓講師”,您將:

  • 按課程收益情況,獲取非常具有吸引力的報酬,保障付出回報。

  • EETOP將為您進行內部渠道推廣,第一時間將您的課程推送給EETOP百萬高質量工程師用戶群。

  • 通過分享,提升講師在行業裡的個人影響力,讓講師與EETOP平臺同步成長。

培訓課程將分線上、線下兩種模式進行(線上課程又分錄播和直播)。讓我們一起攜手,幫助越來越多想要在集成電路行業發光發亮的工程師開啟夢想之旅。

英特爾Xeon Cascade Lake與NVIDIA圖靈:人工智能分析

如果您有意向參加到EETOP培訓講師隊伍

"

相關推薦

推薦中...