'7nm為羽、Zen 2為翼,AMD第二代EPYC(霄龍)處理器技術詳解'

"


"


7nm為羽、Zen 2為翼,AMD第二代EPYC(霄龍)處理器技術詳解

上一個十年,AMD曾經憑藉皓龍(Opteron)在服務器、數據中心領域獲得過超過四分之一的市場份額。在成功推出Zen架構之後,AMD在2017年推出了皓龍的接班人——全新的EPYC(霄龍)系列處理器,重新成為服務器、數據中心領域的強有力競爭者。2018 年底,AMD再接再厲,正式公佈了業界首款採用7nm生產工藝、基於Zen 2 架構、代號“Rome”的第二代EPYC(霄龍)系列處理器。半年多之後,AMD今天終於在舊金山(當地時間8月7日,北京時間8月8日)正式發佈這款產品。那麼讓我們來看看第二代EPYC(霄龍)系列處理器都有哪些“獨門祕訣”!

7nm生產工藝領銜

在確定了以TSMC臺積電作為合作伙伴之後,AMD迅速將全線新款產品的生產工藝推進到7nm,已經正式上市的第三代銳龍處理器和Radeon RT 5700系列顯卡均採用7nm工藝生產,此次發佈的第二代EPYC(霄龍)系列處理器當然也不會例外。臺積電的7nm工藝全稱是7nm HK-MG FinFET,針對不同的用途分為兩種:一種為移動設備設計,被稱為“7FF”,以低功耗和較高性能功耗比為主要特點;另一種為高性能處理器設計,名為“7HPC”。那麼7nm生產工藝有哪些好處呢?AMD官方數據顯示,採用7nm生產工藝的處理器在晶圓密度上提高了兩倍;在相同性能下,功耗可以降低一半;在相同功耗下,性能較前代產品可以提升25%。

"


7nm為羽、Zen 2為翼,AMD第二代EPYC(霄龍)處理器技術詳解

上一個十年,AMD曾經憑藉皓龍(Opteron)在服務器、數據中心領域獲得過超過四分之一的市場份額。在成功推出Zen架構之後,AMD在2017年推出了皓龍的接班人——全新的EPYC(霄龍)系列處理器,重新成為服務器、數據中心領域的強有力競爭者。2018 年底,AMD再接再厲,正式公佈了業界首款採用7nm生產工藝、基於Zen 2 架構、代號“Rome”的第二代EPYC(霄龍)系列處理器。半年多之後,AMD今天終於在舊金山(當地時間8月7日,北京時間8月8日)正式發佈這款產品。那麼讓我們來看看第二代EPYC(霄龍)系列處理器都有哪些“獨門祕訣”!

7nm生產工藝領銜

在確定了以TSMC臺積電作為合作伙伴之後,AMD迅速將全線新款產品的生產工藝推進到7nm,已經正式上市的第三代銳龍處理器和Radeon RT 5700系列顯卡均採用7nm工藝生產,此次發佈的第二代EPYC(霄龍)系列處理器當然也不會例外。臺積電的7nm工藝全稱是7nm HK-MG FinFET,針對不同的用途分為兩種:一種為移動設備設計,被稱為“7FF”,以低功耗和較高性能功耗比為主要特點;另一種為高性能處理器設計,名為“7HPC”。那麼7nm生產工藝有哪些好處呢?AMD官方數據顯示,採用7nm生產工藝的處理器在晶圓密度上提高了兩倍;在相同性能下,功耗可以降低一半;在相同功耗下,性能較前代產品可以提升25%。

7nm為羽、Zen 2為翼,AMD第二代EPYC(霄龍)處理器技術詳解

▲採用7nm生產工藝的處理器在晶圓密度上提高了兩倍;在相同性能下,功耗可以降低一半;在相同功耗下,性能較前代產品可以提升25%。

今天,AMD代號為“Rome”的第二代(霄龍)處理器已經正式發佈,而英特爾基於10nm生產工藝的服務器產品目前還沒有太多信息,按照以往的慣例,服務器類產品的推出節奏通常會比消費類產品的晚一年,而10nm的英特爾消費類產品目前才剛開始發佈相關品牌的產品。所以,這是在多年之後,AMD首次表示其服務器處理器在生產工藝上取得領先,特別是在每瓦性能方面。當然,目前英特爾方面則認為其10nm製程的晶體管密度更好。兩者的技術特性目前尚無進一步的詳細對比資料,有興趣的讀者可以關注我們後續的報道。

"


7nm為羽、Zen 2為翼,AMD第二代EPYC(霄龍)處理器技術詳解

上一個十年,AMD曾經憑藉皓龍(Opteron)在服務器、數據中心領域獲得過超過四分之一的市場份額。在成功推出Zen架構之後,AMD在2017年推出了皓龍的接班人——全新的EPYC(霄龍)系列處理器,重新成為服務器、數據中心領域的強有力競爭者。2018 年底,AMD再接再厲,正式公佈了業界首款採用7nm生產工藝、基於Zen 2 架構、代號“Rome”的第二代EPYC(霄龍)系列處理器。半年多之後,AMD今天終於在舊金山(當地時間8月7日,北京時間8月8日)正式發佈這款產品。那麼讓我們來看看第二代EPYC(霄龍)系列處理器都有哪些“獨門祕訣”!

7nm生產工藝領銜

在確定了以TSMC臺積電作為合作伙伴之後,AMD迅速將全線新款產品的生產工藝推進到7nm,已經正式上市的第三代銳龍處理器和Radeon RT 5700系列顯卡均採用7nm工藝生產,此次發佈的第二代EPYC(霄龍)系列處理器當然也不會例外。臺積電的7nm工藝全稱是7nm HK-MG FinFET,針對不同的用途分為兩種:一種為移動設備設計,被稱為“7FF”,以低功耗和較高性能功耗比為主要特點;另一種為高性能處理器設計,名為“7HPC”。那麼7nm生產工藝有哪些好處呢?AMD官方數據顯示,採用7nm生產工藝的處理器在晶圓密度上提高了兩倍;在相同性能下,功耗可以降低一半;在相同功耗下,性能較前代產品可以提升25%。

7nm為羽、Zen 2為翼,AMD第二代EPYC(霄龍)處理器技術詳解

▲採用7nm生產工藝的處理器在晶圓密度上提高了兩倍;在相同性能下,功耗可以降低一半;在相同功耗下,性能較前代產品可以提升25%。

今天,AMD代號為“Rome”的第二代(霄龍)處理器已經正式發佈,而英特爾基於10nm生產工藝的服務器產品目前還沒有太多信息,按照以往的慣例,服務器類產品的推出節奏通常會比消費類產品的晚一年,而10nm的英特爾消費類產品目前才剛開始發佈相關品牌的產品。所以,這是在多年之後,AMD首次表示其服務器處理器在生產工藝上取得領先,特別是在每瓦性能方面。當然,目前英特爾方面則認為其10nm製程的晶體管密度更好。兩者的技術特性目前尚無進一步的詳細對比資料,有興趣的讀者可以關注我們後續的報道。

7nm為羽、Zen 2為翼,AMD第二代EPYC(霄龍)處理器技術詳解

▲憑藉先進的7nm生產工藝,AMD表示已經在生產工藝上領先競爭對手。

Zen 2架構:全面架構提升+革命性的分離式設計

除了製造工藝上的優勢之外,第二代AMD EPYC(霄龍)系列處理器最重要的革新其實是其核心基於Zen 2架構。相較於上一代產品所採用的Zen架構,Zen 2架構在各方面都進行了增強。其中最核心的有兩個部分:一是核心微架構升級,二是計算單元和I/O單元的分離。

丨升級核心微架構,IPC大幅提升丨

AMD 在Zen架構設計時就非常注重提升處理器的單核心IPC性能。Zen架構核心相比前代產品單核心IPC性能提升了超過52%之多。也正因為如此,才使得AMD在高性能處理器領域趕上了競爭對手的步伐。據AMD在舊金山EPYC Horizon 發佈會上宣佈,擁有最高64顆Zen 2核心的第二代AMD EPYC(霄龍)處理器,相比Zen核心架構,服務器工作負載的IPC性能提升最高達23%!

IPC性能大幅提升的主要原因在於,AMD在設計Zen 2架構時對內部架構進行了大幅改良。比如大幅改進了分支預測功能,全新的TAGE分支預測器相比上一代的Perceptron,在各級指令緩存,微操作緩存以及L1 cache的關聯寬度等方面幾乎都是翻倍的,預測失敗的機率降低了三分之一。無論利用效率、指令融合效率和有效吞吐量都更好。

"


7nm為羽、Zen 2為翼,AMD第二代EPYC(霄龍)處理器技術詳解

上一個十年,AMD曾經憑藉皓龍(Opteron)在服務器、數據中心領域獲得過超過四分之一的市場份額。在成功推出Zen架構之後,AMD在2017年推出了皓龍的接班人——全新的EPYC(霄龍)系列處理器,重新成為服務器、數據中心領域的強有力競爭者。2018 年底,AMD再接再厲,正式公佈了業界首款採用7nm生產工藝、基於Zen 2 架構、代號“Rome”的第二代EPYC(霄龍)系列處理器。半年多之後,AMD今天終於在舊金山(當地時間8月7日,北京時間8月8日)正式發佈這款產品。那麼讓我們來看看第二代EPYC(霄龍)系列處理器都有哪些“獨門祕訣”!

7nm生產工藝領銜

在確定了以TSMC臺積電作為合作伙伴之後,AMD迅速將全線新款產品的生產工藝推進到7nm,已經正式上市的第三代銳龍處理器和Radeon RT 5700系列顯卡均採用7nm工藝生產,此次發佈的第二代EPYC(霄龍)系列處理器當然也不會例外。臺積電的7nm工藝全稱是7nm HK-MG FinFET,針對不同的用途分為兩種:一種為移動設備設計,被稱為“7FF”,以低功耗和較高性能功耗比為主要特點;另一種為高性能處理器設計,名為“7HPC”。那麼7nm生產工藝有哪些好處呢?AMD官方數據顯示,採用7nm生產工藝的處理器在晶圓密度上提高了兩倍;在相同性能下,功耗可以降低一半;在相同功耗下,性能較前代產品可以提升25%。

7nm為羽、Zen 2為翼,AMD第二代EPYC(霄龍)處理器技術詳解

▲採用7nm生產工藝的處理器在晶圓密度上提高了兩倍;在相同性能下,功耗可以降低一半;在相同功耗下,性能較前代產品可以提升25%。

今天,AMD代號為“Rome”的第二代(霄龍)處理器已經正式發佈,而英特爾基於10nm生產工藝的服務器產品目前還沒有太多信息,按照以往的慣例,服務器類產品的推出節奏通常會比消費類產品的晚一年,而10nm的英特爾消費類產品目前才剛開始發佈相關品牌的產品。所以,這是在多年之後,AMD首次表示其服務器處理器在生產工藝上取得領先,特別是在每瓦性能方面。當然,目前英特爾方面則認為其10nm製程的晶體管密度更好。兩者的技術特性目前尚無進一步的詳細對比資料,有興趣的讀者可以關注我們後續的報道。

7nm為羽、Zen 2為翼,AMD第二代EPYC(霄龍)處理器技術詳解

▲憑藉先進的7nm生產工藝,AMD表示已經在生產工藝上領先競爭對手。

Zen 2架構:全面架構提升+革命性的分離式設計

除了製造工藝上的優勢之外,第二代AMD EPYC(霄龍)系列處理器最重要的革新其實是其核心基於Zen 2架構。相較於上一代產品所採用的Zen架構,Zen 2架構在各方面都進行了增強。其中最核心的有兩個部分:一是核心微架構升級,二是計算單元和I/O單元的分離。

丨升級核心微架構,IPC大幅提升丨

AMD 在Zen架構設計時就非常注重提升處理器的單核心IPC性能。Zen架構核心相比前代產品單核心IPC性能提升了超過52%之多。也正因為如此,才使得AMD在高性能處理器領域趕上了競爭對手的步伐。據AMD在舊金山EPYC Horizon 發佈會上宣佈,擁有最高64顆Zen 2核心的第二代AMD EPYC(霄龍)處理器,相比Zen核心架構,服務器工作負載的IPC性能提升最高達23%!

IPC性能大幅提升的主要原因在於,AMD在設計Zen 2架構時對內部架構進行了大幅改良。比如大幅改進了分支預測功能,全新的TAGE分支預測器相比上一代的Perceptron,在各級指令緩存,微操作緩存以及L1 cache的關聯寬度等方面幾乎都是翻倍的,預測失敗的機率降低了三分之一。無論利用效率、指令融合效率和有效吞吐量都更好。

7nm為羽、Zen 2為翼,AMD第二代EPYC(霄龍)處理器技術詳解

▲相比Zen,Zen 2採用了更優良的TAGE分支預測器和更大的運行緩存。

在整數運算單元上,Zen 2架構的ALU數量沒有變,但是管理數據載入和存儲指令的AGU單元從兩個提升到了3個,並提升了各種緩存大小,增強了ALU、AGU的調度能力,使其更加合理。

"


7nm為羽、Zen 2為翼,AMD第二代EPYC(霄龍)處理器技術詳解

上一個十年,AMD曾經憑藉皓龍(Opteron)在服務器、數據中心領域獲得過超過四分之一的市場份額。在成功推出Zen架構之後,AMD在2017年推出了皓龍的接班人——全新的EPYC(霄龍)系列處理器,重新成為服務器、數據中心領域的強有力競爭者。2018 年底,AMD再接再厲,正式公佈了業界首款採用7nm生產工藝、基於Zen 2 架構、代號“Rome”的第二代EPYC(霄龍)系列處理器。半年多之後,AMD今天終於在舊金山(當地時間8月7日,北京時間8月8日)正式發佈這款產品。那麼讓我們來看看第二代EPYC(霄龍)系列處理器都有哪些“獨門祕訣”!

7nm生產工藝領銜

在確定了以TSMC臺積電作為合作伙伴之後,AMD迅速將全線新款產品的生產工藝推進到7nm,已經正式上市的第三代銳龍處理器和Radeon RT 5700系列顯卡均採用7nm工藝生產,此次發佈的第二代EPYC(霄龍)系列處理器當然也不會例外。臺積電的7nm工藝全稱是7nm HK-MG FinFET,針對不同的用途分為兩種:一種為移動設備設計,被稱為“7FF”,以低功耗和較高性能功耗比為主要特點;另一種為高性能處理器設計,名為“7HPC”。那麼7nm生產工藝有哪些好處呢?AMD官方數據顯示,採用7nm生產工藝的處理器在晶圓密度上提高了兩倍;在相同性能下,功耗可以降低一半;在相同功耗下,性能較前代產品可以提升25%。

7nm為羽、Zen 2為翼,AMD第二代EPYC(霄龍)處理器技術詳解

▲採用7nm生產工藝的處理器在晶圓密度上提高了兩倍;在相同性能下,功耗可以降低一半;在相同功耗下,性能較前代產品可以提升25%。

今天,AMD代號為“Rome”的第二代(霄龍)處理器已經正式發佈,而英特爾基於10nm生產工藝的服務器產品目前還沒有太多信息,按照以往的慣例,服務器類產品的推出節奏通常會比消費類產品的晚一年,而10nm的英特爾消費類產品目前才剛開始發佈相關品牌的產品。所以,這是在多年之後,AMD首次表示其服務器處理器在生產工藝上取得領先,特別是在每瓦性能方面。當然,目前英特爾方面則認為其10nm製程的晶體管密度更好。兩者的技術特性目前尚無進一步的詳細對比資料,有興趣的讀者可以關注我們後續的報道。

7nm為羽、Zen 2為翼,AMD第二代EPYC(霄龍)處理器技術詳解

▲憑藉先進的7nm生產工藝,AMD表示已經在生產工藝上領先競爭對手。

Zen 2架構:全面架構提升+革命性的分離式設計

除了製造工藝上的優勢之外,第二代AMD EPYC(霄龍)系列處理器最重要的革新其實是其核心基於Zen 2架構。相較於上一代產品所採用的Zen架構,Zen 2架構在各方面都進行了增強。其中最核心的有兩個部分:一是核心微架構升級,二是計算單元和I/O單元的分離。

丨升級核心微架構,IPC大幅提升丨

AMD 在Zen架構設計時就非常注重提升處理器的單核心IPC性能。Zen架構核心相比前代產品單核心IPC性能提升了超過52%之多。也正因為如此,才使得AMD在高性能處理器領域趕上了競爭對手的步伐。據AMD在舊金山EPYC Horizon 發佈會上宣佈,擁有最高64顆Zen 2核心的第二代AMD EPYC(霄龍)處理器,相比Zen核心架構,服務器工作負載的IPC性能提升最高達23%!

IPC性能大幅提升的主要原因在於,AMD在設計Zen 2架構時對內部架構進行了大幅改良。比如大幅改進了分支預測功能,全新的TAGE分支預測器相比上一代的Perceptron,在各級指令緩存,微操作緩存以及L1 cache的關聯寬度等方面幾乎都是翻倍的,預測失敗的機率降低了三分之一。無論利用效率、指令融合效率和有效吞吐量都更好。

7nm為羽、Zen 2為翼,AMD第二代EPYC(霄龍)處理器技術詳解

▲相比Zen,Zen 2採用了更優良的TAGE分支預測器和更大的運行緩存。

在整數運算單元上,Zen 2架構的ALU數量沒有變,但是管理數據載入和存儲指令的AGU單元從兩個提升到了3個,並提升了各種緩存大小,增強了ALU、AGU的調度能力,使其更加合理。

7nm為羽、Zen 2為翼,AMD第二代EPYC(霄龍)處理器技術詳解

▲在整數運算單元方面,Zen中對數據載入和存儲指令進行管理的AGU單元為兩個,而Zen 2則提升到3個。

浮點運算單元的數據路徑寬度為256bit,比上一代翻倍了,不僅具有更大的吞吐量,同時也更好地實現了對AVX-256指令的支持。此外,浮點運算單元的數據載入和存儲帶寬也獲得了提升,將使得數據的傳輸更具效率,並減少了與整數單元出現衝突的概率。

"


7nm為羽、Zen 2為翼,AMD第二代EPYC(霄龍)處理器技術詳解

上一個十年,AMD曾經憑藉皓龍(Opteron)在服務器、數據中心領域獲得過超過四分之一的市場份額。在成功推出Zen架構之後,AMD在2017年推出了皓龍的接班人——全新的EPYC(霄龍)系列處理器,重新成為服務器、數據中心領域的強有力競爭者。2018 年底,AMD再接再厲,正式公佈了業界首款採用7nm生產工藝、基於Zen 2 架構、代號“Rome”的第二代EPYC(霄龍)系列處理器。半年多之後,AMD今天終於在舊金山(當地時間8月7日,北京時間8月8日)正式發佈這款產品。那麼讓我們來看看第二代EPYC(霄龍)系列處理器都有哪些“獨門祕訣”!

7nm生產工藝領銜

在確定了以TSMC臺積電作為合作伙伴之後,AMD迅速將全線新款產品的生產工藝推進到7nm,已經正式上市的第三代銳龍處理器和Radeon RT 5700系列顯卡均採用7nm工藝生產,此次發佈的第二代EPYC(霄龍)系列處理器當然也不會例外。臺積電的7nm工藝全稱是7nm HK-MG FinFET,針對不同的用途分為兩種:一種為移動設備設計,被稱為“7FF”,以低功耗和較高性能功耗比為主要特點;另一種為高性能處理器設計,名為“7HPC”。那麼7nm生產工藝有哪些好處呢?AMD官方數據顯示,採用7nm生產工藝的處理器在晶圓密度上提高了兩倍;在相同性能下,功耗可以降低一半;在相同功耗下,性能較前代產品可以提升25%。

7nm為羽、Zen 2為翼,AMD第二代EPYC(霄龍)處理器技術詳解

▲採用7nm生產工藝的處理器在晶圓密度上提高了兩倍;在相同性能下,功耗可以降低一半;在相同功耗下,性能較前代產品可以提升25%。

今天,AMD代號為“Rome”的第二代(霄龍)處理器已經正式發佈,而英特爾基於10nm生產工藝的服務器產品目前還沒有太多信息,按照以往的慣例,服務器類產品的推出節奏通常會比消費類產品的晚一年,而10nm的英特爾消費類產品目前才剛開始發佈相關品牌的產品。所以,這是在多年之後,AMD首次表示其服務器處理器在生產工藝上取得領先,特別是在每瓦性能方面。當然,目前英特爾方面則認為其10nm製程的晶體管密度更好。兩者的技術特性目前尚無進一步的詳細對比資料,有興趣的讀者可以關注我們後續的報道。

7nm為羽、Zen 2為翼,AMD第二代EPYC(霄龍)處理器技術詳解

▲憑藉先進的7nm生產工藝,AMD表示已經在生產工藝上領先競爭對手。

Zen 2架構:全面架構提升+革命性的分離式設計

除了製造工藝上的優勢之外,第二代AMD EPYC(霄龍)系列處理器最重要的革新其實是其核心基於Zen 2架構。相較於上一代產品所採用的Zen架構,Zen 2架構在各方面都進行了增強。其中最核心的有兩個部分:一是核心微架構升級,二是計算單元和I/O單元的分離。

丨升級核心微架構,IPC大幅提升丨

AMD 在Zen架構設計時就非常注重提升處理器的單核心IPC性能。Zen架構核心相比前代產品單核心IPC性能提升了超過52%之多。也正因為如此,才使得AMD在高性能處理器領域趕上了競爭對手的步伐。據AMD在舊金山EPYC Horizon 發佈會上宣佈,擁有最高64顆Zen 2核心的第二代AMD EPYC(霄龍)處理器,相比Zen核心架構,服務器工作負載的IPC性能提升最高達23%!

IPC性能大幅提升的主要原因在於,AMD在設計Zen 2架構時對內部架構進行了大幅改良。比如大幅改進了分支預測功能,全新的TAGE分支預測器相比上一代的Perceptron,在各級指令緩存,微操作緩存以及L1 cache的關聯寬度等方面幾乎都是翻倍的,預測失敗的機率降低了三分之一。無論利用效率、指令融合效率和有效吞吐量都更好。

7nm為羽、Zen 2為翼,AMD第二代EPYC(霄龍)處理器技術詳解

▲相比Zen,Zen 2採用了更優良的TAGE分支預測器和更大的運行緩存。

在整數運算單元上,Zen 2架構的ALU數量沒有變,但是管理數據載入和存儲指令的AGU單元從兩個提升到了3個,並提升了各種緩存大小,增強了ALU、AGU的調度能力,使其更加合理。

7nm為羽、Zen 2為翼,AMD第二代EPYC(霄龍)處理器技術詳解

▲在整數運算單元方面,Zen中對數據載入和存儲指令進行管理的AGU單元為兩個,而Zen 2則提升到3個。

浮點運算單元的數據路徑寬度為256bit,比上一代翻倍了,不僅具有更大的吞吐量,同時也更好地實現了對AVX-256指令的支持。此外,浮點運算單元的數據載入和存儲帶寬也獲得了提升,將使得數據的傳輸更具效率,並減少了與整數單元出現衝突的概率。

7nm為羽、Zen 2為翼,AMD第二代EPYC(霄龍)處理器技術詳解

▲Zen 2採用了256bit的浮點單元

丨模塊化設計帶來更高靈活度丨

除了核心架構的進步,Zen2在處理器的設計佈局上也進行了變革,以便實現更高靈活度的模塊化設計。CHIPLET模塊化設計是基於AMD Infinity Fabric互聯的增強版本,其核心思路是在單個處理器封裝內鏈接多片獨立的硅晶片。和上一代Zen架構中每個處理器核心分別自帶相關I/O模塊截然不同的是,Zen2架構徹底將處理器核心和I/O模塊分離,計算核心本身不再提供I/O接口而專注於運算,I/O模塊成為連接各個計算核心和外部鏈接的中樞。


"


7nm為羽、Zen 2為翼,AMD第二代EPYC(霄龍)處理器技術詳解

上一個十年,AMD曾經憑藉皓龍(Opteron)在服務器、數據中心領域獲得過超過四分之一的市場份額。在成功推出Zen架構之後,AMD在2017年推出了皓龍的接班人——全新的EPYC(霄龍)系列處理器,重新成為服務器、數據中心領域的強有力競爭者。2018 年底,AMD再接再厲,正式公佈了業界首款採用7nm生產工藝、基於Zen 2 架構、代號“Rome”的第二代EPYC(霄龍)系列處理器。半年多之後,AMD今天終於在舊金山(當地時間8月7日,北京時間8月8日)正式發佈這款產品。那麼讓我們來看看第二代EPYC(霄龍)系列處理器都有哪些“獨門祕訣”!

7nm生產工藝領銜

在確定了以TSMC臺積電作為合作伙伴之後,AMD迅速將全線新款產品的生產工藝推進到7nm,已經正式上市的第三代銳龍處理器和Radeon RT 5700系列顯卡均採用7nm工藝生產,此次發佈的第二代EPYC(霄龍)系列處理器當然也不會例外。臺積電的7nm工藝全稱是7nm HK-MG FinFET,針對不同的用途分為兩種:一種為移動設備設計,被稱為“7FF”,以低功耗和較高性能功耗比為主要特點;另一種為高性能處理器設計,名為“7HPC”。那麼7nm生產工藝有哪些好處呢?AMD官方數據顯示,採用7nm生產工藝的處理器在晶圓密度上提高了兩倍;在相同性能下,功耗可以降低一半;在相同功耗下,性能較前代產品可以提升25%。

7nm為羽、Zen 2為翼,AMD第二代EPYC(霄龍)處理器技術詳解

▲採用7nm生產工藝的處理器在晶圓密度上提高了兩倍;在相同性能下,功耗可以降低一半;在相同功耗下,性能較前代產品可以提升25%。

今天,AMD代號為“Rome”的第二代(霄龍)處理器已經正式發佈,而英特爾基於10nm生產工藝的服務器產品目前還沒有太多信息,按照以往的慣例,服務器類產品的推出節奏通常會比消費類產品的晚一年,而10nm的英特爾消費類產品目前才剛開始發佈相關品牌的產品。所以,這是在多年之後,AMD首次表示其服務器處理器在生產工藝上取得領先,特別是在每瓦性能方面。當然,目前英特爾方面則認為其10nm製程的晶體管密度更好。兩者的技術特性目前尚無進一步的詳細對比資料,有興趣的讀者可以關注我們後續的報道。

7nm為羽、Zen 2為翼,AMD第二代EPYC(霄龍)處理器技術詳解

▲憑藉先進的7nm生產工藝,AMD表示已經在生產工藝上領先競爭對手。

Zen 2架構:全面架構提升+革命性的分離式設計

除了製造工藝上的優勢之外,第二代AMD EPYC(霄龍)系列處理器最重要的革新其實是其核心基於Zen 2架構。相較於上一代產品所採用的Zen架構,Zen 2架構在各方面都進行了增強。其中最核心的有兩個部分:一是核心微架構升級,二是計算單元和I/O單元的分離。

丨升級核心微架構,IPC大幅提升丨

AMD 在Zen架構設計時就非常注重提升處理器的單核心IPC性能。Zen架構核心相比前代產品單核心IPC性能提升了超過52%之多。也正因為如此,才使得AMD在高性能處理器領域趕上了競爭對手的步伐。據AMD在舊金山EPYC Horizon 發佈會上宣佈,擁有最高64顆Zen 2核心的第二代AMD EPYC(霄龍)處理器,相比Zen核心架構,服務器工作負載的IPC性能提升最高達23%!

IPC性能大幅提升的主要原因在於,AMD在設計Zen 2架構時對內部架構進行了大幅改良。比如大幅改進了分支預測功能,全新的TAGE分支預測器相比上一代的Perceptron,在各級指令緩存,微操作緩存以及L1 cache的關聯寬度等方面幾乎都是翻倍的,預測失敗的機率降低了三分之一。無論利用效率、指令融合效率和有效吞吐量都更好。

7nm為羽、Zen 2為翼,AMD第二代EPYC(霄龍)處理器技術詳解

▲相比Zen,Zen 2採用了更優良的TAGE分支預測器和更大的運行緩存。

在整數運算單元上,Zen 2架構的ALU數量沒有變,但是管理數據載入和存儲指令的AGU單元從兩個提升到了3個,並提升了各種緩存大小,增強了ALU、AGU的調度能力,使其更加合理。

7nm為羽、Zen 2為翼,AMD第二代EPYC(霄龍)處理器技術詳解

▲在整數運算單元方面,Zen中對數據載入和存儲指令進行管理的AGU單元為兩個,而Zen 2則提升到3個。

浮點運算單元的數據路徑寬度為256bit,比上一代翻倍了,不僅具有更大的吞吐量,同時也更好地實現了對AVX-256指令的支持。此外,浮點運算單元的數據載入和存儲帶寬也獲得了提升,將使得數據的傳輸更具效率,並減少了與整數單元出現衝突的概率。

7nm為羽、Zen 2為翼,AMD第二代EPYC(霄龍)處理器技術詳解

▲Zen 2採用了256bit的浮點單元

丨模塊化設計帶來更高靈活度丨

除了核心架構的進步,Zen2在處理器的設計佈局上也進行了變革,以便實現更高靈活度的模塊化設計。CHIPLET模塊化設計是基於AMD Infinity Fabric互聯的增強版本,其核心思路是在單個處理器封裝內鏈接多片獨立的硅晶片。和上一代Zen架構中每個處理器核心分別自帶相關I/O模塊截然不同的是,Zen2架構徹底將處理器核心和I/O模塊分離,計算核心本身不再提供I/O接口而專注於運算,I/O模塊成為連接各個計算核心和外部鏈接的中樞。


7nm為羽、Zen 2為翼,AMD第二代EPYC(霄龍)處理器技術詳解

▲Zen 2的計算核心和I/O模塊分離,計算核心本身不再提供I/O接口而專注於運算,I/O模塊成為連接計算核心和外部鏈接的中樞。

Zen 2的計算核心採用先進的7nm製程工藝生產,有助於縮小晶片面積、提高頻率、降低功耗。而I/O部分由於模擬電路更多,即使採用7nm工藝也不會帶來面積、功耗等方面的明顯改善,所以採用成熟的14nm工藝製造。這種創新的模塊化設計的優勢明顯——在同等功耗下擁有更多的CPU核心,可以獲得更高的性能;而與傳統的單片設計相比,生產成本又更低。將這種全新的設計方法與臺積電最前沿的7nm生產工藝優勢相結合,Zen 2架構帶來了性能、能耗和計算密度的提升,有助於大幅降低數據中心的運營成本和散熱需求。

"


7nm為羽、Zen 2為翼,AMD第二代EPYC(霄龍)處理器技術詳解

上一個十年,AMD曾經憑藉皓龍(Opteron)在服務器、數據中心領域獲得過超過四分之一的市場份額。在成功推出Zen架構之後,AMD在2017年推出了皓龍的接班人——全新的EPYC(霄龍)系列處理器,重新成為服務器、數據中心領域的強有力競爭者。2018 年底,AMD再接再厲,正式公佈了業界首款採用7nm生產工藝、基於Zen 2 架構、代號“Rome”的第二代EPYC(霄龍)系列處理器。半年多之後,AMD今天終於在舊金山(當地時間8月7日,北京時間8月8日)正式發佈這款產品。那麼讓我們來看看第二代EPYC(霄龍)系列處理器都有哪些“獨門祕訣”!

7nm生產工藝領銜

在確定了以TSMC臺積電作為合作伙伴之後,AMD迅速將全線新款產品的生產工藝推進到7nm,已經正式上市的第三代銳龍處理器和Radeon RT 5700系列顯卡均採用7nm工藝生產,此次發佈的第二代EPYC(霄龍)系列處理器當然也不會例外。臺積電的7nm工藝全稱是7nm HK-MG FinFET,針對不同的用途分為兩種:一種為移動設備設計,被稱為“7FF”,以低功耗和較高性能功耗比為主要特點;另一種為高性能處理器設計,名為“7HPC”。那麼7nm生產工藝有哪些好處呢?AMD官方數據顯示,採用7nm生產工藝的處理器在晶圓密度上提高了兩倍;在相同性能下,功耗可以降低一半;在相同功耗下,性能較前代產品可以提升25%。

7nm為羽、Zen 2為翼,AMD第二代EPYC(霄龍)處理器技術詳解

▲採用7nm生產工藝的處理器在晶圓密度上提高了兩倍;在相同性能下,功耗可以降低一半;在相同功耗下,性能較前代產品可以提升25%。

今天,AMD代號為“Rome”的第二代(霄龍)處理器已經正式發佈,而英特爾基於10nm生產工藝的服務器產品目前還沒有太多信息,按照以往的慣例,服務器類產品的推出節奏通常會比消費類產品的晚一年,而10nm的英特爾消費類產品目前才剛開始發佈相關品牌的產品。所以,這是在多年之後,AMD首次表示其服務器處理器在生產工藝上取得領先,特別是在每瓦性能方面。當然,目前英特爾方面則認為其10nm製程的晶體管密度更好。兩者的技術特性目前尚無進一步的詳細對比資料,有興趣的讀者可以關注我們後續的報道。

7nm為羽、Zen 2為翼,AMD第二代EPYC(霄龍)處理器技術詳解

▲憑藉先進的7nm生產工藝,AMD表示已經在生產工藝上領先競爭對手。

Zen 2架構:全面架構提升+革命性的分離式設計

除了製造工藝上的優勢之外,第二代AMD EPYC(霄龍)系列處理器最重要的革新其實是其核心基於Zen 2架構。相較於上一代產品所採用的Zen架構,Zen 2架構在各方面都進行了增強。其中最核心的有兩個部分:一是核心微架構升級,二是計算單元和I/O單元的分離。

丨升級核心微架構,IPC大幅提升丨

AMD 在Zen架構設計時就非常注重提升處理器的單核心IPC性能。Zen架構核心相比前代產品單核心IPC性能提升了超過52%之多。也正因為如此,才使得AMD在高性能處理器領域趕上了競爭對手的步伐。據AMD在舊金山EPYC Horizon 發佈會上宣佈,擁有最高64顆Zen 2核心的第二代AMD EPYC(霄龍)處理器,相比Zen核心架構,服務器工作負載的IPC性能提升最高達23%!

IPC性能大幅提升的主要原因在於,AMD在設計Zen 2架構時對內部架構進行了大幅改良。比如大幅改進了分支預測功能,全新的TAGE分支預測器相比上一代的Perceptron,在各級指令緩存,微操作緩存以及L1 cache的關聯寬度等方面幾乎都是翻倍的,預測失敗的機率降低了三分之一。無論利用效率、指令融合效率和有效吞吐量都更好。

7nm為羽、Zen 2為翼,AMD第二代EPYC(霄龍)處理器技術詳解

▲相比Zen,Zen 2採用了更優良的TAGE分支預測器和更大的運行緩存。

在整數運算單元上,Zen 2架構的ALU數量沒有變,但是管理數據載入和存儲指令的AGU單元從兩個提升到了3個,並提升了各種緩存大小,增強了ALU、AGU的調度能力,使其更加合理。

7nm為羽、Zen 2為翼,AMD第二代EPYC(霄龍)處理器技術詳解

▲在整數運算單元方面,Zen中對數據載入和存儲指令進行管理的AGU單元為兩個,而Zen 2則提升到3個。

浮點運算單元的數據路徑寬度為256bit,比上一代翻倍了,不僅具有更大的吞吐量,同時也更好地實現了對AVX-256指令的支持。此外,浮點運算單元的數據載入和存儲帶寬也獲得了提升,將使得數據的傳輸更具效率,並減少了與整數單元出現衝突的概率。

7nm為羽、Zen 2為翼,AMD第二代EPYC(霄龍)處理器技術詳解

▲Zen 2採用了256bit的浮點單元

丨模塊化設計帶來更高靈活度丨

除了核心架構的進步,Zen2在處理器的設計佈局上也進行了變革,以便實現更高靈活度的模塊化設計。CHIPLET模塊化設計是基於AMD Infinity Fabric互聯的增強版本,其核心思路是在單個處理器封裝內鏈接多片獨立的硅晶片。和上一代Zen架構中每個處理器核心分別自帶相關I/O模塊截然不同的是,Zen2架構徹底將處理器核心和I/O模塊分離,計算核心本身不再提供I/O接口而專注於運算,I/O模塊成為連接各個計算核心和外部鏈接的中樞。


7nm為羽、Zen 2為翼,AMD第二代EPYC(霄龍)處理器技術詳解

▲Zen 2的計算核心和I/O模塊分離,計算核心本身不再提供I/O接口而專注於運算,I/O模塊成為連接計算核心和外部鏈接的中樞。

Zen 2的計算核心採用先進的7nm製程工藝生產,有助於縮小晶片面積、提高頻率、降低功耗。而I/O部分由於模擬電路更多,即使採用7nm工藝也不會帶來面積、功耗等方面的明顯改善,所以採用成熟的14nm工藝製造。這種創新的模塊化設計的優勢明顯——在同等功耗下擁有更多的CPU核心,可以獲得更高的性能;而與傳統的單片設計相比,生產成本又更低。將這種全新的設計方法與臺積電最前沿的7nm生產工藝優勢相結合,Zen 2架構帶來了性能、能耗和計算密度的提升,有助於大幅降低數據中心的運營成本和散熱需求。

7nm為羽、Zen 2為翼,AMD第二代EPYC(霄龍)處理器技術詳解

▲Zen 2架構中每個SoC擁有9個Die(即8個計算核心和1個I/O模塊),而Zen架構中每個SoC則擁有4個分別自帶I/O模塊的計算核心。

除了性能和成本上的優勢,採用模塊化設計的優勢還在於可以根據計算需要,靈活地將不同數量的計算核心與I/O模塊搭配,以實現不同的規格。Zen 2單個計算模塊的規格是8核心、16線程,單顆第二代AMD EPYC(霄龍)處理器的SoC封裝最多可以搭配8個計算模塊,這樣就能夠實現最多64核心、128線程的規格。此前單路CPU最多的物理核心記錄也只有32個,所以第二代AMD EPYC(霄龍)處理器在物理核心數量上實現了翻倍,而且還支持SMT技術。

丨升級的NUMA模式丨

不僅如此,Zen 2架構還升級了NUMA(Non-Uniform Memory Access)非統一內存訪問模式。所謂NUMA,簡單來說就是在NUMA模式下CPU 核心和內存控制器將優先處理物理結構上離處理器最近的內存中數據,除非內容過大會溢出到下一個內存模塊,這可以有效降低這些數據的訪問延遲並提高整體效能。

在Zen架構中,由於Zen架構中每個Die都擁有獨立的內存控制器,所以當這兩顆分別擁有4個Die的CPU(一共8個Die)進行數據傳輸時,就一共會存在8個NUMA域,並且最多會存在3個NUMA間距。因此在基於Zen架構的雙路系統中,兩顆CPU之間進行數據傳輸時,延遲會達到一個較高的水平,這也會影響到整體效能。

不過在Zen 2架構中,每顆CPU的所有內存控制器都集成在I/O Die中,所以當基於Zen 2架構的兩顆CPU組建雙路系統時,它們在NUMA模式下只會存在兩個NUMA域,並且這兩顆CPU之間也僅有兩個NUMA間距。因此,更少的NUMA域和間距將會降低雙路系統中兩顆CPU之間的數據傳輸延遲,同時也能有效提升其整體效能。

"


7nm為羽、Zen 2為翼,AMD第二代EPYC(霄龍)處理器技術詳解

上一個十年,AMD曾經憑藉皓龍(Opteron)在服務器、數據中心領域獲得過超過四分之一的市場份額。在成功推出Zen架構之後,AMD在2017年推出了皓龍的接班人——全新的EPYC(霄龍)系列處理器,重新成為服務器、數據中心領域的強有力競爭者。2018 年底,AMD再接再厲,正式公佈了業界首款採用7nm生產工藝、基於Zen 2 架構、代號“Rome”的第二代EPYC(霄龍)系列處理器。半年多之後,AMD今天終於在舊金山(當地時間8月7日,北京時間8月8日)正式發佈這款產品。那麼讓我們來看看第二代EPYC(霄龍)系列處理器都有哪些“獨門祕訣”!

7nm生產工藝領銜

在確定了以TSMC臺積電作為合作伙伴之後,AMD迅速將全線新款產品的生產工藝推進到7nm,已經正式上市的第三代銳龍處理器和Radeon RT 5700系列顯卡均採用7nm工藝生產,此次發佈的第二代EPYC(霄龍)系列處理器當然也不會例外。臺積電的7nm工藝全稱是7nm HK-MG FinFET,針對不同的用途分為兩種:一種為移動設備設計,被稱為“7FF”,以低功耗和較高性能功耗比為主要特點;另一種為高性能處理器設計,名為“7HPC”。那麼7nm生產工藝有哪些好處呢?AMD官方數據顯示,採用7nm生產工藝的處理器在晶圓密度上提高了兩倍;在相同性能下,功耗可以降低一半;在相同功耗下,性能較前代產品可以提升25%。

7nm為羽、Zen 2為翼,AMD第二代EPYC(霄龍)處理器技術詳解

▲採用7nm生產工藝的處理器在晶圓密度上提高了兩倍;在相同性能下,功耗可以降低一半;在相同功耗下,性能較前代產品可以提升25%。

今天,AMD代號為“Rome”的第二代(霄龍)處理器已經正式發佈,而英特爾基於10nm生產工藝的服務器產品目前還沒有太多信息,按照以往的慣例,服務器類產品的推出節奏通常會比消費類產品的晚一年,而10nm的英特爾消費類產品目前才剛開始發佈相關品牌的產品。所以,這是在多年之後,AMD首次表示其服務器處理器在生產工藝上取得領先,特別是在每瓦性能方面。當然,目前英特爾方面則認為其10nm製程的晶體管密度更好。兩者的技術特性目前尚無進一步的詳細對比資料,有興趣的讀者可以關注我們後續的報道。

7nm為羽、Zen 2為翼,AMD第二代EPYC(霄龍)處理器技術詳解

▲憑藉先進的7nm生產工藝,AMD表示已經在生產工藝上領先競爭對手。

Zen 2架構:全面架構提升+革命性的分離式設計

除了製造工藝上的優勢之外,第二代AMD EPYC(霄龍)系列處理器最重要的革新其實是其核心基於Zen 2架構。相較於上一代產品所採用的Zen架構,Zen 2架構在各方面都進行了增強。其中最核心的有兩個部分:一是核心微架構升級,二是計算單元和I/O單元的分離。

丨升級核心微架構,IPC大幅提升丨

AMD 在Zen架構設計時就非常注重提升處理器的單核心IPC性能。Zen架構核心相比前代產品單核心IPC性能提升了超過52%之多。也正因為如此,才使得AMD在高性能處理器領域趕上了競爭對手的步伐。據AMD在舊金山EPYC Horizon 發佈會上宣佈,擁有最高64顆Zen 2核心的第二代AMD EPYC(霄龍)處理器,相比Zen核心架構,服務器工作負載的IPC性能提升最高達23%!

IPC性能大幅提升的主要原因在於,AMD在設計Zen 2架構時對內部架構進行了大幅改良。比如大幅改進了分支預測功能,全新的TAGE分支預測器相比上一代的Perceptron,在各級指令緩存,微操作緩存以及L1 cache的關聯寬度等方面幾乎都是翻倍的,預測失敗的機率降低了三分之一。無論利用效率、指令融合效率和有效吞吐量都更好。

7nm為羽、Zen 2為翼,AMD第二代EPYC(霄龍)處理器技術詳解

▲相比Zen,Zen 2採用了更優良的TAGE分支預測器和更大的運行緩存。

在整數運算單元上,Zen 2架構的ALU數量沒有變,但是管理數據載入和存儲指令的AGU單元從兩個提升到了3個,並提升了各種緩存大小,增強了ALU、AGU的調度能力,使其更加合理。

7nm為羽、Zen 2為翼,AMD第二代EPYC(霄龍)處理器技術詳解

▲在整數運算單元方面,Zen中對數據載入和存儲指令進行管理的AGU單元為兩個,而Zen 2則提升到3個。

浮點運算單元的數據路徑寬度為256bit,比上一代翻倍了,不僅具有更大的吞吐量,同時也更好地實現了對AVX-256指令的支持。此外,浮點運算單元的數據載入和存儲帶寬也獲得了提升,將使得數據的傳輸更具效率,並減少了與整數單元出現衝突的概率。

7nm為羽、Zen 2為翼,AMD第二代EPYC(霄龍)處理器技術詳解

▲Zen 2採用了256bit的浮點單元

丨模塊化設計帶來更高靈活度丨

除了核心架構的進步,Zen2在處理器的設計佈局上也進行了變革,以便實現更高靈活度的模塊化設計。CHIPLET模塊化設計是基於AMD Infinity Fabric互聯的增強版本,其核心思路是在單個處理器封裝內鏈接多片獨立的硅晶片。和上一代Zen架構中每個處理器核心分別自帶相關I/O模塊截然不同的是,Zen2架構徹底將處理器核心和I/O模塊分離,計算核心本身不再提供I/O接口而專注於運算,I/O模塊成為連接各個計算核心和外部鏈接的中樞。


7nm為羽、Zen 2為翼,AMD第二代EPYC(霄龍)處理器技術詳解

▲Zen 2的計算核心和I/O模塊分離,計算核心本身不再提供I/O接口而專注於運算,I/O模塊成為連接計算核心和外部鏈接的中樞。

Zen 2的計算核心採用先進的7nm製程工藝生產,有助於縮小晶片面積、提高頻率、降低功耗。而I/O部分由於模擬電路更多,即使採用7nm工藝也不會帶來面積、功耗等方面的明顯改善,所以採用成熟的14nm工藝製造。這種創新的模塊化設計的優勢明顯——在同等功耗下擁有更多的CPU核心,可以獲得更高的性能;而與傳統的單片設計相比,生產成本又更低。將這種全新的設計方法與臺積電最前沿的7nm生產工藝優勢相結合,Zen 2架構帶來了性能、能耗和計算密度的提升,有助於大幅降低數據中心的運營成本和散熱需求。

7nm為羽、Zen 2為翼,AMD第二代EPYC(霄龍)處理器技術詳解

▲Zen 2架構中每個SoC擁有9個Die(即8個計算核心和1個I/O模塊),而Zen架構中每個SoC則擁有4個分別自帶I/O模塊的計算核心。

除了性能和成本上的優勢,採用模塊化設計的優勢還在於可以根據計算需要,靈活地將不同數量的計算核心與I/O模塊搭配,以實現不同的規格。Zen 2單個計算模塊的規格是8核心、16線程,單顆第二代AMD EPYC(霄龍)處理器的SoC封裝最多可以搭配8個計算模塊,這樣就能夠實現最多64核心、128線程的規格。此前單路CPU最多的物理核心記錄也只有32個,所以第二代AMD EPYC(霄龍)處理器在物理核心數量上實現了翻倍,而且還支持SMT技術。

丨升級的NUMA模式丨

不僅如此,Zen 2架構還升級了NUMA(Non-Uniform Memory Access)非統一內存訪問模式。所謂NUMA,簡單來說就是在NUMA模式下CPU 核心和內存控制器將優先處理物理結構上離處理器最近的內存中數據,除非內容過大會溢出到下一個內存模塊,這可以有效降低這些數據的訪問延遲並提高整體效能。

在Zen架構中,由於Zen架構中每個Die都擁有獨立的內存控制器,所以當這兩顆分別擁有4個Die的CPU(一共8個Die)進行數據傳輸時,就一共會存在8個NUMA域,並且最多會存在3個NUMA間距。因此在基於Zen架構的雙路系統中,兩顆CPU之間進行數據傳輸時,延遲會達到一個較高的水平,這也會影響到整體效能。

不過在Zen 2架構中,每顆CPU的所有內存控制器都集成在I/O Die中,所以當基於Zen 2架構的兩顆CPU組建雙路系統時,它們在NUMA模式下只會存在兩個NUMA域,並且這兩顆CPU之間也僅有兩個NUMA間距。因此,更少的NUMA域和間距將會降低雙路系統中兩顆CPU之間的數據傳輸延遲,同時也能有效提升其整體效能。

7nm為羽、Zen 2為翼,AMD第二代EPYC(霄龍)處理器技術詳解

▲相比Zen架構,Zen 2架構在NUMA模式下擁有更少的NUMA域和NUMA間距,所以在雙路系統中兩顆CPU之間的數據傳輸延遲更低。

其實Zen 2架構中NUMA模式的改進還不止如此,為了滿足不同使用場景的性能需求,Zen 2架構還擁有多種NUMA模式,這些模式名為“NPSx”(英文全稱為NUMA Nodes Per Socket)。從AMD給出的資料來看,Zen 2架構中最多可實現NPS4、NPS2、NPS1、NPS0這4中NUMA模式。

其中,每顆基於Zen 2架構,擁有8個Die的第二代AMD EPYC(霄龍)處理器在NPS4下,其8個Die將被分為4組(每兩個Die一組),每組中的兩個Die將會與通過物理結構最近的內存控制器讀取對應這兩個通道中內存的數據(即不能讀取其他內存通道中的內存數據,所以這兩個Die可用的內存容量有限)。由於使用了物理層結構最近的內存控制器,所以在NPS4下,每個Die的內存讀寫延遲更低,並且內存帶寬更高。不過由於這種模式下每組中的兩個Die可用內存容量有限,某些對內存容量要求較高的應用並不適合使用NPS4模式。

此外,NPS2就是把第二代AMD EPYC(霄龍)處理器的8個或者4個Die平均分為兩組,每組中的Die也是通過物理結構最近的內存控制器讀取4個通道中內存的數據。因此相比NPS4,NPS2模式下每組可使用的內存容量更大,但內存延遲也稍高一些。同理,NPS1模式可同時適用於所有單路和雙路系統,每顆CPU使用各自的內存控制器去訪問相應的8通道內存。而NPS0僅適用於雙路系統,兩顆CPU共同使用16個內存通道。

"


7nm為羽、Zen 2為翼,AMD第二代EPYC(霄龍)處理器技術詳解

上一個十年,AMD曾經憑藉皓龍(Opteron)在服務器、數據中心領域獲得過超過四分之一的市場份額。在成功推出Zen架構之後,AMD在2017年推出了皓龍的接班人——全新的EPYC(霄龍)系列處理器,重新成為服務器、數據中心領域的強有力競爭者。2018 年底,AMD再接再厲,正式公佈了業界首款採用7nm生產工藝、基於Zen 2 架構、代號“Rome”的第二代EPYC(霄龍)系列處理器。半年多之後,AMD今天終於在舊金山(當地時間8月7日,北京時間8月8日)正式發佈這款產品。那麼讓我們來看看第二代EPYC(霄龍)系列處理器都有哪些“獨門祕訣”!

7nm生產工藝領銜

在確定了以TSMC臺積電作為合作伙伴之後,AMD迅速將全線新款產品的生產工藝推進到7nm,已經正式上市的第三代銳龍處理器和Radeon RT 5700系列顯卡均採用7nm工藝生產,此次發佈的第二代EPYC(霄龍)系列處理器當然也不會例外。臺積電的7nm工藝全稱是7nm HK-MG FinFET,針對不同的用途分為兩種:一種為移動設備設計,被稱為“7FF”,以低功耗和較高性能功耗比為主要特點;另一種為高性能處理器設計,名為“7HPC”。那麼7nm生產工藝有哪些好處呢?AMD官方數據顯示,採用7nm生產工藝的處理器在晶圓密度上提高了兩倍;在相同性能下,功耗可以降低一半;在相同功耗下,性能較前代產品可以提升25%。

7nm為羽、Zen 2為翼,AMD第二代EPYC(霄龍)處理器技術詳解

▲採用7nm生產工藝的處理器在晶圓密度上提高了兩倍;在相同性能下,功耗可以降低一半;在相同功耗下,性能較前代產品可以提升25%。

今天,AMD代號為“Rome”的第二代(霄龍)處理器已經正式發佈,而英特爾基於10nm生產工藝的服務器產品目前還沒有太多信息,按照以往的慣例,服務器類產品的推出節奏通常會比消費類產品的晚一年,而10nm的英特爾消費類產品目前才剛開始發佈相關品牌的產品。所以,這是在多年之後,AMD首次表示其服務器處理器在生產工藝上取得領先,特別是在每瓦性能方面。當然,目前英特爾方面則認為其10nm製程的晶體管密度更好。兩者的技術特性目前尚無進一步的詳細對比資料,有興趣的讀者可以關注我們後續的報道。

7nm為羽、Zen 2為翼,AMD第二代EPYC(霄龍)處理器技術詳解

▲憑藉先進的7nm生產工藝,AMD表示已經在生產工藝上領先競爭對手。

Zen 2架構:全面架構提升+革命性的分離式設計

除了製造工藝上的優勢之外,第二代AMD EPYC(霄龍)系列處理器最重要的革新其實是其核心基於Zen 2架構。相較於上一代產品所採用的Zen架構,Zen 2架構在各方面都進行了增強。其中最核心的有兩個部分:一是核心微架構升級,二是計算單元和I/O單元的分離。

丨升級核心微架構,IPC大幅提升丨

AMD 在Zen架構設計時就非常注重提升處理器的單核心IPC性能。Zen架構核心相比前代產品單核心IPC性能提升了超過52%之多。也正因為如此,才使得AMD在高性能處理器領域趕上了競爭對手的步伐。據AMD在舊金山EPYC Horizon 發佈會上宣佈,擁有最高64顆Zen 2核心的第二代AMD EPYC(霄龍)處理器,相比Zen核心架構,服務器工作負載的IPC性能提升最高達23%!

IPC性能大幅提升的主要原因在於,AMD在設計Zen 2架構時對內部架構進行了大幅改良。比如大幅改進了分支預測功能,全新的TAGE分支預測器相比上一代的Perceptron,在各級指令緩存,微操作緩存以及L1 cache的關聯寬度等方面幾乎都是翻倍的,預測失敗的機率降低了三分之一。無論利用效率、指令融合效率和有效吞吐量都更好。

7nm為羽、Zen 2為翼,AMD第二代EPYC(霄龍)處理器技術詳解

▲相比Zen,Zen 2採用了更優良的TAGE分支預測器和更大的運行緩存。

在整數運算單元上,Zen 2架構的ALU數量沒有變,但是管理數據載入和存儲指令的AGU單元從兩個提升到了3個,並提升了各種緩存大小,增強了ALU、AGU的調度能力,使其更加合理。

7nm為羽、Zen 2為翼,AMD第二代EPYC(霄龍)處理器技術詳解

▲在整數運算單元方面,Zen中對數據載入和存儲指令進行管理的AGU單元為兩個,而Zen 2則提升到3個。

浮點運算單元的數據路徑寬度為256bit,比上一代翻倍了,不僅具有更大的吞吐量,同時也更好地實現了對AVX-256指令的支持。此外,浮點運算單元的數據載入和存儲帶寬也獲得了提升,將使得數據的傳輸更具效率,並減少了與整數單元出現衝突的概率。

7nm為羽、Zen 2為翼,AMD第二代EPYC(霄龍)處理器技術詳解

▲Zen 2採用了256bit的浮點單元

丨模塊化設計帶來更高靈活度丨

除了核心架構的進步,Zen2在處理器的設計佈局上也進行了變革,以便實現更高靈活度的模塊化設計。CHIPLET模塊化設計是基於AMD Infinity Fabric互聯的增強版本,其核心思路是在單個處理器封裝內鏈接多片獨立的硅晶片。和上一代Zen架構中每個處理器核心分別自帶相關I/O模塊截然不同的是,Zen2架構徹底將處理器核心和I/O模塊分離,計算核心本身不再提供I/O接口而專注於運算,I/O模塊成為連接各個計算核心和外部鏈接的中樞。


7nm為羽、Zen 2為翼,AMD第二代EPYC(霄龍)處理器技術詳解

▲Zen 2的計算核心和I/O模塊分離,計算核心本身不再提供I/O接口而專注於運算,I/O模塊成為連接計算核心和外部鏈接的中樞。

Zen 2的計算核心採用先進的7nm製程工藝生產,有助於縮小晶片面積、提高頻率、降低功耗。而I/O部分由於模擬電路更多,即使採用7nm工藝也不會帶來面積、功耗等方面的明顯改善,所以採用成熟的14nm工藝製造。這種創新的模塊化設計的優勢明顯——在同等功耗下擁有更多的CPU核心,可以獲得更高的性能;而與傳統的單片設計相比,生產成本又更低。將這種全新的設計方法與臺積電最前沿的7nm生產工藝優勢相結合,Zen 2架構帶來了性能、能耗和計算密度的提升,有助於大幅降低數據中心的運營成本和散熱需求。

7nm為羽、Zen 2為翼,AMD第二代EPYC(霄龍)處理器技術詳解

▲Zen 2架構中每個SoC擁有9個Die(即8個計算核心和1個I/O模塊),而Zen架構中每個SoC則擁有4個分別自帶I/O模塊的計算核心。

除了性能和成本上的優勢,採用模塊化設計的優勢還在於可以根據計算需要,靈活地將不同數量的計算核心與I/O模塊搭配,以實現不同的規格。Zen 2單個計算模塊的規格是8核心、16線程,單顆第二代AMD EPYC(霄龍)處理器的SoC封裝最多可以搭配8個計算模塊,這樣就能夠實現最多64核心、128線程的規格。此前單路CPU最多的物理核心記錄也只有32個,所以第二代AMD EPYC(霄龍)處理器在物理核心數量上實現了翻倍,而且還支持SMT技術。

丨升級的NUMA模式丨

不僅如此,Zen 2架構還升級了NUMA(Non-Uniform Memory Access)非統一內存訪問模式。所謂NUMA,簡單來說就是在NUMA模式下CPU 核心和內存控制器將優先處理物理結構上離處理器最近的內存中數據,除非內容過大會溢出到下一個內存模塊,這可以有效降低這些數據的訪問延遲並提高整體效能。

在Zen架構中,由於Zen架構中每個Die都擁有獨立的內存控制器,所以當這兩顆分別擁有4個Die的CPU(一共8個Die)進行數據傳輸時,就一共會存在8個NUMA域,並且最多會存在3個NUMA間距。因此在基於Zen架構的雙路系統中,兩顆CPU之間進行數據傳輸時,延遲會達到一個較高的水平,這也會影響到整體效能。

不過在Zen 2架構中,每顆CPU的所有內存控制器都集成在I/O Die中,所以當基於Zen 2架構的兩顆CPU組建雙路系統時,它們在NUMA模式下只會存在兩個NUMA域,並且這兩顆CPU之間也僅有兩個NUMA間距。因此,更少的NUMA域和間距將會降低雙路系統中兩顆CPU之間的數據傳輸延遲,同時也能有效提升其整體效能。

7nm為羽、Zen 2為翼,AMD第二代EPYC(霄龍)處理器技術詳解

▲相比Zen架構,Zen 2架構在NUMA模式下擁有更少的NUMA域和NUMA間距,所以在雙路系統中兩顆CPU之間的數據傳輸延遲更低。

其實Zen 2架構中NUMA模式的改進還不止如此,為了滿足不同使用場景的性能需求,Zen 2架構還擁有多種NUMA模式,這些模式名為“NPSx”(英文全稱為NUMA Nodes Per Socket)。從AMD給出的資料來看,Zen 2架構中最多可實現NPS4、NPS2、NPS1、NPS0這4中NUMA模式。

其中,每顆基於Zen 2架構,擁有8個Die的第二代AMD EPYC(霄龍)處理器在NPS4下,其8個Die將被分為4組(每兩個Die一組),每組中的兩個Die將會與通過物理結構最近的內存控制器讀取對應這兩個通道中內存的數據(即不能讀取其他內存通道中的內存數據,所以這兩個Die可用的內存容量有限)。由於使用了物理層結構最近的內存控制器,所以在NPS4下,每個Die的內存讀寫延遲更低,並且內存帶寬更高。不過由於這種模式下每組中的兩個Die可用內存容量有限,某些對內存容量要求較高的應用並不適合使用NPS4模式。

此外,NPS2就是把第二代AMD EPYC(霄龍)處理器的8個或者4個Die平均分為兩組,每組中的Die也是通過物理結構最近的內存控制器讀取4個通道中內存的數據。因此相比NPS4,NPS2模式下每組可使用的內存容量更大,但內存延遲也稍高一些。同理,NPS1模式可同時適用於所有單路和雙路系統,每顆CPU使用各自的內存控制器去訪問相應的8通道內存。而NPS0僅適用於雙路系統,兩顆CPU共同使用16個內存通道。

7nm為羽、Zen 2為翼,AMD第二代EPYC(霄龍)處理器技術詳解

▲不同核心數的第二代AMD EPYC(霄龍)處理器可支持的NUMA模式有所不同

更加可靠的安全性

除了全新升級的架構和革命性的分離式設計之外,基於Zen 2架構的第二代AMD EPYC(霄龍)處理器還從硬件層面提供了非常可靠的安全性。第二代AMD EPYC(霄龍)處理器中集成了AMD安全協處理器(ARM Cortex-A5架構的32位控制器),運行於安全的系統/內核,可以確保固件數據等片外非易失性存儲的安全,提供安全加密功能,並可實現硬件驗證啟動,和x86系統的隔離性更好。此外,其內存控制器中還集成了AES-128加密引擎,當提供相應的密鑰時,該加密引擎可以自動加密和解密主存儲器中的數據。

"


7nm為羽、Zen 2為翼,AMD第二代EPYC(霄龍)處理器技術詳解

上一個十年,AMD曾經憑藉皓龍(Opteron)在服務器、數據中心領域獲得過超過四分之一的市場份額。在成功推出Zen架構之後,AMD在2017年推出了皓龍的接班人——全新的EPYC(霄龍)系列處理器,重新成為服務器、數據中心領域的強有力競爭者。2018 年底,AMD再接再厲,正式公佈了業界首款採用7nm生產工藝、基於Zen 2 架構、代號“Rome”的第二代EPYC(霄龍)系列處理器。半年多之後,AMD今天終於在舊金山(當地時間8月7日,北京時間8月8日)正式發佈這款產品。那麼讓我們來看看第二代EPYC(霄龍)系列處理器都有哪些“獨門祕訣”!

7nm生產工藝領銜

在確定了以TSMC臺積電作為合作伙伴之後,AMD迅速將全線新款產品的生產工藝推進到7nm,已經正式上市的第三代銳龍處理器和Radeon RT 5700系列顯卡均採用7nm工藝生產,此次發佈的第二代EPYC(霄龍)系列處理器當然也不會例外。臺積電的7nm工藝全稱是7nm HK-MG FinFET,針對不同的用途分為兩種:一種為移動設備設計,被稱為“7FF”,以低功耗和較高性能功耗比為主要特點;另一種為高性能處理器設計,名為“7HPC”。那麼7nm生產工藝有哪些好處呢?AMD官方數據顯示,採用7nm生產工藝的處理器在晶圓密度上提高了兩倍;在相同性能下,功耗可以降低一半;在相同功耗下,性能較前代產品可以提升25%。

7nm為羽、Zen 2為翼,AMD第二代EPYC(霄龍)處理器技術詳解

▲採用7nm生產工藝的處理器在晶圓密度上提高了兩倍;在相同性能下,功耗可以降低一半;在相同功耗下,性能較前代產品可以提升25%。

今天,AMD代號為“Rome”的第二代(霄龍)處理器已經正式發佈,而英特爾基於10nm生產工藝的服務器產品目前還沒有太多信息,按照以往的慣例,服務器類產品的推出節奏通常會比消費類產品的晚一年,而10nm的英特爾消費類產品目前才剛開始發佈相關品牌的產品。所以,這是在多年之後,AMD首次表示其服務器處理器在生產工藝上取得領先,特別是在每瓦性能方面。當然,目前英特爾方面則認為其10nm製程的晶體管密度更好。兩者的技術特性目前尚無進一步的詳細對比資料,有興趣的讀者可以關注我們後續的報道。

7nm為羽、Zen 2為翼,AMD第二代EPYC(霄龍)處理器技術詳解

▲憑藉先進的7nm生產工藝,AMD表示已經在生產工藝上領先競爭對手。

Zen 2架構:全面架構提升+革命性的分離式設計

除了製造工藝上的優勢之外,第二代AMD EPYC(霄龍)系列處理器最重要的革新其實是其核心基於Zen 2架構。相較於上一代產品所採用的Zen架構,Zen 2架構在各方面都進行了增強。其中最核心的有兩個部分:一是核心微架構升級,二是計算單元和I/O單元的分離。

丨升級核心微架構,IPC大幅提升丨

AMD 在Zen架構設計時就非常注重提升處理器的單核心IPC性能。Zen架構核心相比前代產品單核心IPC性能提升了超過52%之多。也正因為如此,才使得AMD在高性能處理器領域趕上了競爭對手的步伐。據AMD在舊金山EPYC Horizon 發佈會上宣佈,擁有最高64顆Zen 2核心的第二代AMD EPYC(霄龍)處理器,相比Zen核心架構,服務器工作負載的IPC性能提升最高達23%!

IPC性能大幅提升的主要原因在於,AMD在設計Zen 2架構時對內部架構進行了大幅改良。比如大幅改進了分支預測功能,全新的TAGE分支預測器相比上一代的Perceptron,在各級指令緩存,微操作緩存以及L1 cache的關聯寬度等方面幾乎都是翻倍的,預測失敗的機率降低了三分之一。無論利用效率、指令融合效率和有效吞吐量都更好。

7nm為羽、Zen 2為翼,AMD第二代EPYC(霄龍)處理器技術詳解

▲相比Zen,Zen 2採用了更優良的TAGE分支預測器和更大的運行緩存。

在整數運算單元上,Zen 2架構的ALU數量沒有變,但是管理數據載入和存儲指令的AGU單元從兩個提升到了3個,並提升了各種緩存大小,增強了ALU、AGU的調度能力,使其更加合理。

7nm為羽、Zen 2為翼,AMD第二代EPYC(霄龍)處理器技術詳解

▲在整數運算單元方面,Zen中對數據載入和存儲指令進行管理的AGU單元為兩個,而Zen 2則提升到3個。

浮點運算單元的數據路徑寬度為256bit,比上一代翻倍了,不僅具有更大的吞吐量,同時也更好地實現了對AVX-256指令的支持。此外,浮點運算單元的數據載入和存儲帶寬也獲得了提升,將使得數據的傳輸更具效率,並減少了與整數單元出現衝突的概率。

7nm為羽、Zen 2為翼,AMD第二代EPYC(霄龍)處理器技術詳解

▲Zen 2採用了256bit的浮點單元

丨模塊化設計帶來更高靈活度丨

除了核心架構的進步,Zen2在處理器的設計佈局上也進行了變革,以便實現更高靈活度的模塊化設計。CHIPLET模塊化設計是基於AMD Infinity Fabric互聯的增強版本,其核心思路是在單個處理器封裝內鏈接多片獨立的硅晶片。和上一代Zen架構中每個處理器核心分別自帶相關I/O模塊截然不同的是,Zen2架構徹底將處理器核心和I/O模塊分離,計算核心本身不再提供I/O接口而專注於運算,I/O模塊成為連接各個計算核心和外部鏈接的中樞。


7nm為羽、Zen 2為翼,AMD第二代EPYC(霄龍)處理器技術詳解

▲Zen 2的計算核心和I/O模塊分離,計算核心本身不再提供I/O接口而專注於運算,I/O模塊成為連接計算核心和外部鏈接的中樞。

Zen 2的計算核心採用先進的7nm製程工藝生產,有助於縮小晶片面積、提高頻率、降低功耗。而I/O部分由於模擬電路更多,即使採用7nm工藝也不會帶來面積、功耗等方面的明顯改善,所以採用成熟的14nm工藝製造。這種創新的模塊化設計的優勢明顯——在同等功耗下擁有更多的CPU核心,可以獲得更高的性能;而與傳統的單片設計相比,生產成本又更低。將這種全新的設計方法與臺積電最前沿的7nm生產工藝優勢相結合,Zen 2架構帶來了性能、能耗和計算密度的提升,有助於大幅降低數據中心的運營成本和散熱需求。

7nm為羽、Zen 2為翼,AMD第二代EPYC(霄龍)處理器技術詳解

▲Zen 2架構中每個SoC擁有9個Die(即8個計算核心和1個I/O模塊),而Zen架構中每個SoC則擁有4個分別自帶I/O模塊的計算核心。

除了性能和成本上的優勢,採用模塊化設計的優勢還在於可以根據計算需要,靈活地將不同數量的計算核心與I/O模塊搭配,以實現不同的規格。Zen 2單個計算模塊的規格是8核心、16線程,單顆第二代AMD EPYC(霄龍)處理器的SoC封裝最多可以搭配8個計算模塊,這樣就能夠實現最多64核心、128線程的規格。此前單路CPU最多的物理核心記錄也只有32個,所以第二代AMD EPYC(霄龍)處理器在物理核心數量上實現了翻倍,而且還支持SMT技術。

丨升級的NUMA模式丨

不僅如此,Zen 2架構還升級了NUMA(Non-Uniform Memory Access)非統一內存訪問模式。所謂NUMA,簡單來說就是在NUMA模式下CPU 核心和內存控制器將優先處理物理結構上離處理器最近的內存中數據,除非內容過大會溢出到下一個內存模塊,這可以有效降低這些數據的訪問延遲並提高整體效能。

在Zen架構中,由於Zen架構中每個Die都擁有獨立的內存控制器,所以當這兩顆分別擁有4個Die的CPU(一共8個Die)進行數據傳輸時,就一共會存在8個NUMA域,並且最多會存在3個NUMA間距。因此在基於Zen架構的雙路系統中,兩顆CPU之間進行數據傳輸時,延遲會達到一個較高的水平,這也會影響到整體效能。

不過在Zen 2架構中,每顆CPU的所有內存控制器都集成在I/O Die中,所以當基於Zen 2架構的兩顆CPU組建雙路系統時,它們在NUMA模式下只會存在兩個NUMA域,並且這兩顆CPU之間也僅有兩個NUMA間距。因此,更少的NUMA域和間距將會降低雙路系統中兩顆CPU之間的數據傳輸延遲,同時也能有效提升其整體效能。

7nm為羽、Zen 2為翼,AMD第二代EPYC(霄龍)處理器技術詳解

▲相比Zen架構,Zen 2架構在NUMA模式下擁有更少的NUMA域和NUMA間距,所以在雙路系統中兩顆CPU之間的數據傳輸延遲更低。

其實Zen 2架構中NUMA模式的改進還不止如此,為了滿足不同使用場景的性能需求,Zen 2架構還擁有多種NUMA模式,這些模式名為“NPSx”(英文全稱為NUMA Nodes Per Socket)。從AMD給出的資料來看,Zen 2架構中最多可實現NPS4、NPS2、NPS1、NPS0這4中NUMA模式。

其中,每顆基於Zen 2架構,擁有8個Die的第二代AMD EPYC(霄龍)處理器在NPS4下,其8個Die將被分為4組(每兩個Die一組),每組中的兩個Die將會與通過物理結構最近的內存控制器讀取對應這兩個通道中內存的數據(即不能讀取其他內存通道中的內存數據,所以這兩個Die可用的內存容量有限)。由於使用了物理層結構最近的內存控制器,所以在NPS4下,每個Die的內存讀寫延遲更低,並且內存帶寬更高。不過由於這種模式下每組中的兩個Die可用內存容量有限,某些對內存容量要求較高的應用並不適合使用NPS4模式。

此外,NPS2就是把第二代AMD EPYC(霄龍)處理器的8個或者4個Die平均分為兩組,每組中的Die也是通過物理結構最近的內存控制器讀取4個通道中內存的數據。因此相比NPS4,NPS2模式下每組可使用的內存容量更大,但內存延遲也稍高一些。同理,NPS1模式可同時適用於所有單路和雙路系統,每顆CPU使用各自的內存控制器去訪問相應的8通道內存。而NPS0僅適用於雙路系統,兩顆CPU共同使用16個內存通道。

7nm為羽、Zen 2為翼,AMD第二代EPYC(霄龍)處理器技術詳解

▲不同核心數的第二代AMD EPYC(霄龍)處理器可支持的NUMA模式有所不同

更加可靠的安全性

除了全新升級的架構和革命性的分離式設計之外,基於Zen 2架構的第二代AMD EPYC(霄龍)處理器還從硬件層面提供了非常可靠的安全性。第二代AMD EPYC(霄龍)處理器中集成了AMD安全協處理器(ARM Cortex-A5架構的32位控制器),運行於安全的系統/內核,可以確保固件數據等片外非易失性存儲的安全,提供安全加密功能,並可實現硬件驗證啟動,和x86系統的隔離性更好。此外,其內存控制器中還集成了AES-128加密引擎,當提供相應的密鑰時,該加密引擎可以自動加密和解密主存儲器中的數據。

7nm為羽、Zen 2為翼,AMD第二代EPYC(霄龍)處理器技術詳解

▲第二代AMD EPYC(霄龍)處理器中集成了AMD安全處理器,可為為安全密鑰生成和密鑰管理提供加密功能。

"


7nm為羽、Zen 2為翼,AMD第二代EPYC(霄龍)處理器技術詳解

上一個十年,AMD曾經憑藉皓龍(Opteron)在服務器、數據中心領域獲得過超過四分之一的市場份額。在成功推出Zen架構之後,AMD在2017年推出了皓龍的接班人——全新的EPYC(霄龍)系列處理器,重新成為服務器、數據中心領域的強有力競爭者。2018 年底,AMD再接再厲,正式公佈了業界首款採用7nm生產工藝、基於Zen 2 架構、代號“Rome”的第二代EPYC(霄龍)系列處理器。半年多之後,AMD今天終於在舊金山(當地時間8月7日,北京時間8月8日)正式發佈這款產品。那麼讓我們來看看第二代EPYC(霄龍)系列處理器都有哪些“獨門祕訣”!

7nm生產工藝領銜

在確定了以TSMC臺積電作為合作伙伴之後,AMD迅速將全線新款產品的生產工藝推進到7nm,已經正式上市的第三代銳龍處理器和Radeon RT 5700系列顯卡均採用7nm工藝生產,此次發佈的第二代EPYC(霄龍)系列處理器當然也不會例外。臺積電的7nm工藝全稱是7nm HK-MG FinFET,針對不同的用途分為兩種:一種為移動設備設計,被稱為“7FF”,以低功耗和較高性能功耗比為主要特點;另一種為高性能處理器設計,名為“7HPC”。那麼7nm生產工藝有哪些好處呢?AMD官方數據顯示,採用7nm生產工藝的處理器在晶圓密度上提高了兩倍;在相同性能下,功耗可以降低一半;在相同功耗下,性能較前代產品可以提升25%。

7nm為羽、Zen 2為翼,AMD第二代EPYC(霄龍)處理器技術詳解

▲採用7nm生產工藝的處理器在晶圓密度上提高了兩倍;在相同性能下,功耗可以降低一半;在相同功耗下,性能較前代產品可以提升25%。

今天,AMD代號為“Rome”的第二代(霄龍)處理器已經正式發佈,而英特爾基於10nm生產工藝的服務器產品目前還沒有太多信息,按照以往的慣例,服務器類產品的推出節奏通常會比消費類產品的晚一年,而10nm的英特爾消費類產品目前才剛開始發佈相關品牌的產品。所以,這是在多年之後,AMD首次表示其服務器處理器在生產工藝上取得領先,特別是在每瓦性能方面。當然,目前英特爾方面則認為其10nm製程的晶體管密度更好。兩者的技術特性目前尚無進一步的詳細對比資料,有興趣的讀者可以關注我們後續的報道。

7nm為羽、Zen 2為翼,AMD第二代EPYC(霄龍)處理器技術詳解

▲憑藉先進的7nm生產工藝,AMD表示已經在生產工藝上領先競爭對手。

Zen 2架構:全面架構提升+革命性的分離式設計

除了製造工藝上的優勢之外,第二代AMD EPYC(霄龍)系列處理器最重要的革新其實是其核心基於Zen 2架構。相較於上一代產品所採用的Zen架構,Zen 2架構在各方面都進行了增強。其中最核心的有兩個部分:一是核心微架構升級,二是計算單元和I/O單元的分離。

丨升級核心微架構,IPC大幅提升丨

AMD 在Zen架構設計時就非常注重提升處理器的單核心IPC性能。Zen架構核心相比前代產品單核心IPC性能提升了超過52%之多。也正因為如此,才使得AMD在高性能處理器領域趕上了競爭對手的步伐。據AMD在舊金山EPYC Horizon 發佈會上宣佈,擁有最高64顆Zen 2核心的第二代AMD EPYC(霄龍)處理器,相比Zen核心架構,服務器工作負載的IPC性能提升最高達23%!

IPC性能大幅提升的主要原因在於,AMD在設計Zen 2架構時對內部架構進行了大幅改良。比如大幅改進了分支預測功能,全新的TAGE分支預測器相比上一代的Perceptron,在各級指令緩存,微操作緩存以及L1 cache的關聯寬度等方面幾乎都是翻倍的,預測失敗的機率降低了三分之一。無論利用效率、指令融合效率和有效吞吐量都更好。

7nm為羽、Zen 2為翼,AMD第二代EPYC(霄龍)處理器技術詳解

▲相比Zen,Zen 2採用了更優良的TAGE分支預測器和更大的運行緩存。

在整數運算單元上,Zen 2架構的ALU數量沒有變,但是管理數據載入和存儲指令的AGU單元從兩個提升到了3個,並提升了各種緩存大小,增強了ALU、AGU的調度能力,使其更加合理。

7nm為羽、Zen 2為翼,AMD第二代EPYC(霄龍)處理器技術詳解

▲在整數運算單元方面,Zen中對數據載入和存儲指令進行管理的AGU單元為兩個,而Zen 2則提升到3個。

浮點運算單元的數據路徑寬度為256bit,比上一代翻倍了,不僅具有更大的吞吐量,同時也更好地實現了對AVX-256指令的支持。此外,浮點運算單元的數據載入和存儲帶寬也獲得了提升,將使得數據的傳輸更具效率,並減少了與整數單元出現衝突的概率。

7nm為羽、Zen 2為翼,AMD第二代EPYC(霄龍)處理器技術詳解

▲Zen 2採用了256bit的浮點單元

丨模塊化設計帶來更高靈活度丨

除了核心架構的進步,Zen2在處理器的設計佈局上也進行了變革,以便實現更高靈活度的模塊化設計。CHIPLET模塊化設計是基於AMD Infinity Fabric互聯的增強版本,其核心思路是在單個處理器封裝內鏈接多片獨立的硅晶片。和上一代Zen架構中每個處理器核心分別自帶相關I/O模塊截然不同的是,Zen2架構徹底將處理器核心和I/O模塊分離,計算核心本身不再提供I/O接口而專注於運算,I/O模塊成為連接各個計算核心和外部鏈接的中樞。


7nm為羽、Zen 2為翼,AMD第二代EPYC(霄龍)處理器技術詳解

▲Zen 2的計算核心和I/O模塊分離,計算核心本身不再提供I/O接口而專注於運算,I/O模塊成為連接計算核心和外部鏈接的中樞。

Zen 2的計算核心採用先進的7nm製程工藝生產,有助於縮小晶片面積、提高頻率、降低功耗。而I/O部分由於模擬電路更多,即使採用7nm工藝也不會帶來面積、功耗等方面的明顯改善,所以採用成熟的14nm工藝製造。這種創新的模塊化設計的優勢明顯——在同等功耗下擁有更多的CPU核心,可以獲得更高的性能;而與傳統的單片設計相比,生產成本又更低。將這種全新的設計方法與臺積電最前沿的7nm生產工藝優勢相結合,Zen 2架構帶來了性能、能耗和計算密度的提升,有助於大幅降低數據中心的運營成本和散熱需求。

7nm為羽、Zen 2為翼,AMD第二代EPYC(霄龍)處理器技術詳解

▲Zen 2架構中每個SoC擁有9個Die(即8個計算核心和1個I/O模塊),而Zen架構中每個SoC則擁有4個分別自帶I/O模塊的計算核心。

除了性能和成本上的優勢,採用模塊化設計的優勢還在於可以根據計算需要,靈活地將不同數量的計算核心與I/O模塊搭配,以實現不同的規格。Zen 2單個計算模塊的規格是8核心、16線程,單顆第二代AMD EPYC(霄龍)處理器的SoC封裝最多可以搭配8個計算模塊,這樣就能夠實現最多64核心、128線程的規格。此前單路CPU最多的物理核心記錄也只有32個,所以第二代AMD EPYC(霄龍)處理器在物理核心數量上實現了翻倍,而且還支持SMT技術。

丨升級的NUMA模式丨

不僅如此,Zen 2架構還升級了NUMA(Non-Uniform Memory Access)非統一內存訪問模式。所謂NUMA,簡單來說就是在NUMA模式下CPU 核心和內存控制器將優先處理物理結構上離處理器最近的內存中數據,除非內容過大會溢出到下一個內存模塊,這可以有效降低這些數據的訪問延遲並提高整體效能。

在Zen架構中,由於Zen架構中每個Die都擁有獨立的內存控制器,所以當這兩顆分別擁有4個Die的CPU(一共8個Die)進行數據傳輸時,就一共會存在8個NUMA域,並且最多會存在3個NUMA間距。因此在基於Zen架構的雙路系統中,兩顆CPU之間進行數據傳輸時,延遲會達到一個較高的水平,這也會影響到整體效能。

不過在Zen 2架構中,每顆CPU的所有內存控制器都集成在I/O Die中,所以當基於Zen 2架構的兩顆CPU組建雙路系統時,它們在NUMA模式下只會存在兩個NUMA域,並且這兩顆CPU之間也僅有兩個NUMA間距。因此,更少的NUMA域和間距將會降低雙路系統中兩顆CPU之間的數據傳輸延遲,同時也能有效提升其整體效能。

7nm為羽、Zen 2為翼,AMD第二代EPYC(霄龍)處理器技術詳解

▲相比Zen架構,Zen 2架構在NUMA模式下擁有更少的NUMA域和NUMA間距,所以在雙路系統中兩顆CPU之間的數據傳輸延遲更低。

其實Zen 2架構中NUMA模式的改進還不止如此,為了滿足不同使用場景的性能需求,Zen 2架構還擁有多種NUMA模式,這些模式名為“NPSx”(英文全稱為NUMA Nodes Per Socket)。從AMD給出的資料來看,Zen 2架構中最多可實現NPS4、NPS2、NPS1、NPS0這4中NUMA模式。

其中,每顆基於Zen 2架構,擁有8個Die的第二代AMD EPYC(霄龍)處理器在NPS4下,其8個Die將被分為4組(每兩個Die一組),每組中的兩個Die將會與通過物理結構最近的內存控制器讀取對應這兩個通道中內存的數據(即不能讀取其他內存通道中的內存數據,所以這兩個Die可用的內存容量有限)。由於使用了物理層結構最近的內存控制器,所以在NPS4下,每個Die的內存讀寫延遲更低,並且內存帶寬更高。不過由於這種模式下每組中的兩個Die可用內存容量有限,某些對內存容量要求較高的應用並不適合使用NPS4模式。

此外,NPS2就是把第二代AMD EPYC(霄龍)處理器的8個或者4個Die平均分為兩組,每組中的Die也是通過物理結構最近的內存控制器讀取4個通道中內存的數據。因此相比NPS4,NPS2模式下每組可使用的內存容量更大,但內存延遲也稍高一些。同理,NPS1模式可同時適用於所有單路和雙路系統,每顆CPU使用各自的內存控制器去訪問相應的8通道內存。而NPS0僅適用於雙路系統,兩顆CPU共同使用16個內存通道。

7nm為羽、Zen 2為翼,AMD第二代EPYC(霄龍)處理器技術詳解

▲不同核心數的第二代AMD EPYC(霄龍)處理器可支持的NUMA模式有所不同

更加可靠的安全性

除了全新升級的架構和革命性的分離式設計之外,基於Zen 2架構的第二代AMD EPYC(霄龍)處理器還從硬件層面提供了非常可靠的安全性。第二代AMD EPYC(霄龍)處理器中集成了AMD安全協處理器(ARM Cortex-A5架構的32位控制器),運行於安全的系統/內核,可以確保固件數據等片外非易失性存儲的安全,提供安全加密功能,並可實現硬件驗證啟動,和x86系統的隔離性更好。此外,其內存控制器中還集成了AES-128加密引擎,當提供相應的密鑰時,該加密引擎可以自動加密和解密主存儲器中的數據。

7nm為羽、Zen 2為翼,AMD第二代EPYC(霄龍)處理器技術詳解

▲第二代AMD EPYC(霄龍)處理器中集成了AMD安全處理器,可為為安全密鑰生成和密鑰管理提供加密功能。

7nm為羽、Zen 2為翼,AMD第二代EPYC(霄龍)處理器技術詳解

▲第二代AMD EPYC(霄龍)處理器中的內存控制器還嵌入AES-128加密引擎,可自動加密和解密主存儲器中的數據。

不僅如此,第二代AMD EPYC(霄龍)處理器還支持AMD的內存加密技術,它可以讓服務器獲得全程軟、硬加密保護。該技術藉助硬件SHA安全算法,支持安全內存加密(英文簡稱:SEV)和安全加密虛擬化(簡稱:SME)這兩種加密模式。其中,SEV安全加密虛擬化可以保護虛擬機免受無謂傷害,讓虛擬機/容器技術被分別保護,連管理員和不安全的虛擬機管理程序也無法越權篡改。此外,每個虛擬機和管理器都有獨立的密鑰,彼此加密隔離,並與AMD現有的AMD-V虛擬化技術整合。

"


7nm為羽、Zen 2為翼,AMD第二代EPYC(霄龍)處理器技術詳解

上一個十年,AMD曾經憑藉皓龍(Opteron)在服務器、數據中心領域獲得過超過四分之一的市場份額。在成功推出Zen架構之後,AMD在2017年推出了皓龍的接班人——全新的EPYC(霄龍)系列處理器,重新成為服務器、數據中心領域的強有力競爭者。2018 年底,AMD再接再厲,正式公佈了業界首款採用7nm生產工藝、基於Zen 2 架構、代號“Rome”的第二代EPYC(霄龍)系列處理器。半年多之後,AMD今天終於在舊金山(當地時間8月7日,北京時間8月8日)正式發佈這款產品。那麼讓我們來看看第二代EPYC(霄龍)系列處理器都有哪些“獨門祕訣”!

7nm生產工藝領銜

在確定了以TSMC臺積電作為合作伙伴之後,AMD迅速將全線新款產品的生產工藝推進到7nm,已經正式上市的第三代銳龍處理器和Radeon RT 5700系列顯卡均採用7nm工藝生產,此次發佈的第二代EPYC(霄龍)系列處理器當然也不會例外。臺積電的7nm工藝全稱是7nm HK-MG FinFET,針對不同的用途分為兩種:一種為移動設備設計,被稱為“7FF”,以低功耗和較高性能功耗比為主要特點;另一種為高性能處理器設計,名為“7HPC”。那麼7nm生產工藝有哪些好處呢?AMD官方數據顯示,採用7nm生產工藝的處理器在晶圓密度上提高了兩倍;在相同性能下,功耗可以降低一半;在相同功耗下,性能較前代產品可以提升25%。

7nm為羽、Zen 2為翼,AMD第二代EPYC(霄龍)處理器技術詳解

▲採用7nm生產工藝的處理器在晶圓密度上提高了兩倍;在相同性能下,功耗可以降低一半;在相同功耗下,性能較前代產品可以提升25%。

今天,AMD代號為“Rome”的第二代(霄龍)處理器已經正式發佈,而英特爾基於10nm生產工藝的服務器產品目前還沒有太多信息,按照以往的慣例,服務器類產品的推出節奏通常會比消費類產品的晚一年,而10nm的英特爾消費類產品目前才剛開始發佈相關品牌的產品。所以,這是在多年之後,AMD首次表示其服務器處理器在生產工藝上取得領先,特別是在每瓦性能方面。當然,目前英特爾方面則認為其10nm製程的晶體管密度更好。兩者的技術特性目前尚無進一步的詳細對比資料,有興趣的讀者可以關注我們後續的報道。

7nm為羽、Zen 2為翼,AMD第二代EPYC(霄龍)處理器技術詳解

▲憑藉先進的7nm生產工藝,AMD表示已經在生產工藝上領先競爭對手。

Zen 2架構:全面架構提升+革命性的分離式設計

除了製造工藝上的優勢之外,第二代AMD EPYC(霄龍)系列處理器最重要的革新其實是其核心基於Zen 2架構。相較於上一代產品所採用的Zen架構,Zen 2架構在各方面都進行了增強。其中最核心的有兩個部分:一是核心微架構升級,二是計算單元和I/O單元的分離。

丨升級核心微架構,IPC大幅提升丨

AMD 在Zen架構設計時就非常注重提升處理器的單核心IPC性能。Zen架構核心相比前代產品單核心IPC性能提升了超過52%之多。也正因為如此,才使得AMD在高性能處理器領域趕上了競爭對手的步伐。據AMD在舊金山EPYC Horizon 發佈會上宣佈,擁有最高64顆Zen 2核心的第二代AMD EPYC(霄龍)處理器,相比Zen核心架構,服務器工作負載的IPC性能提升最高達23%!

IPC性能大幅提升的主要原因在於,AMD在設計Zen 2架構時對內部架構進行了大幅改良。比如大幅改進了分支預測功能,全新的TAGE分支預測器相比上一代的Perceptron,在各級指令緩存,微操作緩存以及L1 cache的關聯寬度等方面幾乎都是翻倍的,預測失敗的機率降低了三分之一。無論利用效率、指令融合效率和有效吞吐量都更好。

7nm為羽、Zen 2為翼,AMD第二代EPYC(霄龍)處理器技術詳解

▲相比Zen,Zen 2採用了更優良的TAGE分支預測器和更大的運行緩存。

在整數運算單元上,Zen 2架構的ALU數量沒有變,但是管理數據載入和存儲指令的AGU單元從兩個提升到了3個,並提升了各種緩存大小,增強了ALU、AGU的調度能力,使其更加合理。

7nm為羽、Zen 2為翼,AMD第二代EPYC(霄龍)處理器技術詳解

▲在整數運算單元方面,Zen中對數據載入和存儲指令進行管理的AGU單元為兩個,而Zen 2則提升到3個。

浮點運算單元的數據路徑寬度為256bit,比上一代翻倍了,不僅具有更大的吞吐量,同時也更好地實現了對AVX-256指令的支持。此外,浮點運算單元的數據載入和存儲帶寬也獲得了提升,將使得數據的傳輸更具效率,並減少了與整數單元出現衝突的概率。

7nm為羽、Zen 2為翼,AMD第二代EPYC(霄龍)處理器技術詳解

▲Zen 2採用了256bit的浮點單元

丨模塊化設計帶來更高靈活度丨

除了核心架構的進步,Zen2在處理器的設計佈局上也進行了變革,以便實現更高靈活度的模塊化設計。CHIPLET模塊化設計是基於AMD Infinity Fabric互聯的增強版本,其核心思路是在單個處理器封裝內鏈接多片獨立的硅晶片。和上一代Zen架構中每個處理器核心分別自帶相關I/O模塊截然不同的是,Zen2架構徹底將處理器核心和I/O模塊分離,計算核心本身不再提供I/O接口而專注於運算,I/O模塊成為連接各個計算核心和外部鏈接的中樞。


7nm為羽、Zen 2為翼,AMD第二代EPYC(霄龍)處理器技術詳解

▲Zen 2的計算核心和I/O模塊分離,計算核心本身不再提供I/O接口而專注於運算,I/O模塊成為連接計算核心和外部鏈接的中樞。

Zen 2的計算核心採用先進的7nm製程工藝生產,有助於縮小晶片面積、提高頻率、降低功耗。而I/O部分由於模擬電路更多,即使採用7nm工藝也不會帶來面積、功耗等方面的明顯改善,所以採用成熟的14nm工藝製造。這種創新的模塊化設計的優勢明顯——在同等功耗下擁有更多的CPU核心,可以獲得更高的性能;而與傳統的單片設計相比,生產成本又更低。將這種全新的設計方法與臺積電最前沿的7nm生產工藝優勢相結合,Zen 2架構帶來了性能、能耗和計算密度的提升,有助於大幅降低數據中心的運營成本和散熱需求。

7nm為羽、Zen 2為翼,AMD第二代EPYC(霄龍)處理器技術詳解

▲Zen 2架構中每個SoC擁有9個Die(即8個計算核心和1個I/O模塊),而Zen架構中每個SoC則擁有4個分別自帶I/O模塊的計算核心。

除了性能和成本上的優勢,採用模塊化設計的優勢還在於可以根據計算需要,靈活地將不同數量的計算核心與I/O模塊搭配,以實現不同的規格。Zen 2單個計算模塊的規格是8核心、16線程,單顆第二代AMD EPYC(霄龍)處理器的SoC封裝最多可以搭配8個計算模塊,這樣就能夠實現最多64核心、128線程的規格。此前單路CPU最多的物理核心記錄也只有32個,所以第二代AMD EPYC(霄龍)處理器在物理核心數量上實現了翻倍,而且還支持SMT技術。

丨升級的NUMA模式丨

不僅如此,Zen 2架構還升級了NUMA(Non-Uniform Memory Access)非統一內存訪問模式。所謂NUMA,簡單來說就是在NUMA模式下CPU 核心和內存控制器將優先處理物理結構上離處理器最近的內存中數據,除非內容過大會溢出到下一個內存模塊,這可以有效降低這些數據的訪問延遲並提高整體效能。

在Zen架構中,由於Zen架構中每個Die都擁有獨立的內存控制器,所以當這兩顆分別擁有4個Die的CPU(一共8個Die)進行數據傳輸時,就一共會存在8個NUMA域,並且最多會存在3個NUMA間距。因此在基於Zen架構的雙路系統中,兩顆CPU之間進行數據傳輸時,延遲會達到一個較高的水平,這也會影響到整體效能。

不過在Zen 2架構中,每顆CPU的所有內存控制器都集成在I/O Die中,所以當基於Zen 2架構的兩顆CPU組建雙路系統時,它們在NUMA模式下只會存在兩個NUMA域,並且這兩顆CPU之間也僅有兩個NUMA間距。因此,更少的NUMA域和間距將會降低雙路系統中兩顆CPU之間的數據傳輸延遲,同時也能有效提升其整體效能。

7nm為羽、Zen 2為翼,AMD第二代EPYC(霄龍)處理器技術詳解

▲相比Zen架構,Zen 2架構在NUMA模式下擁有更少的NUMA域和NUMA間距,所以在雙路系統中兩顆CPU之間的數據傳輸延遲更低。

其實Zen 2架構中NUMA模式的改進還不止如此,為了滿足不同使用場景的性能需求,Zen 2架構還擁有多種NUMA模式,這些模式名為“NPSx”(英文全稱為NUMA Nodes Per Socket)。從AMD給出的資料來看,Zen 2架構中最多可實現NPS4、NPS2、NPS1、NPS0這4中NUMA模式。

其中,每顆基於Zen 2架構,擁有8個Die的第二代AMD EPYC(霄龍)處理器在NPS4下,其8個Die將被分為4組(每兩個Die一組),每組中的兩個Die將會與通過物理結構最近的內存控制器讀取對應這兩個通道中內存的數據(即不能讀取其他內存通道中的內存數據,所以這兩個Die可用的內存容量有限)。由於使用了物理層結構最近的內存控制器,所以在NPS4下,每個Die的內存讀寫延遲更低,並且內存帶寬更高。不過由於這種模式下每組中的兩個Die可用內存容量有限,某些對內存容量要求較高的應用並不適合使用NPS4模式。

此外,NPS2就是把第二代AMD EPYC(霄龍)處理器的8個或者4個Die平均分為兩組,每組中的Die也是通過物理結構最近的內存控制器讀取4個通道中內存的數據。因此相比NPS4,NPS2模式下每組可使用的內存容量更大,但內存延遲也稍高一些。同理,NPS1模式可同時適用於所有單路和雙路系統,每顆CPU使用各自的內存控制器去訪問相應的8通道內存。而NPS0僅適用於雙路系統,兩顆CPU共同使用16個內存通道。

7nm為羽、Zen 2為翼,AMD第二代EPYC(霄龍)處理器技術詳解

▲不同核心數的第二代AMD EPYC(霄龍)處理器可支持的NUMA模式有所不同

更加可靠的安全性

除了全新升級的架構和革命性的分離式設計之外,基於Zen 2架構的第二代AMD EPYC(霄龍)處理器還從硬件層面提供了非常可靠的安全性。第二代AMD EPYC(霄龍)處理器中集成了AMD安全協處理器(ARM Cortex-A5架構的32位控制器),運行於安全的系統/內核,可以確保固件數據等片外非易失性存儲的安全,提供安全加密功能,並可實現硬件驗證啟動,和x86系統的隔離性更好。此外,其內存控制器中還集成了AES-128加密引擎,當提供相應的密鑰時,該加密引擎可以自動加密和解密主存儲器中的數據。

7nm為羽、Zen 2為翼,AMD第二代EPYC(霄龍)處理器技術詳解

▲第二代AMD EPYC(霄龍)處理器中集成了AMD安全處理器,可為為安全密鑰生成和密鑰管理提供加密功能。

7nm為羽、Zen 2為翼,AMD第二代EPYC(霄龍)處理器技術詳解

▲第二代AMD EPYC(霄龍)處理器中的內存控制器還嵌入AES-128加密引擎,可自動加密和解密主存儲器中的數據。

不僅如此,第二代AMD EPYC(霄龍)處理器還支持AMD的內存加密技術,它可以讓服務器獲得全程軟、硬加密保護。該技術藉助硬件SHA安全算法,支持安全內存加密(英文簡稱:SEV)和安全加密虛擬化(簡稱:SME)這兩種加密模式。其中,SEV安全加密虛擬化可以保護虛擬機免受無謂傷害,讓虛擬機/容器技術被分別保護,連管理員和不安全的虛擬機管理程序也無法越權篡改。此外,每個虛擬機和管理器都有獨立的密鑰,彼此加密隔離,並與AMD現有的AMD-V虛擬化技術整合。

7nm為羽、Zen 2為翼,AMD第二代EPYC(霄龍)處理器技術詳解

▲在SEV模式下,監視器和運行在同一機器上的客戶端資源、不同客戶負載完全隔離,代碼和數據將分別標記、獨立加密,訪問的時候如果加密標記錯誤,就只能看到加密狀態。

SME安全內存加密是基於硬件支持,可以保護物理內存免受攻擊,單個安全密鑰,操作系統/虛擬器管理器可以自己選擇需要加密的頁面,而網絡、存儲、顯卡等硬件設備可以無縫訪問加密頁面。同時SME內存加密功能對性能的影響很小,僅對被加密頁面產生延遲。

"


7nm為羽、Zen 2為翼,AMD第二代EPYC(霄龍)處理器技術詳解

上一個十年,AMD曾經憑藉皓龍(Opteron)在服務器、數據中心領域獲得過超過四分之一的市場份額。在成功推出Zen架構之後,AMD在2017年推出了皓龍的接班人——全新的EPYC(霄龍)系列處理器,重新成為服務器、數據中心領域的強有力競爭者。2018 年底,AMD再接再厲,正式公佈了業界首款採用7nm生產工藝、基於Zen 2 架構、代號“Rome”的第二代EPYC(霄龍)系列處理器。半年多之後,AMD今天終於在舊金山(當地時間8月7日,北京時間8月8日)正式發佈這款產品。那麼讓我們來看看第二代EPYC(霄龍)系列處理器都有哪些“獨門祕訣”!

7nm生產工藝領銜

在確定了以TSMC臺積電作為合作伙伴之後,AMD迅速將全線新款產品的生產工藝推進到7nm,已經正式上市的第三代銳龍處理器和Radeon RT 5700系列顯卡均採用7nm工藝生產,此次發佈的第二代EPYC(霄龍)系列處理器當然也不會例外。臺積電的7nm工藝全稱是7nm HK-MG FinFET,針對不同的用途分為兩種:一種為移動設備設計,被稱為“7FF”,以低功耗和較高性能功耗比為主要特點;另一種為高性能處理器設計,名為“7HPC”。那麼7nm生產工藝有哪些好處呢?AMD官方數據顯示,採用7nm生產工藝的處理器在晶圓密度上提高了兩倍;在相同性能下,功耗可以降低一半;在相同功耗下,性能較前代產品可以提升25%。

7nm為羽、Zen 2為翼,AMD第二代EPYC(霄龍)處理器技術詳解

▲採用7nm生產工藝的處理器在晶圓密度上提高了兩倍;在相同性能下,功耗可以降低一半;在相同功耗下,性能較前代產品可以提升25%。

今天,AMD代號為“Rome”的第二代(霄龍)處理器已經正式發佈,而英特爾基於10nm生產工藝的服務器產品目前還沒有太多信息,按照以往的慣例,服務器類產品的推出節奏通常會比消費類產品的晚一年,而10nm的英特爾消費類產品目前才剛開始發佈相關品牌的產品。所以,這是在多年之後,AMD首次表示其服務器處理器在生產工藝上取得領先,特別是在每瓦性能方面。當然,目前英特爾方面則認為其10nm製程的晶體管密度更好。兩者的技術特性目前尚無進一步的詳細對比資料,有興趣的讀者可以關注我們後續的報道。

7nm為羽、Zen 2為翼,AMD第二代EPYC(霄龍)處理器技術詳解

▲憑藉先進的7nm生產工藝,AMD表示已經在生產工藝上領先競爭對手。

Zen 2架構:全面架構提升+革命性的分離式設計

除了製造工藝上的優勢之外,第二代AMD EPYC(霄龍)系列處理器最重要的革新其實是其核心基於Zen 2架構。相較於上一代產品所採用的Zen架構,Zen 2架構在各方面都進行了增強。其中最核心的有兩個部分:一是核心微架構升級,二是計算單元和I/O單元的分離。

丨升級核心微架構,IPC大幅提升丨

AMD 在Zen架構設計時就非常注重提升處理器的單核心IPC性能。Zen架構核心相比前代產品單核心IPC性能提升了超過52%之多。也正因為如此,才使得AMD在高性能處理器領域趕上了競爭對手的步伐。據AMD在舊金山EPYC Horizon 發佈會上宣佈,擁有最高64顆Zen 2核心的第二代AMD EPYC(霄龍)處理器,相比Zen核心架構,服務器工作負載的IPC性能提升最高達23%!

IPC性能大幅提升的主要原因在於,AMD在設計Zen 2架構時對內部架構進行了大幅改良。比如大幅改進了分支預測功能,全新的TAGE分支預測器相比上一代的Perceptron,在各級指令緩存,微操作緩存以及L1 cache的關聯寬度等方面幾乎都是翻倍的,預測失敗的機率降低了三分之一。無論利用效率、指令融合效率和有效吞吐量都更好。

7nm為羽、Zen 2為翼,AMD第二代EPYC(霄龍)處理器技術詳解

▲相比Zen,Zen 2採用了更優良的TAGE分支預測器和更大的運行緩存。

在整數運算單元上,Zen 2架構的ALU數量沒有變,但是管理數據載入和存儲指令的AGU單元從兩個提升到了3個,並提升了各種緩存大小,增強了ALU、AGU的調度能力,使其更加合理。

7nm為羽、Zen 2為翼,AMD第二代EPYC(霄龍)處理器技術詳解

▲在整數運算單元方面,Zen中對數據載入和存儲指令進行管理的AGU單元為兩個,而Zen 2則提升到3個。

浮點運算單元的數據路徑寬度為256bit,比上一代翻倍了,不僅具有更大的吞吐量,同時也更好地實現了對AVX-256指令的支持。此外,浮點運算單元的數據載入和存儲帶寬也獲得了提升,將使得數據的傳輸更具效率,並減少了與整數單元出現衝突的概率。

7nm為羽、Zen 2為翼,AMD第二代EPYC(霄龍)處理器技術詳解

▲Zen 2採用了256bit的浮點單元

丨模塊化設計帶來更高靈活度丨

除了核心架構的進步,Zen2在處理器的設計佈局上也進行了變革,以便實現更高靈活度的模塊化設計。CHIPLET模塊化設計是基於AMD Infinity Fabric互聯的增強版本,其核心思路是在單個處理器封裝內鏈接多片獨立的硅晶片。和上一代Zen架構中每個處理器核心分別自帶相關I/O模塊截然不同的是,Zen2架構徹底將處理器核心和I/O模塊分離,計算核心本身不再提供I/O接口而專注於運算,I/O模塊成為連接各個計算核心和外部鏈接的中樞。


7nm為羽、Zen 2為翼,AMD第二代EPYC(霄龍)處理器技術詳解

▲Zen 2的計算核心和I/O模塊分離,計算核心本身不再提供I/O接口而專注於運算,I/O模塊成為連接計算核心和外部鏈接的中樞。

Zen 2的計算核心採用先進的7nm製程工藝生產,有助於縮小晶片面積、提高頻率、降低功耗。而I/O部分由於模擬電路更多,即使採用7nm工藝也不會帶來面積、功耗等方面的明顯改善,所以採用成熟的14nm工藝製造。這種創新的模塊化設計的優勢明顯——在同等功耗下擁有更多的CPU核心,可以獲得更高的性能;而與傳統的單片設計相比,生產成本又更低。將這種全新的設計方法與臺積電最前沿的7nm生產工藝優勢相結合,Zen 2架構帶來了性能、能耗和計算密度的提升,有助於大幅降低數據中心的運營成本和散熱需求。

7nm為羽、Zen 2為翼,AMD第二代EPYC(霄龍)處理器技術詳解

▲Zen 2架構中每個SoC擁有9個Die(即8個計算核心和1個I/O模塊),而Zen架構中每個SoC則擁有4個分別自帶I/O模塊的計算核心。

除了性能和成本上的優勢,採用模塊化設計的優勢還在於可以根據計算需要,靈活地將不同數量的計算核心與I/O模塊搭配,以實現不同的規格。Zen 2單個計算模塊的規格是8核心、16線程,單顆第二代AMD EPYC(霄龍)處理器的SoC封裝最多可以搭配8個計算模塊,這樣就能夠實現最多64核心、128線程的規格。此前單路CPU最多的物理核心記錄也只有32個,所以第二代AMD EPYC(霄龍)處理器在物理核心數量上實現了翻倍,而且還支持SMT技術。

丨升級的NUMA模式丨

不僅如此,Zen 2架構還升級了NUMA(Non-Uniform Memory Access)非統一內存訪問模式。所謂NUMA,簡單來說就是在NUMA模式下CPU 核心和內存控制器將優先處理物理結構上離處理器最近的內存中數據,除非內容過大會溢出到下一個內存模塊,這可以有效降低這些數據的訪問延遲並提高整體效能。

在Zen架構中,由於Zen架構中每個Die都擁有獨立的內存控制器,所以當這兩顆分別擁有4個Die的CPU(一共8個Die)進行數據傳輸時,就一共會存在8個NUMA域,並且最多會存在3個NUMA間距。因此在基於Zen架構的雙路系統中,兩顆CPU之間進行數據傳輸時,延遲會達到一個較高的水平,這也會影響到整體效能。

不過在Zen 2架構中,每顆CPU的所有內存控制器都集成在I/O Die中,所以當基於Zen 2架構的兩顆CPU組建雙路系統時,它們在NUMA模式下只會存在兩個NUMA域,並且這兩顆CPU之間也僅有兩個NUMA間距。因此,更少的NUMA域和間距將會降低雙路系統中兩顆CPU之間的數據傳輸延遲,同時也能有效提升其整體效能。

7nm為羽、Zen 2為翼,AMD第二代EPYC(霄龍)處理器技術詳解

▲相比Zen架構,Zen 2架構在NUMA模式下擁有更少的NUMA域和NUMA間距,所以在雙路系統中兩顆CPU之間的數據傳輸延遲更低。

其實Zen 2架構中NUMA模式的改進還不止如此,為了滿足不同使用場景的性能需求,Zen 2架構還擁有多種NUMA模式,這些模式名為“NPSx”(英文全稱為NUMA Nodes Per Socket)。從AMD給出的資料來看,Zen 2架構中最多可實現NPS4、NPS2、NPS1、NPS0這4中NUMA模式。

其中,每顆基於Zen 2架構,擁有8個Die的第二代AMD EPYC(霄龍)處理器在NPS4下,其8個Die將被分為4組(每兩個Die一組),每組中的兩個Die將會與通過物理結構最近的內存控制器讀取對應這兩個通道中內存的數據(即不能讀取其他內存通道中的內存數據,所以這兩個Die可用的內存容量有限)。由於使用了物理層結構最近的內存控制器,所以在NPS4下,每個Die的內存讀寫延遲更低,並且內存帶寬更高。不過由於這種模式下每組中的兩個Die可用內存容量有限,某些對內存容量要求較高的應用並不適合使用NPS4模式。

此外,NPS2就是把第二代AMD EPYC(霄龍)處理器的8個或者4個Die平均分為兩組,每組中的Die也是通過物理結構最近的內存控制器讀取4個通道中內存的數據。因此相比NPS4,NPS2模式下每組可使用的內存容量更大,但內存延遲也稍高一些。同理,NPS1模式可同時適用於所有單路和雙路系統,每顆CPU使用各自的內存控制器去訪問相應的8通道內存。而NPS0僅適用於雙路系統,兩顆CPU共同使用16個內存通道。

7nm為羽、Zen 2為翼,AMD第二代EPYC(霄龍)處理器技術詳解

▲不同核心數的第二代AMD EPYC(霄龍)處理器可支持的NUMA模式有所不同

更加可靠的安全性

除了全新升級的架構和革命性的分離式設計之外,基於Zen 2架構的第二代AMD EPYC(霄龍)處理器還從硬件層面提供了非常可靠的安全性。第二代AMD EPYC(霄龍)處理器中集成了AMD安全協處理器(ARM Cortex-A5架構的32位控制器),運行於安全的系統/內核,可以確保固件數據等片外非易失性存儲的安全,提供安全加密功能,並可實現硬件驗證啟動,和x86系統的隔離性更好。此外,其內存控制器中還集成了AES-128加密引擎,當提供相應的密鑰時,該加密引擎可以自動加密和解密主存儲器中的數據。

7nm為羽、Zen 2為翼,AMD第二代EPYC(霄龍)處理器技術詳解

▲第二代AMD EPYC(霄龍)處理器中集成了AMD安全處理器,可為為安全密鑰生成和密鑰管理提供加密功能。

7nm為羽、Zen 2為翼,AMD第二代EPYC(霄龍)處理器技術詳解

▲第二代AMD EPYC(霄龍)處理器中的內存控制器還嵌入AES-128加密引擎,可自動加密和解密主存儲器中的數據。

不僅如此,第二代AMD EPYC(霄龍)處理器還支持AMD的內存加密技術,它可以讓服務器獲得全程軟、硬加密保護。該技術藉助硬件SHA安全算法,支持安全內存加密(英文簡稱:SEV)和安全加密虛擬化(簡稱:SME)這兩種加密模式。其中,SEV安全加密虛擬化可以保護虛擬機免受無謂傷害,讓虛擬機/容器技術被分別保護,連管理員和不安全的虛擬機管理程序也無法越權篡改。此外,每個虛擬機和管理器都有獨立的密鑰,彼此加密隔離,並與AMD現有的AMD-V虛擬化技術整合。

7nm為羽、Zen 2為翼,AMD第二代EPYC(霄龍)處理器技術詳解

▲在SEV模式下,監視器和運行在同一機器上的客戶端資源、不同客戶負載完全隔離,代碼和數據將分別標記、獨立加密,訪問的時候如果加密標記錯誤,就只能看到加密狀態。

SME安全內存加密是基於硬件支持,可以保護物理內存免受攻擊,單個安全密鑰,操作系統/虛擬器管理器可以自己選擇需要加密的頁面,而網絡、存儲、顯卡等硬件設備可以無縫訪問加密頁面。同時SME內存加密功能對性能的影響很小,僅對被加密頁面產生延遲。

7nm為羽、Zen 2為翼,AMD第二代EPYC(霄龍)處理器技術詳解

▲SME可有助於防禦物理內存攻擊,並且這種加密模式對系統性能尤其是內存延遲的影響非常小。

大幅提升內存頻率和帶寬

相比代號為“Naples”的第一代EPYC(霄龍)處理器,第二代AMD EPYC(霄龍)處理器將支持更高頻率內存,並且內存帶寬也大幅提升。首先在內存頻率方面,第二代AMD EPYC(霄龍)處理器最高可支持DDR4 3200頻率內存,而Naples則最高只支持DDR4 2666頻率內存。此外在理論最高內存帶寬方面,雙路第二代AMD EPYC(霄龍)處理器的理論最高內存帶寬可達410GB/s,領先雙路Naples約21%,同時相比競爭對手的雙路第二代至強可擴展處理器,第二代AMD EPYC(霄龍)處理器的理論最高內存帶寬更是領先約45%之多。

"


7nm為羽、Zen 2為翼,AMD第二代EPYC(霄龍)處理器技術詳解

上一個十年,AMD曾經憑藉皓龍(Opteron)在服務器、數據中心領域獲得過超過四分之一的市場份額。在成功推出Zen架構之後,AMD在2017年推出了皓龍的接班人——全新的EPYC(霄龍)系列處理器,重新成為服務器、數據中心領域的強有力競爭者。2018 年底,AMD再接再厲,正式公佈了業界首款採用7nm生產工藝、基於Zen 2 架構、代號“Rome”的第二代EPYC(霄龍)系列處理器。半年多之後,AMD今天終於在舊金山(當地時間8月7日,北京時間8月8日)正式發佈這款產品。那麼讓我們來看看第二代EPYC(霄龍)系列處理器都有哪些“獨門祕訣”!

7nm生產工藝領銜

在確定了以TSMC臺積電作為合作伙伴之後,AMD迅速將全線新款產品的生產工藝推進到7nm,已經正式上市的第三代銳龍處理器和Radeon RT 5700系列顯卡均採用7nm工藝生產,此次發佈的第二代EPYC(霄龍)系列處理器當然也不會例外。臺積電的7nm工藝全稱是7nm HK-MG FinFET,針對不同的用途分為兩種:一種為移動設備設計,被稱為“7FF”,以低功耗和較高性能功耗比為主要特點;另一種為高性能處理器設計,名為“7HPC”。那麼7nm生產工藝有哪些好處呢?AMD官方數據顯示,採用7nm生產工藝的處理器在晶圓密度上提高了兩倍;在相同性能下,功耗可以降低一半;在相同功耗下,性能較前代產品可以提升25%。

7nm為羽、Zen 2為翼,AMD第二代EPYC(霄龍)處理器技術詳解

▲採用7nm生產工藝的處理器在晶圓密度上提高了兩倍;在相同性能下,功耗可以降低一半;在相同功耗下,性能較前代產品可以提升25%。

今天,AMD代號為“Rome”的第二代(霄龍)處理器已經正式發佈,而英特爾基於10nm生產工藝的服務器產品目前還沒有太多信息,按照以往的慣例,服務器類產品的推出節奏通常會比消費類產品的晚一年,而10nm的英特爾消費類產品目前才剛開始發佈相關品牌的產品。所以,這是在多年之後,AMD首次表示其服務器處理器在生產工藝上取得領先,特別是在每瓦性能方面。當然,目前英特爾方面則認為其10nm製程的晶體管密度更好。兩者的技術特性目前尚無進一步的詳細對比資料,有興趣的讀者可以關注我們後續的報道。

7nm為羽、Zen 2為翼,AMD第二代EPYC(霄龍)處理器技術詳解

▲憑藉先進的7nm生產工藝,AMD表示已經在生產工藝上領先競爭對手。

Zen 2架構:全面架構提升+革命性的分離式設計

除了製造工藝上的優勢之外,第二代AMD EPYC(霄龍)系列處理器最重要的革新其實是其核心基於Zen 2架構。相較於上一代產品所採用的Zen架構,Zen 2架構在各方面都進行了增強。其中最核心的有兩個部分:一是核心微架構升級,二是計算單元和I/O單元的分離。

丨升級核心微架構,IPC大幅提升丨

AMD 在Zen架構設計時就非常注重提升處理器的單核心IPC性能。Zen架構核心相比前代產品單核心IPC性能提升了超過52%之多。也正因為如此,才使得AMD在高性能處理器領域趕上了競爭對手的步伐。據AMD在舊金山EPYC Horizon 發佈會上宣佈,擁有最高64顆Zen 2核心的第二代AMD EPYC(霄龍)處理器,相比Zen核心架構,服務器工作負載的IPC性能提升最高達23%!

IPC性能大幅提升的主要原因在於,AMD在設計Zen 2架構時對內部架構進行了大幅改良。比如大幅改進了分支預測功能,全新的TAGE分支預測器相比上一代的Perceptron,在各級指令緩存,微操作緩存以及L1 cache的關聯寬度等方面幾乎都是翻倍的,預測失敗的機率降低了三分之一。無論利用效率、指令融合效率和有效吞吐量都更好。

7nm為羽、Zen 2為翼,AMD第二代EPYC(霄龍)處理器技術詳解

▲相比Zen,Zen 2採用了更優良的TAGE分支預測器和更大的運行緩存。

在整數運算單元上,Zen 2架構的ALU數量沒有變,但是管理數據載入和存儲指令的AGU單元從兩個提升到了3個,並提升了各種緩存大小,增強了ALU、AGU的調度能力,使其更加合理。

7nm為羽、Zen 2為翼,AMD第二代EPYC(霄龍)處理器技術詳解

▲在整數運算單元方面,Zen中對數據載入和存儲指令進行管理的AGU單元為兩個,而Zen 2則提升到3個。

浮點運算單元的數據路徑寬度為256bit,比上一代翻倍了,不僅具有更大的吞吐量,同時也更好地實現了對AVX-256指令的支持。此外,浮點運算單元的數據載入和存儲帶寬也獲得了提升,將使得數據的傳輸更具效率,並減少了與整數單元出現衝突的概率。

7nm為羽、Zen 2為翼,AMD第二代EPYC(霄龍)處理器技術詳解

▲Zen 2採用了256bit的浮點單元

丨模塊化設計帶來更高靈活度丨

除了核心架構的進步,Zen2在處理器的設計佈局上也進行了變革,以便實現更高靈活度的模塊化設計。CHIPLET模塊化設計是基於AMD Infinity Fabric互聯的增強版本,其核心思路是在單個處理器封裝內鏈接多片獨立的硅晶片。和上一代Zen架構中每個處理器核心分別自帶相關I/O模塊截然不同的是,Zen2架構徹底將處理器核心和I/O模塊分離,計算核心本身不再提供I/O接口而專注於運算,I/O模塊成為連接各個計算核心和外部鏈接的中樞。


7nm為羽、Zen 2為翼,AMD第二代EPYC(霄龍)處理器技術詳解

▲Zen 2的計算核心和I/O模塊分離,計算核心本身不再提供I/O接口而專注於運算,I/O模塊成為連接計算核心和外部鏈接的中樞。

Zen 2的計算核心採用先進的7nm製程工藝生產,有助於縮小晶片面積、提高頻率、降低功耗。而I/O部分由於模擬電路更多,即使採用7nm工藝也不會帶來面積、功耗等方面的明顯改善,所以採用成熟的14nm工藝製造。這種創新的模塊化設計的優勢明顯——在同等功耗下擁有更多的CPU核心,可以獲得更高的性能;而與傳統的單片設計相比,生產成本又更低。將這種全新的設計方法與臺積電最前沿的7nm生產工藝優勢相結合,Zen 2架構帶來了性能、能耗和計算密度的提升,有助於大幅降低數據中心的運營成本和散熱需求。

7nm為羽、Zen 2為翼,AMD第二代EPYC(霄龍)處理器技術詳解

▲Zen 2架構中每個SoC擁有9個Die(即8個計算核心和1個I/O模塊),而Zen架構中每個SoC則擁有4個分別自帶I/O模塊的計算核心。

除了性能和成本上的優勢,採用模塊化設計的優勢還在於可以根據計算需要,靈活地將不同數量的計算核心與I/O模塊搭配,以實現不同的規格。Zen 2單個計算模塊的規格是8核心、16線程,單顆第二代AMD EPYC(霄龍)處理器的SoC封裝最多可以搭配8個計算模塊,這樣就能夠實現最多64核心、128線程的規格。此前單路CPU最多的物理核心記錄也只有32個,所以第二代AMD EPYC(霄龍)處理器在物理核心數量上實現了翻倍,而且還支持SMT技術。

丨升級的NUMA模式丨

不僅如此,Zen 2架構還升級了NUMA(Non-Uniform Memory Access)非統一內存訪問模式。所謂NUMA,簡單來說就是在NUMA模式下CPU 核心和內存控制器將優先處理物理結構上離處理器最近的內存中數據,除非內容過大會溢出到下一個內存模塊,這可以有效降低這些數據的訪問延遲並提高整體效能。

在Zen架構中,由於Zen架構中每個Die都擁有獨立的內存控制器,所以當這兩顆分別擁有4個Die的CPU(一共8個Die)進行數據傳輸時,就一共會存在8個NUMA域,並且最多會存在3個NUMA間距。因此在基於Zen架構的雙路系統中,兩顆CPU之間進行數據傳輸時,延遲會達到一個較高的水平,這也會影響到整體效能。

不過在Zen 2架構中,每顆CPU的所有內存控制器都集成在I/O Die中,所以當基於Zen 2架構的兩顆CPU組建雙路系統時,它們在NUMA模式下只會存在兩個NUMA域,並且這兩顆CPU之間也僅有兩個NUMA間距。因此,更少的NUMA域和間距將會降低雙路系統中兩顆CPU之間的數據傳輸延遲,同時也能有效提升其整體效能。

7nm為羽、Zen 2為翼,AMD第二代EPYC(霄龍)處理器技術詳解

▲相比Zen架構,Zen 2架構在NUMA模式下擁有更少的NUMA域和NUMA間距,所以在雙路系統中兩顆CPU之間的數據傳輸延遲更低。

其實Zen 2架構中NUMA模式的改進還不止如此,為了滿足不同使用場景的性能需求,Zen 2架構還擁有多種NUMA模式,這些模式名為“NPSx”(英文全稱為NUMA Nodes Per Socket)。從AMD給出的資料來看,Zen 2架構中最多可實現NPS4、NPS2、NPS1、NPS0這4中NUMA模式。

其中,每顆基於Zen 2架構,擁有8個Die的第二代AMD EPYC(霄龍)處理器在NPS4下,其8個Die將被分為4組(每兩個Die一組),每組中的兩個Die將會與通過物理結構最近的內存控制器讀取對應這兩個通道中內存的數據(即不能讀取其他內存通道中的內存數據,所以這兩個Die可用的內存容量有限)。由於使用了物理層結構最近的內存控制器,所以在NPS4下,每個Die的內存讀寫延遲更低,並且內存帶寬更高。不過由於這種模式下每組中的兩個Die可用內存容量有限,某些對內存容量要求較高的應用並不適合使用NPS4模式。

此外,NPS2就是把第二代AMD EPYC(霄龍)處理器的8個或者4個Die平均分為兩組,每組中的Die也是通過物理結構最近的內存控制器讀取4個通道中內存的數據。因此相比NPS4,NPS2模式下每組可使用的內存容量更大,但內存延遲也稍高一些。同理,NPS1模式可同時適用於所有單路和雙路系統,每顆CPU使用各自的內存控制器去訪問相應的8通道內存。而NPS0僅適用於雙路系統,兩顆CPU共同使用16個內存通道。

7nm為羽、Zen 2為翼,AMD第二代EPYC(霄龍)處理器技術詳解

▲不同核心數的第二代AMD EPYC(霄龍)處理器可支持的NUMA模式有所不同

更加可靠的安全性

除了全新升級的架構和革命性的分離式設計之外,基於Zen 2架構的第二代AMD EPYC(霄龍)處理器還從硬件層面提供了非常可靠的安全性。第二代AMD EPYC(霄龍)處理器中集成了AMD安全協處理器(ARM Cortex-A5架構的32位控制器),運行於安全的系統/內核,可以確保固件數據等片外非易失性存儲的安全,提供安全加密功能,並可實現硬件驗證啟動,和x86系統的隔離性更好。此外,其內存控制器中還集成了AES-128加密引擎,當提供相應的密鑰時,該加密引擎可以自動加密和解密主存儲器中的數據。

7nm為羽、Zen 2為翼,AMD第二代EPYC(霄龍)處理器技術詳解

▲第二代AMD EPYC(霄龍)處理器中集成了AMD安全處理器,可為為安全密鑰生成和密鑰管理提供加密功能。

7nm為羽、Zen 2為翼,AMD第二代EPYC(霄龍)處理器技術詳解

▲第二代AMD EPYC(霄龍)處理器中的內存控制器還嵌入AES-128加密引擎,可自動加密和解密主存儲器中的數據。

不僅如此,第二代AMD EPYC(霄龍)處理器還支持AMD的內存加密技術,它可以讓服務器獲得全程軟、硬加密保護。該技術藉助硬件SHA安全算法,支持安全內存加密(英文簡稱:SEV)和安全加密虛擬化(簡稱:SME)這兩種加密模式。其中,SEV安全加密虛擬化可以保護虛擬機免受無謂傷害,讓虛擬機/容器技術被分別保護,連管理員和不安全的虛擬機管理程序也無法越權篡改。此外,每個虛擬機和管理器都有獨立的密鑰,彼此加密隔離,並與AMD現有的AMD-V虛擬化技術整合。

7nm為羽、Zen 2為翼,AMD第二代EPYC(霄龍)處理器技術詳解

▲在SEV模式下,監視器和運行在同一機器上的客戶端資源、不同客戶負載完全隔離,代碼和數據將分別標記、獨立加密,訪問的時候如果加密標記錯誤,就只能看到加密狀態。

SME安全內存加密是基於硬件支持,可以保護物理內存免受攻擊,單個安全密鑰,操作系統/虛擬器管理器可以自己選擇需要加密的頁面,而網絡、存儲、顯卡等硬件設備可以無縫訪問加密頁面。同時SME內存加密功能對性能的影響很小,僅對被加密頁面產生延遲。

7nm為羽、Zen 2為翼,AMD第二代EPYC(霄龍)處理器技術詳解

▲SME可有助於防禦物理內存攻擊,並且這種加密模式對系統性能尤其是內存延遲的影響非常小。

大幅提升內存頻率和帶寬

相比代號為“Naples”的第一代EPYC(霄龍)處理器,第二代AMD EPYC(霄龍)處理器將支持更高頻率內存,並且內存帶寬也大幅提升。首先在內存頻率方面,第二代AMD EPYC(霄龍)處理器最高可支持DDR4 3200頻率內存,而Naples則最高只支持DDR4 2666頻率內存。此外在理論最高內存帶寬方面,雙路第二代AMD EPYC(霄龍)處理器的理論最高內存帶寬可達410GB/s,領先雙路Naples約21%,同時相比競爭對手的雙路第二代至強可擴展處理器,第二代AMD EPYC(霄龍)處理器的理論最高內存帶寬更是領先約45%之多。

7nm為羽、Zen 2為翼,AMD第二代EPYC(霄龍)處理器技術詳解

▲相比第一代EPYC(霄龍)處理器,第二代AMD EPYC(霄龍)處理器的理論最高內存帶寬大幅提升,並且領先競爭對手的雙路第二代至強可擴展處理器約45%。

率先支持PCIe 4.0

不僅如此,第二代AMD EPYC(霄龍)處理器還是行業首例支持PCIe 4.0的x86服務器處理器。相比第一代EPYC(霄龍)處理器,其每PCIe通道帶寬翻倍,並且顯著提升了數據中心加速器的性能。因此,第二代AMD EPYC(霄龍)處理器完全可以滿足未來設備的數據傳輸需求。從AMD給出的資料來看,第二代AMD EPYC(霄龍)處理器配備128條PCIe 4.0通道,並且其理論傳輸帶寬可達512GB/s。

"


7nm為羽、Zen 2為翼,AMD第二代EPYC(霄龍)處理器技術詳解

上一個十年,AMD曾經憑藉皓龍(Opteron)在服務器、數據中心領域獲得過超過四分之一的市場份額。在成功推出Zen架構之後,AMD在2017年推出了皓龍的接班人——全新的EPYC(霄龍)系列處理器,重新成為服務器、數據中心領域的強有力競爭者。2018 年底,AMD再接再厲,正式公佈了業界首款採用7nm生產工藝、基於Zen 2 架構、代號“Rome”的第二代EPYC(霄龍)系列處理器。半年多之後,AMD今天終於在舊金山(當地時間8月7日,北京時間8月8日)正式發佈這款產品。那麼讓我們來看看第二代EPYC(霄龍)系列處理器都有哪些“獨門祕訣”!

7nm生產工藝領銜

在確定了以TSMC臺積電作為合作伙伴之後,AMD迅速將全線新款產品的生產工藝推進到7nm,已經正式上市的第三代銳龍處理器和Radeon RT 5700系列顯卡均採用7nm工藝生產,此次發佈的第二代EPYC(霄龍)系列處理器當然也不會例外。臺積電的7nm工藝全稱是7nm HK-MG FinFET,針對不同的用途分為兩種:一種為移動設備設計,被稱為“7FF”,以低功耗和較高性能功耗比為主要特點;另一種為高性能處理器設計,名為“7HPC”。那麼7nm生產工藝有哪些好處呢?AMD官方數據顯示,採用7nm生產工藝的處理器在晶圓密度上提高了兩倍;在相同性能下,功耗可以降低一半;在相同功耗下,性能較前代產品可以提升25%。

7nm為羽、Zen 2為翼,AMD第二代EPYC(霄龍)處理器技術詳解

▲採用7nm生產工藝的處理器在晶圓密度上提高了兩倍;在相同性能下,功耗可以降低一半;在相同功耗下,性能較前代產品可以提升25%。

今天,AMD代號為“Rome”的第二代(霄龍)處理器已經正式發佈,而英特爾基於10nm生產工藝的服務器產品目前還沒有太多信息,按照以往的慣例,服務器類產品的推出節奏通常會比消費類產品的晚一年,而10nm的英特爾消費類產品目前才剛開始發佈相關品牌的產品。所以,這是在多年之後,AMD首次表示其服務器處理器在生產工藝上取得領先,特別是在每瓦性能方面。當然,目前英特爾方面則認為其10nm製程的晶體管密度更好。兩者的技術特性目前尚無進一步的詳細對比資料,有興趣的讀者可以關注我們後續的報道。

7nm為羽、Zen 2為翼,AMD第二代EPYC(霄龍)處理器技術詳解

▲憑藉先進的7nm生產工藝,AMD表示已經在生產工藝上領先競爭對手。

Zen 2架構:全面架構提升+革命性的分離式設計

除了製造工藝上的優勢之外,第二代AMD EPYC(霄龍)系列處理器最重要的革新其實是其核心基於Zen 2架構。相較於上一代產品所採用的Zen架構,Zen 2架構在各方面都進行了增強。其中最核心的有兩個部分:一是核心微架構升級,二是計算單元和I/O單元的分離。

丨升級核心微架構,IPC大幅提升丨

AMD 在Zen架構設計時就非常注重提升處理器的單核心IPC性能。Zen架構核心相比前代產品單核心IPC性能提升了超過52%之多。也正因為如此,才使得AMD在高性能處理器領域趕上了競爭對手的步伐。據AMD在舊金山EPYC Horizon 發佈會上宣佈,擁有最高64顆Zen 2核心的第二代AMD EPYC(霄龍)處理器,相比Zen核心架構,服務器工作負載的IPC性能提升最高達23%!

IPC性能大幅提升的主要原因在於,AMD在設計Zen 2架構時對內部架構進行了大幅改良。比如大幅改進了分支預測功能,全新的TAGE分支預測器相比上一代的Perceptron,在各級指令緩存,微操作緩存以及L1 cache的關聯寬度等方面幾乎都是翻倍的,預測失敗的機率降低了三分之一。無論利用效率、指令融合效率和有效吞吐量都更好。

7nm為羽、Zen 2為翼,AMD第二代EPYC(霄龍)處理器技術詳解

▲相比Zen,Zen 2採用了更優良的TAGE分支預測器和更大的運行緩存。

在整數運算單元上,Zen 2架構的ALU數量沒有變,但是管理數據載入和存儲指令的AGU單元從兩個提升到了3個,並提升了各種緩存大小,增強了ALU、AGU的調度能力,使其更加合理。

7nm為羽、Zen 2為翼,AMD第二代EPYC(霄龍)處理器技術詳解

▲在整數運算單元方面,Zen中對數據載入和存儲指令進行管理的AGU單元為兩個,而Zen 2則提升到3個。

浮點運算單元的數據路徑寬度為256bit,比上一代翻倍了,不僅具有更大的吞吐量,同時也更好地實現了對AVX-256指令的支持。此外,浮點運算單元的數據載入和存儲帶寬也獲得了提升,將使得數據的傳輸更具效率,並減少了與整數單元出現衝突的概率。

7nm為羽、Zen 2為翼,AMD第二代EPYC(霄龍)處理器技術詳解

▲Zen 2採用了256bit的浮點單元

丨模塊化設計帶來更高靈活度丨

除了核心架構的進步,Zen2在處理器的設計佈局上也進行了變革,以便實現更高靈活度的模塊化設計。CHIPLET模塊化設計是基於AMD Infinity Fabric互聯的增強版本,其核心思路是在單個處理器封裝內鏈接多片獨立的硅晶片。和上一代Zen架構中每個處理器核心分別自帶相關I/O模塊截然不同的是,Zen2架構徹底將處理器核心和I/O模塊分離,計算核心本身不再提供I/O接口而專注於運算,I/O模塊成為連接各個計算核心和外部鏈接的中樞。


7nm為羽、Zen 2為翼,AMD第二代EPYC(霄龍)處理器技術詳解

▲Zen 2的計算核心和I/O模塊分離,計算核心本身不再提供I/O接口而專注於運算,I/O模塊成為連接計算核心和外部鏈接的中樞。

Zen 2的計算核心採用先進的7nm製程工藝生產,有助於縮小晶片面積、提高頻率、降低功耗。而I/O部分由於模擬電路更多,即使採用7nm工藝也不會帶來面積、功耗等方面的明顯改善,所以採用成熟的14nm工藝製造。這種創新的模塊化設計的優勢明顯——在同等功耗下擁有更多的CPU核心,可以獲得更高的性能;而與傳統的單片設計相比,生產成本又更低。將這種全新的設計方法與臺積電最前沿的7nm生產工藝優勢相結合,Zen 2架構帶來了性能、能耗和計算密度的提升,有助於大幅降低數據中心的運營成本和散熱需求。

7nm為羽、Zen 2為翼,AMD第二代EPYC(霄龍)處理器技術詳解

▲Zen 2架構中每個SoC擁有9個Die(即8個計算核心和1個I/O模塊),而Zen架構中每個SoC則擁有4個分別自帶I/O模塊的計算核心。

除了性能和成本上的優勢,採用模塊化設計的優勢還在於可以根據計算需要,靈活地將不同數量的計算核心與I/O模塊搭配,以實現不同的規格。Zen 2單個計算模塊的規格是8核心、16線程,單顆第二代AMD EPYC(霄龍)處理器的SoC封裝最多可以搭配8個計算模塊,這樣就能夠實現最多64核心、128線程的規格。此前單路CPU最多的物理核心記錄也只有32個,所以第二代AMD EPYC(霄龍)處理器在物理核心數量上實現了翻倍,而且還支持SMT技術。

丨升級的NUMA模式丨

不僅如此,Zen 2架構還升級了NUMA(Non-Uniform Memory Access)非統一內存訪問模式。所謂NUMA,簡單來說就是在NUMA模式下CPU 核心和內存控制器將優先處理物理結構上離處理器最近的內存中數據,除非內容過大會溢出到下一個內存模塊,這可以有效降低這些數據的訪問延遲並提高整體效能。

在Zen架構中,由於Zen架構中每個Die都擁有獨立的內存控制器,所以當這兩顆分別擁有4個Die的CPU(一共8個Die)進行數據傳輸時,就一共會存在8個NUMA域,並且最多會存在3個NUMA間距。因此在基於Zen架構的雙路系統中,兩顆CPU之間進行數據傳輸時,延遲會達到一個較高的水平,這也會影響到整體效能。

不過在Zen 2架構中,每顆CPU的所有內存控制器都集成在I/O Die中,所以當基於Zen 2架構的兩顆CPU組建雙路系統時,它們在NUMA模式下只會存在兩個NUMA域,並且這兩顆CPU之間也僅有兩個NUMA間距。因此,更少的NUMA域和間距將會降低雙路系統中兩顆CPU之間的數據傳輸延遲,同時也能有效提升其整體效能。

7nm為羽、Zen 2為翼,AMD第二代EPYC(霄龍)處理器技術詳解

▲相比Zen架構,Zen 2架構在NUMA模式下擁有更少的NUMA域和NUMA間距,所以在雙路系統中兩顆CPU之間的數據傳輸延遲更低。

其實Zen 2架構中NUMA模式的改進還不止如此,為了滿足不同使用場景的性能需求,Zen 2架構還擁有多種NUMA模式,這些模式名為“NPSx”(英文全稱為NUMA Nodes Per Socket)。從AMD給出的資料來看,Zen 2架構中最多可實現NPS4、NPS2、NPS1、NPS0這4中NUMA模式。

其中,每顆基於Zen 2架構,擁有8個Die的第二代AMD EPYC(霄龍)處理器在NPS4下,其8個Die將被分為4組(每兩個Die一組),每組中的兩個Die將會與通過物理結構最近的內存控制器讀取對應這兩個通道中內存的數據(即不能讀取其他內存通道中的內存數據,所以這兩個Die可用的內存容量有限)。由於使用了物理層結構最近的內存控制器,所以在NPS4下,每個Die的內存讀寫延遲更低,並且內存帶寬更高。不過由於這種模式下每組中的兩個Die可用內存容量有限,某些對內存容量要求較高的應用並不適合使用NPS4模式。

此外,NPS2就是把第二代AMD EPYC(霄龍)處理器的8個或者4個Die平均分為兩組,每組中的Die也是通過物理結構最近的內存控制器讀取4個通道中內存的數據。因此相比NPS4,NPS2模式下每組可使用的內存容量更大,但內存延遲也稍高一些。同理,NPS1模式可同時適用於所有單路和雙路系統,每顆CPU使用各自的內存控制器去訪問相應的8通道內存。而NPS0僅適用於雙路系統,兩顆CPU共同使用16個內存通道。

7nm為羽、Zen 2為翼,AMD第二代EPYC(霄龍)處理器技術詳解

▲不同核心數的第二代AMD EPYC(霄龍)處理器可支持的NUMA模式有所不同

更加可靠的安全性

除了全新升級的架構和革命性的分離式設計之外,基於Zen 2架構的第二代AMD EPYC(霄龍)處理器還從硬件層面提供了非常可靠的安全性。第二代AMD EPYC(霄龍)處理器中集成了AMD安全協處理器(ARM Cortex-A5架構的32位控制器),運行於安全的系統/內核,可以確保固件數據等片外非易失性存儲的安全,提供安全加密功能,並可實現硬件驗證啟動,和x86系統的隔離性更好。此外,其內存控制器中還集成了AES-128加密引擎,當提供相應的密鑰時,該加密引擎可以自動加密和解密主存儲器中的數據。

7nm為羽、Zen 2為翼,AMD第二代EPYC(霄龍)處理器技術詳解

▲第二代AMD EPYC(霄龍)處理器中集成了AMD安全處理器,可為為安全密鑰生成和密鑰管理提供加密功能。

7nm為羽、Zen 2為翼,AMD第二代EPYC(霄龍)處理器技術詳解

▲第二代AMD EPYC(霄龍)處理器中的內存控制器還嵌入AES-128加密引擎,可自動加密和解密主存儲器中的數據。

不僅如此,第二代AMD EPYC(霄龍)處理器還支持AMD的內存加密技術,它可以讓服務器獲得全程軟、硬加密保護。該技術藉助硬件SHA安全算法,支持安全內存加密(英文簡稱:SEV)和安全加密虛擬化(簡稱:SME)這兩種加密模式。其中,SEV安全加密虛擬化可以保護虛擬機免受無謂傷害,讓虛擬機/容器技術被分別保護,連管理員和不安全的虛擬機管理程序也無法越權篡改。此外,每個虛擬機和管理器都有獨立的密鑰,彼此加密隔離,並與AMD現有的AMD-V虛擬化技術整合。

7nm為羽、Zen 2為翼,AMD第二代EPYC(霄龍)處理器技術詳解

▲在SEV模式下,監視器和運行在同一機器上的客戶端資源、不同客戶負載完全隔離,代碼和數據將分別標記、獨立加密,訪問的時候如果加密標記錯誤,就只能看到加密狀態。

SME安全內存加密是基於硬件支持,可以保護物理內存免受攻擊,單個安全密鑰,操作系統/虛擬器管理器可以自己選擇需要加密的頁面,而網絡、存儲、顯卡等硬件設備可以無縫訪問加密頁面。同時SME內存加密功能對性能的影響很小,僅對被加密頁面產生延遲。

7nm為羽、Zen 2為翼,AMD第二代EPYC(霄龍)處理器技術詳解

▲SME可有助於防禦物理內存攻擊,並且這種加密模式對系統性能尤其是內存延遲的影響非常小。

大幅提升內存頻率和帶寬

相比代號為“Naples”的第一代EPYC(霄龍)處理器,第二代AMD EPYC(霄龍)處理器將支持更高頻率內存,並且內存帶寬也大幅提升。首先在內存頻率方面,第二代AMD EPYC(霄龍)處理器最高可支持DDR4 3200頻率內存,而Naples則最高只支持DDR4 2666頻率內存。此外在理論最高內存帶寬方面,雙路第二代AMD EPYC(霄龍)處理器的理論最高內存帶寬可達410GB/s,領先雙路Naples約21%,同時相比競爭對手的雙路第二代至強可擴展處理器,第二代AMD EPYC(霄龍)處理器的理論最高內存帶寬更是領先約45%之多。

7nm為羽、Zen 2為翼,AMD第二代EPYC(霄龍)處理器技術詳解

▲相比第一代EPYC(霄龍)處理器,第二代AMD EPYC(霄龍)處理器的理論最高內存帶寬大幅提升,並且領先競爭對手的雙路第二代至強可擴展處理器約45%。

率先支持PCIe 4.0

不僅如此,第二代AMD EPYC(霄龍)處理器還是行業首例支持PCIe 4.0的x86服務器處理器。相比第一代EPYC(霄龍)處理器,其每PCIe通道帶寬翻倍,並且顯著提升了數據中心加速器的性能。因此,第二代AMD EPYC(霄龍)處理器完全可以滿足未來設備的數據傳輸需求。從AMD給出的資料來看,第二代AMD EPYC(霄龍)處理器配備128條PCIe 4.0通道,並且其理論傳輸帶寬可達512GB/s。

7nm為羽、Zen 2為翼,AMD第二代EPYC(霄龍)處理器技術詳解

▲第二代AMD EPYC(霄龍)處理器是行業首例支持PCIe 4.0的x86服務器處理器,並且相比第一代EPYC(霄龍)處理器,其每PCIe通道數據帶寬翻倍。

Rome降臨:大幅超越Naples,讓對手倍感壓力!

總的來看,率先採用7nm生產工藝、基於Zen 2架構的第二代AMD EPYC(霄龍)處理器的確是AMD推出的一款重磅產品。其先進的7nm生產工藝有助於縮小晶片面積、提高頻率、降低功耗;Zen 2架構則大幅度提升了IPC;革命性的模塊化設計帶來了更高的靈活性。此外,第二代EPYC(霄龍)處理器最高達64核128線程的核心規格也讓它擁有遠超上一代產品的性能。不僅如此,第二代EPYC(霄龍)處理器的理論最大內存帶寬相比上一代產品提升約21%,並且相比競品有45%的優勢,同時內存頻率最高可支持DDR4 3200。坦率地說,第二代AMD EPYC(霄龍)處理器是一款讓競爭對手倍感壓力的產品,這不,英特爾趕在前天宣佈了代號“Cooper Lake”的下一代至強可擴展處理器頂級產品的消息,但無論如何,“Cooper Lake”還是最高只有56個核心,還是14nm製程。

那麼第二代EPYC(霄龍)處理器的實際性能究竟有多強呢?MC特別對第二代EPYC(霄龍)處理器中的旗艦產品EPYC 7742進行了測試,感興趣的朋友不妨翻閱MC關於雙路EPYC 7742處理器的獨家性能測試報道。

"

相關推薦

推薦中...