詳解GPU虛擬化技術

GPU 技術中央處理器冶天科技 OpenGL 英偉達 ?? 超微半導體微軟硬件設計 C語言可視化技術操作系統香港IDC 2019-04-19

GPU英文名稱為Graphic Processing Unit，GPU中文全稱為計算機圖形處理器，1999年由NVIDIA公司提出。

一、GPU概述

GPU這一概念也是相對於計算機系統中的CPU而言的，由於人們對圖形的需求越來越大，尤其是在家用系統和遊戲發燒友，而傳統的CPU不能滿足現狀，因此需要提供一個專門處理圖形的核心處理器。

GPU作為硬件顯卡的“心臟”，地位等同於CPU在計算機系統中的作用。同時GPU也可以用來作為區分2D硬件顯卡和3D硬件顯卡的重要依據。2D硬件顯卡主要通過使用CPU 來處理特性和3D 圖像，將其稱作“軟加速”。

3D 硬件顯卡則是把特性和3D 圖像的處理能力集中到硬件顯卡中，也就是“硬件加速”。目前市場上流行的顯卡多半是由NVIDIA及ATI這兩家公司生產的。

1.1、為什麼需要專門出現GPU來處理圖形工作，CPU為啥不可以?

GPU是並行編程模型，和CPU的串行編程模型完全不同，導致很多CPU上優秀的算法都無法直接映射到GPU上，並且GPU的結構相當於共享存儲式多處理結構，因此在GPU上設計的並行程序與CPU上的串行程序具有很大的差異。GPU主要採用立方環境的材質貼圖、硬體T&L、頂點混合、凹凸的映射貼圖和紋理壓縮、雙重紋理四像素256位的渲染引擎等重要技術。

由於圖形渲染任務具有高度的並行性，因此GPU可以僅僅通過增加並行處理單元和存儲器控制單元便可有效的提高處理能力和存儲器帶寬。

GPU設計目的和CPU截然不同，CPU是設計用來處理通用任務，因此具有複雜的控制單元，而GPU主要用來處理計算性強而邏輯性不強的計算任務，GPU中可利用的處理單元可以更多的作為執行單元。因此，相較於CPU，GPU在具備大量重複數據集運算和頻繁內存訪問等特點的應用場景中具有無可比擬的優勢。

1.2、GPU如何使用?

使用GPU有兩種方式，一種是開發的應用程序通過通用的圖形庫接口調用GPU設備，另一種是GPU自身提供API編程接口，應用程序通過GPU提供的API編程接口直接調用GPU設備。

1.2.1、通用圖形庫

通過通用的圖形庫的方式使用GPU，都是通過 OpenGL 或Direct3D這一類現有的圖形函數庫，以編寫渲染語言(Shading Language)的方法控制 GPU 內部的渲染器(Shader)來完成需要的計算。

目前業界公認的圖形編程接口主要有OpenGL和DirectX這兩種接口。OpenGL是當前可用於開發可交互、可移植的2D與3D圖形應用程序的首選環境，也是當前圖形應用最廣泛的標準。OpenGL是SGI公司開發的計算機圖形處理系統，是圖形硬件的軟件接口，GL為圖形庫(Graphics Library)，OpenGL應用程序不需要關注所在運行環境所處的操作系統與平臺。

只要在任何一個遵循OpenGL標準的環境下都會產生一樣的可視化效果。與OpenGL類似，DirectX (Directe Xtension)也是一種圖形API。它是由Microsoft創建的多媒體編程接口，並已經成為微軟視窗的標準。為適應GPU應用的需求，DirectX則根據GPU新產品功能的擴充與進展及時地定義新的版本，它所提供的功能幾乎與GPU提供的功能同步。

1.2.2、GPU自身編程接口

GPU自身提供的編程接口主要由提供GPU設備的兩家公司提供，分別是括NVIDIA的CUDA框架和AMD(ATI)公司於2006年提出了CTM(Close To Metal)框架(備註，最初是ATI公司生產GPU設備，後被AMD收購)。AMD的CTM框架現在已不在使用，主要是AMD(ATI)於2007 年推出了ATI Stream SDK架構，2008 年AMD(ATI)完全轉向了公開的OpenCL標準，因此AMD(ATI)公司目前已沒有獨立的、私有的通用計算框架。

2007年NVIDIA公司發佈CUDA (Compute Unified Device Architecture)專用通用計算框架。使用CUDA 進行通用計算編程不再需要藉助圖形學API，而是使用與C 語言十分類似的方式進行開發。在CUDA 編程模型中，有一個被稱為主機(Host)的CPU 和若干個被稱作設備(Device)或者協處理器(Co-Processor)的GPU。

在該模型中，CPU和GPU協同工作，各司其職。CPU負責進行邏輯性較強的事務處理和串行計算，而GPU 則專注於執行線程化的並行處理任務。CPU、GPU 各自擁有相互獨立的存儲器地址空間主機端的內存和設備端的顯存。一般採用CUDA 框架自己進行編程的都一些大型的應用程序，比如石油勘測、流體力學模擬、分子動力學仿真、生物計算、音視頻編解碼、天文計算等領域。

而我們一般企業級的應用程序由於開發成本以及兼容性等原因，大多數都是採用通用的圖形庫來進行開發調用GPU設備。

1.3、GPU如何工作?

GPU 對於通用計算和圖形處理的內部組件主要有兩部分: 頂點處理器(Vertex Processor)和子素處理器(Fragment Processor)。這種處理器具備流處理機的模式，即不具有大容量的快存/存儲器可以讀寫,只是直接在芯片上利用臨時寄存器進行流數據的操作。

當GPU 用於圖形處理時，此時GPU 內部的頂點渲染、像素渲染以及幾何渲染操作都可以通過流處理器完成。從圖中可以看出，此時GPU 內部的所有流處理器相當於一個多核的處理器，數據可以很方便的在不同的流處理器之間的輸入和輸出之間移動，同時GPU分派器和控制邏輯可以動態的指派流處理器進行相應的頂點，像素，幾何等操作，因為流處理器都是通用的。

二、GPU虛擬化

開始我們的正題，目前虛擬機系統中的圖形處理方式有三種：一種是採用虛擬顯卡的方式，另一種是直接採用物理顯卡，最後是採用GPU虛擬化。

2.1、虛擬顯卡

第一種採用虛擬顯卡是現在主流的虛擬化系統的選擇，因為專業的顯卡硬件價格不菲。目前採用虛擬顯卡的這些技術包括：

虛擬網絡計算機VNC (Virtual Network Computing)
Xen 虛擬幀緩存
VMware虛擬圖形顯示處理器GPU (Graphics Processing Unit)
獨立於虛擬機管理器的圖形加速系統VMGL (VMM-Independent Graphics Acceleration)。

VNC(Virtual Network Computing)基本上是屬於一種顯示系統,也就是說它能將完整的窗口界面通過網絡，傳輸到另一臺計算機的屏幕上。Windows 服務器中包含的"Terminal Server"即是屬於這種原理的設計。VNC 是由AT&T 實驗室所開發的，其採用GPL(General Public License)授權條款，任何人都可免費取得該軟件。VNC軟件要由兩個部分組成：VNC server和VNC viewer。用戶需先將VNC server安裝在被遠程操控的計算機上後，才能在主控端執行VNC viewer 進行遠程操控。

XEN虛擬幀緩存是指XEN提供的一個虛擬的顯示設備。該虛擬顯示設備採用特權域的VNC服務器，因此該虛擬顯示設備具有相似的VNC接口。客戶機在XEN虛擬幀緩存中寫入數據，然後通過VNC 協議來傳輸已修改的圖片，最後通知前端進行相應區域的更新。這個虛擬幀緩存設備的源碼是來自開源的Qemu。我們在XenServer上看見虛擬機的操作系統桌面界面，即是這種技術的顯示。

虛擬網絡計算機VNC 和XEN 虛擬幀緩存這兩種模式至今在虛擬機中仍未提供一定的硬件圖形加速能力。由於目前仍沒有一個機制能使虛擬機進行訪問圖形硬件的能力，因此這些虛擬的顯示設備都是通過使用CPU以及內存的方式對圖形數據進行相應處理。並沒有採用物理顯示設備的功能。

然而VMGL這種模式已經實現了這種機制，這個機制通常被稱為前端-後端虛擬化機制(Front-end virtualization)。VMGL這種模式採用這個機制將需要圖形處理的數據發送到一個擁有硬件圖形加速功能的虛擬監控機上進行相應的圖形數據處理。目前存在的比較主流可用於GPU應用程序開發的圖形處理接口有兩類：OpenGL和Direct3D。

在這兩類圖形處理接口中，OpenGL是唯一一類能夠在主流操作系統中跨平臺操作的圖形API接口。在虛擬機平臺中，VMGL是首個針對OpenGL API進行虛擬化的項目。VMGL的工作原理是，它在客戶端操作系統中部署了一個偽庫(Fake Library)用來取代標準的OpenGL 庫，偽庫(Fake Library)擁有與標準的OpenGL庫相同的接口，在客戶端操作系統中的偽庫也實現了指向遠程服務器的宿主機操作系統的遠程調用。

這樣一來，所有的本地OPENGL調用都將被解釋為對遠程服務器的一次服務請求，遠程服務器的宿主機操作系統擁有真正的OPENGL庫、顯卡驅動和物理硬件GPU，它負責完成OPENGL請求並將執行結果顯示到屏幕上。由於VMGL在整個過程操作中都是完全透明的，因此調用OPENGL的應用程序不需要修改源代碼也不需要進行二進制改寫，無需為虛擬機平臺作任何改動。

2.2、顯卡直通

顯卡直通也叫做顯卡穿透(Pass-Through)，是指繞過虛擬機管理系統，將GPU 單獨分配給某一虛擬機，只有該虛擬機擁有使用GPU的權限，這種獨佔設備的方法分配方式保存了GPU的完整性和獨立性，在性能方面與非虛擬化條件下接近，且可以用來進行通用計算。但是顯卡直通需要利用顯卡的一些特殊細節，同時兼容性差，僅在部分GPU 中設備可以使用。

Xen 4.0增加了VGA Passthrough技術，因此XenServer也擁有了該技術，XenServer的Passthrough 就是利用英特爾設備虛擬化(Intel VT-d)技術將顯示設備暴露給某一個客戶虛擬機，不僅其它客戶虛擬機不能訪問，就連宿主虛擬機也失去了使用該GPU的能力。它在客戶虛擬機中實現了顯卡的一些特殊細節，如VGA BIOS、文本模式、IO 端口、內存映射、VESA模式等，以支持直接訪問。使用Xen Server的 VGA Pass-Through 技術的GPU執行效率高，功能全，但只能被單一系統獨佔使用，失去了設備複用的功能。VMware ESXi 中包括一個VM Direct Path I/O框架，使用該技術也可以將我們的顯卡設備直通給某一虛擬機進行使用。

XenServer和VMware使用的是不同的技術但是實現的效果都是一樣的，即將物理顯卡設備直通給其中的某一虛擬機使用，以達到虛擬機進行3D顯示和渲染的效果。

由於顯卡直通實際上是由客戶操作系統使用原生驅動和硬件，缺少必要的中間層來跟蹤和維護GPU 狀態，它不支持實時遷移等虛擬機高級特性。如XenServer Passthrough禁止執行Save/Restore/Migration 等操作。VMware的虛擬機中，一旦開啟VMDirectPath I/O功能，其對應的虛擬機將失去執行掛起/恢復、實時遷移的能力。

2.3、顯卡虛擬化(GPU虛擬化)

顯卡虛擬化就是將顯卡進行切片，並將這些顯卡時間片分配給虛擬機使用的過程。由於支持顯卡虛擬化的顯卡一般可以根據需要切分成不同的規格的時間片，因此可以分配給多臺虛擬機使用。其實現原理其實就是利用應用層接口虛擬化(API remoting)，API重定向是指在應用層進行攔截與GPU相關的應用程序編程接口(API)，通過重定向(仍然使用GPU)的方式完成相應功能，再將執行結果返回應用程序。

我們現在使用Citrix的3D桌面虛擬化解決方案中，大部分是使用NVIDIA公司提供的顯卡虛擬化技術，即是vCUDA(virtual CUDA)技術，前面我們說過了CUDA框架，再此不在說明。vCUDA採用在用戶層攔截和重定向CUDA API的方法，在虛擬機中建立物理GPU的邏輯映像——虛擬GPU，實現GPU資源的細粒度劃分、重組和再利用，支持多機併發、掛起恢復等虛擬機高級特性。

其vCUDA的實現原理大概包括三個模塊：CUDA客戶端、CUDA服務端和CUDA管理端。以XenServer為例，在物理硬件資源上運行著一個VMM用於向上提供硬件映像，在VMM上運行著若干個虛擬機。其中一個虛擬機為特權虛擬機(Host VM)，即為XenServer中的Domain 0，在虛擬機中運行的操作系統稱為Host OS。

Host OS能夠直接控制硬件，系統內安裝著原生的CUDA庫以及GPU驅動，使得Host OS可以直接訪問GPU和使用CUDA。其它的虛擬機屬於非特權虛擬機(Guest VM)，其上運行的操作系統(Guest OS)不能直接操縱GPU。在這裡我們將CUDA客戶端稱之為客戶端驅動，CUDA服務端稱之為宿主機的驅動，CUDA管理端稱之為GPU管理器。

2.3.1、客戶端

客戶端驅動其實質就是我們安裝在虛擬機比如Windows 7上的顯卡驅動程序。主要的功能是在用戶層提供針對CUDA API的庫以及一個維護CUDA相關軟硬件狀態的虛擬GPU(vGPU)。客戶端驅動直接面向CUDA應用程序，其作用包括：

1)攔截應用程序中CUDA API調用;
2)選擇通信策略，為虛擬化提供更高層語義的支持;
3)對調用的接口和參數進行封裝、編碼;
4)對服務端返回的數據進行解碼，並返回給應用。

此外，客戶端驅動在第一個API調用到來之前，首先到管理端索取GPU資源。每一個獨立的調用過程都必須到宿主管理端驅動申請資源，以實現對GPU資源和任務的實時調度。

此外，客戶端驅動同時設置了vGPU用來維護與顯卡相關的軟硬件狀態。vGPU本身實質上僅僅是一個鍵值對的數據結構，在其中存儲了當前使用的地址空間、顯存對象、內存對象等，同時記錄了API的調用次序。當計算結果返回時，客戶端驅動會根據結果更新vGPU。

2.3.2、服務器端

服務端組件位於特權虛擬機(XenServer術語：特權域)中的應用層。特權虛擬機可以直接與硬件交互，因此服務端組件可以直接操縱物理GPU來完成通用計算任務。

服務端面向真實GPU，其作用包括：

1)接收客戶端的數據報，並解析出調用和參數;
2)對調用和參數進行審核;
3)利用CUDA和物理GPU計算審核通過的調用;
4)將結果編碼，並返回給客戶端;
5)對計算系統中支持CUDA的GPU進行管理。

此外，服務端運行的第一個任務是將自身支持CUDA的GPU設備的信息註冊到管理端中。服務端應對客戶端的請求時，為每個應用分配獨立的服務線程。服務端統一管理本地GPU資源，按照一定的策略提供GPU資源，並將由於API調用修改的相關軟硬件狀態更新至vGPU。

2.3.3、管理端

管理端組件位於特權域，在實現CUDA編程接口虛擬化的基礎上，將GPU強大的計算能力和計算資源在更高的邏輯層次上進行隔離、劃分、調度。在CUDA服務端使用計算線程和工作線程在一定程度上使同在一個物理機上的GPU間負載均衡，設置CUDA管理端組件在更高的邏輯層次上進行負載均衡，使在同一個GPU虛擬集群中的GPU負載均衡。

管理端組件調度的原則是儘量使在同一個物理機上的GPU需求自給，如果該物理機上具備滿足條件的GPU資源，在一般情況下，該物理機上的虛擬機的GPU需求都重定向到該物理機的CUDA服務端。

管理端對GPU資源進行統一管理，採用集中、靈活的機制，實現：

1)動態調度：當用戶所佔資源空閒時間超過一定閾值或者任務結束時，管理端回收該資源，當該用戶再次發佈計算任務時，重新為其任務分配GPU資源;
2)負載平衡：當局部計算壓力過大時，調整計算負載，通過動態調度時選擇合適的GPU資源來分散計算負載;
3)故障恢復：當出現故障時，將任務轉移到新的可用GPU資源上。

天下數據是國內屈指可數的擁有多處海外自建機房的新型IDC服務商，被業界公認為“中國IDC行業首選品牌”。

天下數據與全球近120多個國家頂級機房直接合作，提供包括香港、美國、韓國、日本、臺灣、新加坡、荷蘭、法國、英國、德國、埃及、南非、巴西、印度、越南等國家和地區的服務器、雲服務器的租用服務，需要的請聯繫天下數據客服！

除提供傳統的IDC產品外，天下數據的主要職責是為大中型企業提供更精細、安全、滿足個性需求的定製化服務器解決方案，特別是在直銷、金融、視頻、流媒體、遊戲、電子商務、區塊鏈、快消、物聯網、大數據等諸多行業，為廣大客戶解決服務器租用中遇到的各種問題。

詳解GPU虛擬化技術

相關推薦