'如何優化人工智能、機器學習和深度學習的存儲'

人工智能深度學習機器學習設計操作系統算法軟件技術分佈式計算 GPU 硬件英偉達工程師人生第一份工作中央處理器電腦固態硬盤企業網D1Net 2019-09-16

如今的人工智能和深度學習應用程序中使用了大數據集和快速I/O技術，但數據存儲可能會導致性能問題。人們需要了解人工智能和深度學習存儲系統應該具備哪些功能。

人工智能技術廣泛應用在機器學習和深度學習中，已經引發了研究和產品開發的爆炸性增長，因為企業發現了創造性的方法，將這些新算法用於過程自動化和預測性見解的創新方法。機器學習和深度學習模型的本質要求獲取、準備、移動和處理大量數據集，後者通常模擬大腦的神經結構和連接性。

特別是深度學習模型需要大量數據集，這對於人工智能和深度學習的存儲是一種獨特的挑戰。簡要介紹機器學習和深度學習軟件的本質，將會揭示存儲系統對於這些算法如此重要以提供及時準確結果的原因。

為什麼人工智能和深度學習的存儲很重要

許多研究者已經證明，隨著數據集的增加，深度學習模型的準確性也會提高。這一改進意義重大，研究人員經常使用複雜的數據增強技術來綜合生成額外的數據用於模型訓練。

例如，用於對各種深度學習圖像分類算法進行基準測試的ImageNet數據集包含超過1400萬張具有大量註釋的圖像。雖然經常用於對圖像分類硬件進行基準測試的ResNet-50模型的大小剛好超過100MB。這些模型最好保存在內存中，必須不斷地提供數據，這通常會導致存儲系統成為整體性能的瓶頸。

深度學習存儲系統設計必須在各種數據類型和深度學習模型之間提供平衡的性能。

無論模型和應用如何，深度學習包括兩個步驟：模型訓練和數據推理。訓練是在使用訓練數據集進行重複的、通常是遞歸的計算的基礎上計算和優化模型參數的過程。數據推理是在新的輸入數據上使用經過訓練的模型進行分類和預測的地方。

每個步驟都會以不同的方式強調為人工智能和深度學習提供存儲的系統。通過訓練，其壓力源於大型數據集和對計算複合體(通常是分佈式集群)的快速I/O，這是可接受性能所必需的。通過推理，其壓力來自數據的實時性，必須以最小的延遲處理這些數據。

深度學習的存儲性能要求

深度學習算法的本質意味著它們使用了大量的矩陣數學。與計算機圖形不同，神經網絡和其他深度學習模型不需要高精度浮點結果，並且通常由新一代人工智能優化的GPU和支持低精度8位和16位矩陣計算的CPU進一步加速，這種優化可以將存儲系統轉變為更大的性能瓶頸。

深度學習模型和數據源的多樣性，以及通常用於深度學習服務器的分佈式計算設計，意味著旨在為人工智能提供存儲的系統必須解決以下問題：

•各種各樣的數據格式，包括二進制對象(BLOB)數據、圖像、視頻、音頻、文本和結構化數據，它們具有不同的格式和I/O特性。

•橫向擴展系統架構，其中工作負載分佈在多個系統中，通常為4到16個，用於培訓，可能有數百個或數千個用於數據推理。

•帶寬和吞吐量，可以快速向計算硬件提供大量數據。

•無論數據特性如何，IOPS都能維持高吞吐量;也就是說，可以實現許多小交易和較少的大轉移。

•以最小的延遲提供數據，因為與虛擬內存分頁一樣，當GPU等待新數據時，訓練算法的性能會顯著降低。

深度學習存儲系統設計必須在各種數據類型和深度學習模型中提供均衡的性能。根據Nvidia公司一位工程師的說法，在各種負載條件下驗證存儲系統性能至關重要。

他說，“工作負載的複雜性加上深度學習培訓所需的數據量創造了一個具有挑戰性的性能環境。考慮到這些環境的複雜性，在投入生產之前收集基準性能數據，驗證核心系統(硬件組件和操作系統)是否能夠在綜合負載下提供預期性能至關重要。”

深度學習存儲系統的核心功能

上述性能因素促使人工智能存儲系統供應商採用五項核心功能，其中包括：

1.可增量擴展的並行擴展系統設計，其中I/O性能隨容量而擴展。這種設計的一個標誌是分佈式存儲體系結構或文件系統，它將對象和文件等邏輯元素與保存它們的物理設備或設備區分開。

2.可編程的、軟件定義的控制平臺，它是實現橫向擴展設計和大多數管理任務自動化的關鍵。

3.企業級可靠性、耐久性、冗餘和存儲服務。

4.對於深度學習培訓系統，採用緊密耦合的計算存儲系統架構，採用無阻塞網絡設計，連接服務器和存儲，最低鏈路速度為10GB至25GB以太網或EDR(25Gbps)Infiniband。

5. SSD設備越來越多地使用速度更快的NVMe設備，提供比SATA更高的吞吐量和IOPS。

o DAS系統通常使用NVMe-over-PCIe設備。

o NAS設計通常使用10Gb以太網或更快的以太網，使用NVMe over fabric、Infiniband或交換PCIe結構。

Nvidia公司的DGX-2系統是深度學習的高性能系統架構的一個例子。

量身定製的存儲產品

人工智能現在是一項熱門技術，供應商通過混合使用新產品和更新產品快速應對市場，以滿足人工智能工作負載的需求。鑑於市場活力，不會嘗試提供針對人工智能存儲優化或針對的產品的綜合目錄，但以下是一些示例：

Dell EMC公司針對人工智能提供的現成解決方案，包括機架、服務器、存儲、邊緣交換機、管理節點。該存儲使用isilon H600或F800所有閃存擴展NAS，帶有40GbE網絡鏈路。

DDN A3I使用AI200或AI400 NVMe全閃存陣列(AFA)，分別具有360TB容量和750K和1.5MIOPS以及4或8個100GbE或EDR InfiniBand接口，或DDN AI7990混合存儲設備(5.4 PB)容量，750K IOPS和4個100 GbE或EDR InfiniBand接口。DDN還將產品與Nvidia DGX-1 GPU加速服務器和Hewlett Packard Enterprise Apollo 6500加速服務器捆綁在一起。

IBM Elastic Storage Server AFA陣列具有多種基於SSD硬盤的配置，可提供高達1.1 PB的可用容量。IBM公司還有一個參考系統架構，它將Elastic Storage Server與Power Systems服務器和PowerAI Enterprise軟件堆棧相結合。

NetApp OnTap AI參考架構將Nvidia DGX-1服務器與NetApp AFA A800系統和兩個Cisco Nexus 3K 100GbE交換機相結合。A800可提供1M IOPS，延遲時間為半毫秒，其橫向擴展設計可在24節點集群中提供超過11M的IOPS。

Pure Storage AIRI是另一個DGX-1集成系統，它使用Pure的FlashBlade AFA系統，支持文件和對象存儲。Arista、Cisco或Mellanox交換機提供參考系統。例如，Arista公司設計使用15個17TB FlashBlades和8個40GbE鏈路連接到Arista 32端口100 GbE交換機。

Pure Storage的AIRI系統架構

深度學習推理系統對存儲子系統的要求較低，通常可以通過在x86服務器中使用本地SSD硬盤來實現。雖然推理平臺通常是具有本地SSD硬盤或NVMe插槽的傳統1U和2U服務器設計，但它們越來越多地包括計算加速器，如Nvidia T4 GPU或可以將一些深度學習操作編譯到硬件中的FPGA。

'如何優化人工智能、機器學習和深度學習的存儲'

相關推薦