'如何為高性能計算應用程序提供雲原生體驗'

"

高性能計算(HPC)是企業獲得創新能力、洞察力、商業競爭力的動力,是這個數字時代不可或缺的資源。例如,採用高性能計算(HPC)運行的複雜計算機模型來測量和分析近幾十年天氣變化,幫助改善預測並模擬氣候變化和其他破壞性事件(如颶風)的影響。

而在一系列的製造、工程和工業環境中,採用高性能計算(HPC)技術可以縮短金融交易時間,加強合規性、風險檢測、數據分析,甚至加快原型設計。

高性能計算(HPC)非常適合計算、數字和數據密集型任務,原來主要應用於大型企業、政府部署、研究機構的少數領域。但云計算一直是IT變革的催化劑。它提供了超級計算能力,併為規模較小的實體提供了大量的計算能力;推動‘雲優先'的思想。當然,這與更廣泛的市場數字化密切相關,越來越多的業務應用程序從內部數據中心轉移出來,以提高靈活性,並降低成本。

當今的發展

如今,超大規模的雲計算供應商佔據了大部分的高性能計算(HPC)市場,提供了更高的彈性以及幾乎無限的計算可擴展性。在以往,超級計算數據中心的技術更新通常需要兩年或更長時間。該過程包括審查現有技術,然後進行試驗或概念驗證階段,並廣泛公佈徵求建議書(RFP)要求。毫不奇怪的是,這些設施中通常部署了Cray、IBM、HPE、NEC等公司的服務器。

但是,超大規模雲計算構建者可以將一些快速網絡與一系列GPU和一些複雜的中間件有效地融合在一起,以便管理模擬和建模工作負載,然後稱之為真正的高性能計算(HPC),這種想法是錯誤的。該模型不適合高性能計算(HPC)。這些應用程序複雜而密集,並且要求苛刻。雖然對於某些高性能計算(HPC)而言,通常是以最低成本獲得最多計算能力,但其成功交付以及高性能計算(HPC)應用程序的最佳運行,在很大程度上依賴於性能和速度。

大型雲計算提供商通過大量使用自己的服務器來響應對高性能計算(HPC)集群的需求。通過這些硬件可以提高性能,而服務器的CPU則可以通過商用GPU進行擴充,以用於更大規模的高性能計算(HPC)應用。但這並不是最佳選擇。依靠“大量計算”並不能簡單地構建一個出色的高性能計算(HPC)環境,即在最佳條件下部署應用程序並儘可能高效地運行。要實現這一目標,企業需要一個定製的雲環境,其中應用程序優先提供真正的高性能計算(HPC)。

最近,研究機構在Amazon Web Services、Microsoft Azure、私有的高性能計算(HPC)雲平臺上實施了相同高性能計算(HPC)配置的OpenFOAM壓力測試,以更好地瞭解性能影響。為了反映合理的中型高性能計算(HPC)工作量,元素數量從20萬個增加到4160萬個。

針對每個高性能計算(HPC)雲平臺配置嘗試了五次運行,揭示了在使用少量核心時,在AWS雲平臺中的擴展結果可重複性非常好,但隨著CPU數量的增加,可變性也隨之增加。並會產生負面影響。而採用物理服務器並沒有發生這種情況,全面加快了30%。在Microsoft Azure雲平臺上擴展OpenFOAM模擬也存在一些值得注意的問題。

超大規模公共雲是廣泛的企業、辦公室和雲平臺支持的應用程序和工作負載的理想計算資源,提供廣泛的可擴展性、靈活的訪問點、定價計劃,以適應任何部署和時間表。但是它們依賴於虛擬化的服務器,這些服務器通常是跨越國界的,並且通常遠離存儲設備。在考慮位置時,還要做出關於最佳地理位置的戰略決策。例如,一些地點還可以採用可再生能源,這可能對組織的利潤及其環境足跡產生巨大影響。

而且,對於要求更高的高性能計算(HPC)用戶,尤其是那些希望在近期內接受定製機器和深度學習應用程序的用戶,或者為了從原型階段過渡到生產產品的人工智能初創公司需要對此重新思考。不幸的是,定製配置機器以適應他們自己的應用程序也違背了超大規模的原則。公共雲需要高度的同質性,以便能夠大規模地運營基礎設施。對於運行定製或高度自定義應用程序的高性能計算(HPC)用戶,這些應用程序需要高性能計算(HPC)工程師進行精確配置或增加支持時間以優化其部署,用戶將無法在超大規模雲平臺中找到它。對於這些專業應用,用戶需要採用“量身定製”服務。

Hyperion公司報告稱,10%的高性能計算(HPC)現在在雲平臺中實施。隨著企業越來越依賴高性能計算(HPC)輸出,他們必須尋找一個真正優化的環境,在這個環境中,高性能計算(HPC)集群能夠以可重複的方式部署,並且電力和成本是可持續的,並且不會有經濟損失。曾幾何時,“優化”意味著使用作業調度程序將集群放在一個地方。而如今,每個複製的部署都必須記錄,並隨著時間的推移而實施自動化,以保持性能完整性。

最終,在雲中運行復雜的高性能計算(HPC)應用程序的潛力是巨大的,但如果人們真正獲得好處,必須面對並解決性能、速度、成本的基本挑戰。

"

相關推薦

推薦中...