GPU資源的監控和報警，支撐高效深度學習的利器

機器學習 GPU 深度學習英偉達雲棲社區 2017-05-24

更多深度文章，請關注雲計算頻道：https://yq.aliyun.com/cloud

本系列將利用阿里雲容器服務的機器學習解決方案，幫助您瞭解和掌握TensorFlow，MXNet等深度學習庫，開啟您的深度學習之旅。

第一篇：打造深度學習的雲端實驗室
第二篇： GPU資源的監控和報警，支撐高效深度學習的利器

大家通過第一篇文章對深度學習技術有了感性的認知後，就開始關心如果真正希望用深度學習技術解決問題時，有哪些問題需要注意。這裡分享一下深度學習訓練過程中一些常見的問題以及對應的解決辦法。

多數深度學習的模型訓練通常會花費大量的時間，短的有一到兩週，長的甚至有幾個月的時間。而在這期間，由於GPU狀態不正常導致模型訓練中斷，甚至影響模型訓練結果出現較大偏差的現象也屢見不鮮。這對於數據科學家來說，是無法承受之痛。

過去好多數據科學家為了解決這一問題，在訓練程序啟動之後不斷登錄到GPU主機上，一次一次的運行nvidia-smi。這種做法的問題在於無法及時發現問題；同時也浪費了數據科學家大量的時間。

本文將介紹如何利用阿里雲容器服務的機器學習解決方案在幾分鐘內輕鬆設置GPU資源使用率，顯存使用率和溫度的報警機制，達到對於一些GPU潛在問題的先知先覺，避免不必要損失的目的。

配置GPU資源監控報警

首先創建GPU容器集群，這裡我們就可以得到一個GPU集群,請留意集群名稱

GPU資源的監控和報警，支撐高效深度學習的利器

登錄到雲監控頁面，根據集群名找到對應的集群，並且點擊節點監控

GPU資源的監控和報警，支撐高效深度學習的利器

跳到容器集群節點的列表頁，選擇集群下的任意一個節點，點擊監控圖表

GPU資源的監控和報警，支撐高效深度學習的利器

這裡可看到節點級別資源監控，其中包括GPU的使用率，顯存使用率和溫度。其中GPU的溫度是反映GPU卡工作狀態的重要指標，當GPU的溫度高到一定程度的時候，會導致GPU hang等潛在的嚴重問題。如果能夠提前洞察這一潛在問題，並且報警給相應的數據科學家，從而提前主動做一些checkpoint的保存，就可以提高訓練的有效性，避免硬件問題造成的訓練時間浪費的問題。這裡可以通過點擊報警按鈕快速配置

GPU資源的監控和報警，支撐高效深度學習的利器

當報警設置頁面彈出後，首先配置關聯資源，將實例列表下拉選擇全選將集群中所有的機器添加到報警監控中。

GPU資源的監控和報警，支撐高效深度學習的利器

設置報警規則，這裡使用的監控維度是GPU溫度，要求5分鐘的平均值大於等於70攝氏度時報警；同時設置報警條件，這裡是5分鐘內連續5次超過閾值就報警。

GPU資源的監控和報警，支撐高效深度學習的利器

設置報警通知，請先按照文檔創建雲監控的報警聯繫人和聯繫組GPU監控，並且添加釘釘機器人

GPU資源的監控和報警，支撐高效深度學習的利器

選擇GPU監控組作為通知對象，並且選擇默認的通知方式和內容

GPU資源的監控和報警，支撐高效深度學習的利器

創建模型訓練環境，運行neural-style模型訓練

為了測試報警功能，這裡我們運行一個可以觸發報警條件的neural-style模型訓練應用。具體來說：

登錄到容器服務解決方案，在 模型訓練 中點擊 創建

GPU資源的監控和報警，支撐高效深度學習的利器

這樣，就可以看到一個表單。首先通過下拉框選擇剛才創建的集群名稱，點擊訓練框架 ，這時可以看到一系列深度學習框架的列表，其中包括TensorFlow， Keras和MXNet的不同版本，還可以指定python2和python3的版本，這裡我選擇自定義鏡像，並且配置其他選項，點擊確定

GPU資源的監控和報警，支撐高效深度學習的利器

以下為具體配置：

訓練框架：自定義鏡像
鏡像地址： registry.cn-beijing.aliyuncs.com/cheyang/neural-style:latest
GPU數量： 1
數據卷名：不使用數據卷
執行命令： python neural_style.py --iterations 50000 --content /neural-style/examples/1-content.jpg --styles /neural-style/examples/1-style.jpg --output /neural-style/output.jpg

接收報警信息

稍等片刻我們就可以看到在釘釘機器人報警GPU溫度過高，並且可以精確指明溫度過高的GPU卡號為/dev/nivdia0,所在機器的實例id為i-wz9b6v2187e05zslh3xv，以及高溫溫度為75攝氏度。

GPU資源的監控和報警，支撐高效深度學習的利器

通過報警中的http鏈接，還可以通過報警歷史看到具體的監控細節:

GPU資源的監控和報警，支撐高效深度學習的利器

總結

不論在傳統的DevOps還是現在火爆的AIOps中，系統資源的監控和報警都扮演著非常重要的角色，特別是GPU維度的監控對於一次完整並且結果可靠的深度學習訓練有著重要的意義，基於容器服務的機器學習解決方案幫助您從**不知不覺** 到先知先覺，端到端的掌控深度學習模型訓練的整個生命週期。

相關推薦

'如何優化人工智能、機器學習和深度學習的存儲'

"如今的人工智能和深度學習應用程序中使用了大數據集和快速I/O技術，但數據存儲可能會導致性能問題。人們需要了解人工智能和深度學習存儲系統應該具備哪些功能。人工智能技術廣泛應用在機器學習和深度學習中，已經引發了研究和產品開發的爆炸性增長，因為企業發現了創造性的方法，將這些新算...

人工智能深度學習機器學習設計操作系統算法軟件技術分佈式計算 GPU 硬件英偉達工程師人生第一份工作中央處理器電腦固態硬盤 2019-09-16

'機器學習和深度學習的區別是什麼'

"機器學習和深度學習是人工智能的兩個子集，在過去兩年中引起了很多關注。如果你在這裡想以最簡單的方式理解這兩個術語，那就沒有比這更好的地方了。人工智能這兩個領域，即機器學習和深度學習，提出了比整個領域組合更多的問題，主要是因為這兩個領域經常混淆並在提到數據統計建模時可以互換使...

機器學習深度學習人工智能算法技術軟件設計高德納集團人生第一份工作維基百科 2019-09-15

'機器學習&深度學習基礎（tensorflow版本實現的算法概述0）'

"tensorflow集成和實現了各種機器學習基礎的算法，可以直接調用。代碼集：https://github.com/ageron/handson-ml監督學習1）決策樹（Decision Tree）和隨機森林決策樹：決策樹是一種樹形結構，為人們提供決策依據，決策樹可以用...

機器學習算法深度學習隨機森林 2019-09-14

'又有一本深度學習方面的入門書要與您見面啦'

"小編告訴您一個好消息，有一本最新的深度學習入門書即將要與您見面。喜歡深度學習的朋友們可以關注一下。深度學習案例精粹（Deep Learning By Example）使用TensorFlow框架，輕鬆理解深度學習算法包含大量案例，快速動手實現深度學習任務可下載配套源碼+...

深度學習人工智能算法機器學習自然語言處理電腦人生第一份工作生物醫學 CNN 讀書 2019-09-13

'「專利解密」騰訊遊戲是如何利用深度學習技術的'

"集微網消息，2019世界人工智能大會在上海開幕。會上，騰訊董事會主席兼CEO馬化騰在開幕式演講上重點講了關於AI的內容。他表示，一年來，在上海地區，騰訊在人工智能、雲計算等領域都有大幅投入。去年此時，騰訊華東總部在上海成立，目前已擁有超5000人團隊。騰訊電競的6大職業賽...

深度學習騰訊遊戲騰訊 2019世界人工智能大會技術上海人工智能王者聯盟雲計算通信算法馬化騰機器人 2019-09-12

'深度學習的完整硬件指南'

"原標題 | A Full Hardware Guide to Deep Learning作者 | Tim Dettmers 譯者 | linlh、呀啦呼（Tufts University）、Ryan222（重慶郵電大學）深度學習是非常消耗計算資源的，毫無疑問這就需要多核高...

深度學習 GPU 中央處理器硬件技術跳槽那些事兒德州儀器 Linux 心理學 Kaggle 市場營銷重慶 2019-09-12

'基於深度學習的人臉檢測和識別方法介紹'

"關注微信公眾號：人工智能前沿講習，重磅乾貨，第一時間送達人臉識別分人臉驗證（face verification）和人臉確認（face identification）；前者是指兩個人是不是同一個人，即1-to-1 mapping，而後者是確定一個人是一群人中的某個，即1-t...

深度學習人臉識別算法設計歐幾里得人工智能照相機大和族 Branch CNN 2019-09-11

'5分鐘內看懂機器學習和深度學習的區別'

"在本文中，我們將研究深度學習和機器學習之間的差異。我們將逐一瞭解它們，然後討論他們在各個方面的不同之處。除了深度學習和機器學習的比較外，我們還將研究他們未來的趨勢和走向。深度學習 VS 機器學習深度學習與機器學習簡介一、什麼是機器學習？通常，為了實現人工智能，我們使用機器...

人工智能算法自然語言處理技術信息檢索 GPU 人生第一份工作市場營銷隨機森林 2019-09-09

'2019深度學習語音合成指南'

"雷鋒網AI科技評論編者按：人工合成人類語音被稱為語音合成。這種基於機器學習的技術適用於文本轉換語音（text-to-speech）、音樂生成、語音生成、語音支持設備、導航系統以及為視障人士提供無障礙服務。在這篇文章中，我們將研究基於深度學習而進行的研究或模型框架。在我們正...

語音合成深度學習人工智能跳槽那些事兒技術數據庫 Google 文章音樂機器學習算法 2019-09-05

'揭祕人工智能深度學習算法的奧祕'

"話說當前最熱門的技術是什麼？我想非人工智能莫屬。雖說大導演斯皮爾伯格在2001年就拍攝了好萊塢大片《人工智能》，但他怎麼又能想到十幾年後人類在人工智能領域紮紮實實得走出了一大步——以阿爾法機器人為代表的人工智能橫空出世，在圍棋上戰勝了人類最強棋手。具備學習思考能力的機器人...

人工智能深度學習算法電腦機器學習技術機器人九陽神功文章 2019-09-03

'深度學習：徹底解決你的知識焦慮（筆記）'

"過目不忘的祕密“記性好”所需要的能力是：將原本沒有任何含義的信息賦予一定的意義、仔細觀察並找出重要信息、將眼前的信息與頭腦中已有的信息庫相對照等能力。無法利用圖式的學習如果頭腦中沒有圖式，即使理解了字面意思，也無法理解其內在含義。已經掌握的舊知識，對於學習新知識有著重要的...

深度學習讀書啤酒 2019-09-02

'“深度學習”（2）神經網絡的神奇操作'

"今天我們來做一個神經網絡學習的實戰。這是一套可以說是神奇的操作 —— 因為它簡直是出乎意料地簡單。你會感慨，為什麼這麼複雜的問題，居然能用這麼一個簡單粗暴的方法就解決了。在我看來這絕對是一個工程上的幸運發現。很多發明創造都是工程師偶然鼓搗出來的。噴氣式發動機到底是什麼原理...

人工智能深度學習數學電腦數據庫 Python 2019-08-31

'2019MIT深度學習基礎課程：簡介以及TensorFlow案例概要'

"作者：Lex Fridman編譯：ronghuaiyang導讀2019的MIT的最新深度學習教程，內容包括神經網絡解決計算機視覺、自然語言處理、遊戲、自動駕駛、機器人等領域問題的基礎知識。來一睹為快吧！麻省理工學院深度學習系列課程(6.S091, 6.S093, 6.S0...

深度學習麻省理工學院人工智能自然語言處理尼古拉·哥白尼宇宙機器人歷史語音識別技術機器學習無人駕駛波士頓 2019-08-30

'李宏毅：《1 天搞懂深度學習》300 頁 PPT（附思維導圖）'

"臺灣李宏毅教授寫的《1 天搞懂深度學習》，300 多頁的 ppt，最通俗易懂的深度學習的學習資料。這份 300 頁的 PPT，被搬運到了 SlideShare 上，下面是 SlideShare 的鏈接：https://www.slideshare.net/tw_dscon...

PowerPoint 深度學習人工智能算法 CNN 語音識別技術 2019-08-29

'2019MIT深度學習基礎課程：簡介以及TensorFlow案例概要'

深度學習麻省理工學院人工智能自然語言處理尼古拉·哥白尼宇宙機器人歷史語音識別技術機器學習無人駕駛波士頓 2019-08-26

'國產AI框架再添猛將：華為深度學習框架MindSpore問世'

"一直以來，給我們的印象，Google的TensorFlow是有名的人工智能深度學習框架，而我們自己國家，似乎沒有什麼開源的AI深度學習框架，所以我們的機器學習也總需要向外求索，一直需要國外的AI框架來訓練數據。事實上，我們並不是沒有開源的AI框架，比如百度早前就推出了自己...

人工智能華為公司技術百度 Google 操作系統中央處理器工程師 GPU 2019-08-25

'深度學習-機器學習從入門到深入全套資源分享'

" 深度學習、機器學習從入門到深入，全套資源分享。涉及深度學習、機器學習數學、算法基礎理論、實戰和工程開發相關最佳資源。深度學習常用模型相關教程，深度學習模型優化、調參相關技巧；深度學習常用的框架，公開數據集、國際頂級會議等相關資源。本文內容整理自網絡，原文地址：http...

深度學習人工智能 Kaggle 吳恩達算法工程師數學技術自然語言處理大數據跳槽那些事兒電腦 Google Coursera 麻省理工學院 2019-08-24

'教你使用概念激活向量，從新角度理解深度學習模型'

"全文共2617字，預計學習時長5分鐘可解釋性仍是現代深度學習應用中最嚴峻的挑戰之一。隨著計算模型和深度學習研究領域不斷進展，如今可建立包含數千隱藏神經層和上千萬神經元的複雜模型。儘管在深度神經網絡模型上取得巨大進步似乎還算簡單，但理解這些模型的創建和推理過程仍是一大難題。...

深度學習 Google 技術人工智能機器學習 2019-08-24

'人臉識別＋深度學習，水平遠超人類大腦'

"全文共3342字，預計學習時長7分鐘什麼是人臉識別？什麼是深度學習？兩者結合能帶來什麼影響？如果你認為一篇文章無法涵蓋這麼多問題，這篇文章能夠改變你的想法。本文展示了所有重要的概念。總之，在這篇文章中你將會了解到臉部識別是如何運作的，及其如何和深度學習技術協同工作。深度學...

人臉識別深度學習算法人工智能軟件機器學習文章體育技術不完美媽媽電腦人生第一份工作數據庫 2019-08-23

推薦中...