IT 技能圖譜の 智能運維工程師技能圖譜(附 Xmind 源文件)

雲計算 工程師 大數據 科技 不知名的工程師 不知名的工程師 2017-09-13

從今日起,每天和大家分享一篇不同職位工程師應該掌握的技能,大家有什麼感興趣的職位可以通過留言告訴我,我整理好會優先發出來~

上一篇文章:Web 前端工程師技能圖譜


近年來運維技術飛速發展,運維團隊大多建設好了各種系統,虛擬化、容器化、持續集成等等。但是如何有效的利用這些系統最終實現站點的高可用、高性能、高可擴展?隨著智能化技術的發展,為了解決上述運維領域的問題,智能運維的呼聲越來越高。

IT 技能圖譜の 智能運維工程師技能圖譜(附 Xmind 源文件)

移動端和微服務給運維工作帶來的挑戰

在 PC 端時代,運維的很多工作是受限的,大部分運維人員拿不到用戶端真實的數據。這種狀況下,大家就會普遍購買一些第三方服務,嘗試獲取終端數據。但是在移動端時期,我們每個人都有自己的 IP地址,可以把一些埋點的邏輯放在自己的 IP 裡,然後獲取到更準確的獲取用戶真實的數據。

另外,微服務的出現給運維工作帶來一些難題。再沒有出現微服務之前,運維人員通常可以用一臺或者兩三臺機器中就完成了問題排查。但是微服務出現之後,這些問題可能拆到了好幾十個分佈式的地方,各自的輸出,甚至啟停會很方便,你就有可能混淆問題。而解決這些麻煩就是需要智能運維。

IT 技能圖譜の 智能運維工程師技能圖譜(附 Xmind 源文件)

智能運維產生的背景

當今的時代是雲計算和大數據的時代,在當今時代,集群規模和數據量爆發式增長,如何管理好雲計算平臺、如何提供高質量的服務,是雲計算的核心問題之一。BAT為迎接雲計算和大數據應用帶來的需求和挑戰,正在從以解決運維複雜度為目標的自動化向以預測和自動決策為目標的智能化轉變。據我瞭解百度已經建立起了六大數據倉庫,其中之一就的運維數據倉庫,囊括了服務器、網絡、系統、程序、變更等各個方面的實時及歷史狀態數據,每天更新數據量接近 100TB,基於對這些數據的分析和挖掘,百度開展了多個項目和應用,包括智能流量調度決策、流量分析與趨勢預測、故障根源定位系統等,在智能運維方面做了有益探索,取得了良好進展。

IT 技能圖譜の 智能運維工程師技能圖譜(附 Xmind 源文件)

智能運維當下的狀況

智能運維當下還是一個初步探索的階段。可以舉幾個時間數字,我所看到一個和智能運維相關的開源項目是在 2013 年,而我看到的第一個主動出來宣講和智能運維相關的應該是在 2015 年百度在一個大會上的宣講。然後大量的出現在宣講上有關智能運維的應該是在 16 年下半年。而這些宣講和我的一些宣講都還是說我們現在有這樣的思路,做了一些嘗試。而這些嘗試的效果還是需要大家去碰撞,看是否還有什麼更好的辦法,因為我們現在是用普通的機器學習算法,還沒有用到像 AlphaGo 的深度神經網絡這部分內容。轉變為智能運維是一個需要大量投入和學習的過程。

想盡快在智能運維領域有所突破,更實際一點的辦法就是主抓好監控系統和告警系統。傳統的 IT 運維需要管理大量的告警,極大地分散了企業的注意力,消耗運維人員大量的時間和創新力。想辦法能把一天收好幾千封告警這種狀況,高效地解決,把運維人員從紛繁複雜的告警和噪音中解脫出來。這是一個在眾多辦法中產生價值的第一步。

IT 技能圖譜の 智能運維工程師技能圖譜(附 Xmind 源文件)

智能運維發展的預測

  • 第一步,智能運維在告警系統上的價值,;

  • 第二步就是智能地去判斷告警,而不是現在靠人力的經驗去設定一個閾值。設定告警閾值是一項耗時耗力的工作,需要運維人員在充分了解業務的前提下才能進行,還得考慮業務是不是平穩發展狀態,否則一兩週改動一次,運維工程師絕對是要發瘋的。

  • 第三步是利用一些 NLP(自然語言處理),把故障報告、文本化的語言提煉出來去自動反饋到這個系統裡。這一點可能是更遙遠的一個設想,但是目前來看會是將來發展的一條道路。

智能運維工程師技能圖譜

IT 技能圖譜の 智能運維工程師技能圖譜(附 Xmind 源文件)


(由於頭條號規定,Xmind 源文件下載鏈接不能放在正文裡,大家可以給我留言)

相關推薦

推薦中...