'大生態數據系統領域發生了一件事情，你知道嗎？'

人工智能軟件技術 DevOps 電腦 Google 雲計算思科系統 Spark 無人駕駛開源軟件 Azure Hadoop 硬件 GPU Apache 算法語音識別技術 HDFS 人生第一份工作人臉識別中央處理器讀芯術 2019-08-14

全文共2737字，預計學習時長5分鐘

圖片來源：pexels.com/@bertellifotografia

近期，大生態數據系統領域發生了一件事情：思科(Cisco)將人工智能硬件框架與一個由八個GPU驅動的新型深度學習服務器相結合。Wikibon首席分析師James Kobielus在最近的一次採訪中表示，思科承諾支持Kubeflow在人工智能領域的發展，“Kubeflow是一個開源工具，能使TensorFlow與Kubernetes容器編配引擎兼容。”

TensorFlow是一個用於數值計算的開源軟件庫。其架構靈活，能夠輕鬆應用到各種平臺(GPUs, TPUs,CPUs)和多種設備(臺式計算機、服務器集群、各種移動和邊緣設備)的部署中。TensorFlow最初是由谷歌大腦團隊(谷歌人工智能部門的一部分)開發的。它具有靈活的數值計算核心，是機器學習和深度學習的好幫手。他們開發了一種由八個CPU驅動的新型深度學習服務器。

JamesKobielus認為集裝化正帶領軟件界走向一個新紀元。集裝化正重塑幾乎每個信息技術軟件平臺的格局，在人工智能和機器學習領域產生著一定的影響。例如，思科近期宣佈，正在改善TensorFlow堆棧的集裝化。Kobielus表示：

當我談及高度複雜的AI時，指的是像TensorFlow這樣的東西。例如，當用戶在TensorFlow中構建深度學習模型時，假設該模型將用於開發自動駕駛汽車。當然，汽車內部會預設好深度學習模型，能夠運用傳感器數據來進行物體識別等功能。在汽車控制區域範圍內，也會有深度學習模型，可能針對既定區域內的交通堵塞。

據Kobielus所說，ApacheSpark經常與Hadoop分佈式文件系統(HDFS)一起作為持久層或存儲層運行。Spark是機器學習開發環境的首選之一，以內存為導向。它越來越多地被用於實時ETL和為幾個配備TensorFlow的混合部署的數據準備，並且也趨向於集裝化。

Kubeflow

軟件容器使得企業能夠在不同環境之間輕鬆地移動工作負載。本質上，Kubeflow是一個基於庫本內斯的框架和工具，用於建立和訓練機器學習模型。這些模型可能從一開始就被集裝化。容器研究中的一些主要話題包括Kubernetes編排、機器學習和深度學習。

對所有應用程序開發而言， DevOps工作流的容器化正在迅速成為常態。Kobielus說，在人工智能應用的開發中尤其如此。"Kubeflow 使 DevOps能夠在容器編排的環境中點到點地管理這些應用程序." Kubeflow正在成為智能設備行業(包括人工智能設備領域)的關鍵粘合劑，並支持人工智能的集裝箱化。Azure的新機器學習程序支持基於容器的模型管理和開發，Apache Spark也是如此。

他表示，Kubeflow製作“縮放”機器學習模型，然後以儘可能簡單的格式將其部署到生產中。因為機器學習研究人員使用不同的工具，所以主要目標是根據用戶需求定製堆棧，並在Kubernetes內已經運行的任何位置提供易於使用的機器學習堆棧。

全文共2737字，預計學習時長5分鐘

圖片來源：pexels.com/@bertellifotografia

當我談及高度複雜的AI時，指的是像TensorFlow這樣的東西。例如，當用戶在TensorFlow中構建深度學習模型時，假設該模型將用於開發自動駕駛汽車。當然，汽車內部會預設好深度學習模型，能夠運用傳感器數據來進行物體識別等功能。在汽車控制區域範圍內，也會有深度學習模型，可能針對既定區域內的交通堵塞。

Kubeflow

圖片來源：pexels.com/@tomfisk

機器學習

機器學習已經發展成為一種用於識別模式和預測概率的數據分析形式，並作為人工智能研究的一個分支存在。通過為模型提供“已知”答案的數據，計算機能夠訓練自己預測未來對未知情況的反應。機器學習在解決特定任務方面取得了相當大的成功，據估計AI 和 ML將是推動雲計算的主要催化劑。為了有效地工作，機器學習技術需要高效地學習，並與雲技術相結合，包括集裝化。

考慮到這一點，谷歌開發了Kubeflow，這是一個構建在Kubernetes之上的可移植、可組合和可伸縮的機器學習堆棧。Kubeflow提供了一個開源平臺，可以通過將自己附加到容器上來傳輸ML模型，並在數據旁邊而不是在疊加層中執行計算。Kubeflow幫助解決了實現ML堆棧的基本問題。生產級機器學習解決方案的構建需要多種數據類型。有時，使用不同的工具構建堆棧，會使算法變得很複雜並且產生不一致的結果。

深度學習的優勢

深度學習是機器學習的一個分支，它支持深度神經網絡計算機“從經驗中學習”，並使用分層順序理解世界。這種層次結構通過將複雜的概念建立在簡單概念的基礎上來支持計算機對複雜概念的使用。現實世界的組織已經將機器學習和開源平臺技術結合在一起，這是這些獨立的開源項目的最初開發者從未預料到的。Kobielus說：

我認為要想將雲計算革命帶到每一個設備，深度學習和AI的作用很大而且必不可少。我們在移動計算領域取得了全面發展，AI技術將會運用到每個人身邊、每臺機器上，比如智能設備和自主設備。

諸如此類的創新已經在人臉識別、語音識別等領域出現。但是，它需要以標準化的方式進行，或者通過標準化的雲計算將其應用到邊緣部署環境，即實現集裝化並使用Kubernetes。他繼續說道：

作為一名開發人員，我認為關鍵是能夠將那些執行不同任務的模型打包，並且能夠按照編排將這些模型連接在一起，使它們能夠在分佈式應用程序環境中作為組件一起運行。此外，這使得這些模型能夠得到實時監控和管理，一般通過流延平面來實現。

Eclipse和雲本地計算基金會(CNCF)最近宣佈，他們正在合作構建集裝化開放源代碼堆棧，以及將深度學習和機器學習容器部署到邊緣設備所需的工具。Eclipse基金會為開源軟件、創新和協作提供了一個業務友好的環境。

幾個月前，Eclipse基金會發起了一個名為 Ditto的項目，該項目由博世贊助。該項目的重點是使用數字雙生技術來開發人工智能，人工智能設計為在邊緣設備上以集裝化的方式運行。

全文共2737字，預計學習時長5分鐘

圖片來源：pexels.com/@bertellifotografia

當我談及高度複雜的AI時，指的是像TensorFlow這樣的東西。例如，當用戶在TensorFlow中構建深度學習模型時，假設該模型將用於開發自動駕駛汽車。當然，汽車內部會預設好深度學習模型，能夠運用傳感器數據來進行物體識別等功能。在汽車控制區域範圍內，也會有深度學習模型，可能針對既定區域內的交通堵塞。

Kubeflow

圖片來源：pexels.com/@tomfisk

機器學習

深度學習的優勢

我認為要想將雲計算革命帶到每一個設備，深度學習和AI的作用很大而且必不可少。我們在移動計算領域取得了全面發展，AI技術將會運用到每個人身邊、每臺機器上，比如智能設備和自主設備。

作為一名開發人員，我認為關鍵是能夠將那些執行不同任務的模型打包，並且能夠按照編排將這些模型連接在一起，使它們能夠在分佈式應用程序環境中作為組件一起運行。此外，這使得這些模型能夠得到實時監控和管理，一般通過流延平面來實現。

圖片來源：pexels.com/@artunchained

數據管理

數據管理是關於管理和維護數據和元數據資產。在採訪中，Kobielus表示:

我喜歡用‘管理’這個詞。這個行業按照幾個層次來管理這個堆棧。社區通過決定什麼被接受為一個項目，什麼被提交給一個工作組來構建，然後什麼最終從沙箱中升起，在這個社區的一些管理中孵化出來。有供應商監管，即每個供應商、雲監管和服務器監管。

Kobielus認為這種類型的數據管理是這個新時代的必要組成部分。有些事情會被大眾普遍接受，並且開始自己的發展。有些事情則會半途而廢，比如在Hadoop開始時，他說道：

我記得Hadoop的一些片段，比如Mahout機器學習庫。有一部分已經被採納，但還沒有達到Spark庫的水平。

他認為數據科學家是人工智能的核心開發人員，然而他們還沒有意識到他們需要對容器有更多的瞭解，對Kubernetes有更多的瞭解，“因為這會出現在他們的工具箱中，當作目標環境來部署他們的模型。”

他最後說，數據科學家、人工智能開發人員、數據架構師和業內其他人都需要理解這些新技術現在如何以及為什麼成為他們數據堆棧中的核心組件。每個相關的人都需要理解這一點，否則他們只會被數據時代前進的潮流拋棄。

全文共2737字，預計學習時長5分鐘

圖片來源：pexels.com/@bertellifotografia

當我談及高度複雜的AI時，指的是像TensorFlow這樣的東西。例如，當用戶在TensorFlow中構建深度學習模型時，假設該模型將用於開發自動駕駛汽車。當然，汽車內部會預設好深度學習模型，能夠運用傳感器數據來進行物體識別等功能。在汽車控制區域範圍內，也會有深度學習模型，可能針對既定區域內的交通堵塞。

Kubeflow

圖片來源：pexels.com/@tomfisk

機器學習

深度學習的優勢

我認為要想將雲計算革命帶到每一個設備，深度學習和AI的作用很大而且必不可少。我們在移動計算領域取得了全面發展，AI技術將會運用到每個人身邊、每臺機器上，比如智能設備和自主設備。

作為一名開發人員，我認為關鍵是能夠將那些執行不同任務的模型打包，並且能夠按照編排將這些模型連接在一起，使它們能夠在分佈式應用程序環境中作為組件一起運行。此外，這使得這些模型能夠得到實時監控和管理，一般通過流延平面來實現。

圖片來源：pexels.com/@artunchained

數據管理

數據管理是關於管理和維護數據和元數據資產。在採訪中，Kobielus表示:

我喜歡用‘管理’這個詞。這個行業按照幾個層次來管理這個堆棧。社區通過決定什麼被接受為一個項目，什麼被提交給一個工作組來構建，然後什麼最終從沙箱中升起，在這個社區的一些管理中孵化出來。有供應商監管，即每個供應商、雲監管和服務器監管。

我記得Hadoop的一些片段，比如Mahout機器學習庫。有一部分已經被採納，但還沒有達到Spark庫的水平。

留言點贊關注

我們一起分享AI學習與發展的乾貨

歡迎關注全平臺AI垂類自媒體 “讀芯術”

'大生態數據系統領域發生了一件事情，你知道嗎？'

相關推薦