分析:“AI on Hadoop”有意義嗎?

Hadoop 機器學習 人工智能 深度學習 ZD至頂網 2017-06-02

至頂網服務器頻道 05月31日 新聞消息:近日MapR宣佈推出了一款名為Quick Start Solution(QSS)的新解決方案,專注於深度學習應用。MapR強調,QSS是一款分佈式深度學習產品和服務,能夠大規模訓練複雜的深度學習算法。

分析:“AI on Hadoop”有意義嗎?

想法是這樣的:深度學習需要有大量數據,這是很複雜的。如果MapR的融合數據平臺是你的主幹架構,那麼QSS可以讓你得到將數據用於深度學習應用所需的東西。這是有道理的,這符合MapR的戰略。

MapR是第一家在市場中推出所謂的“AI on Hadoop”產品的Hadoop廠商。但是AI on Hadoop從更大範圍來說是有意義的嗎?其他廠商在這方面都做了什麼?

專注深度學習的MapR

還記得Hadoop第一次問世的時候嗎?那時候Hadoop還是一個具有諸多優點的平臺,但是需要用戶具有額外的專業技能才可以使用Hadoop。現在這種情況改變了。Hadoop已經成為一個蓬勃發展的生態系統,它取得成功的很大一部分是因為我們所謂的SQL on Hadoop。

Hadoop一直能夠以低廉的成本保存和處理大量數據,但此前並非如此,直到它支持通過SQL訪問數據,這讓Hadoop足以成為企業數據主幹的有力競爭者。SQL仍然是訪問數據的事實標準,所以支持SQL意味著Hadoop可以被大多數人所使用。

AI和SQL是不同的。它並不具備向後兼容性,以及商業功能。AI是一種具有前瞻性的領域。但即使今天,AI對於使用AI的人來說是一個差異點,但看起來AI似乎很快就會成為一種商品。那些沒有使用AI的人將無法參與競爭。

AI和SQL也是類似的:如果你是一家Hadoop廠商,那麼這不是你真正的工作。這是其他人要做的——你只需要確保Hadoop可以運行在你的平臺上,也就是數據所在的地方。這就是MapR希望通過SQL實現的。

MapR利用開源容器技術(例如Docker),以及編排技術(例如Kubernetes)以分佈式的方式部署深度學習工具(例如TensorFlow)。這些技術都與MapR無關,但是QSS帶給它的價值是確保所有功能都可以無縫連接。

分析:“AI on Hadoop”有意義嗎?

MapR QSS所具有的分佈式深度學習擁有三層:底層是數據層,中間是編排層,頂層是應用層(圖片來源:MapR)

MapR首席應用架構師Ted Dunning解釋說:“採用AI/深度學習最好的方式就是部署一個可擴展的融合數據平臺,這個平臺支持最新的深度學習技術,且擁有一個幾乎可以無限擴展的底層企業數據框架。”

他還指出,“幾乎所有機器學習軟件都是獨立於Hadoop和Spark部署的。這要求有一個類似MapR這樣的平臺,能夠支持Hadoop/Spark工作負載,以及傳統文件系統API。”

既然這種方法奏效,那麼你為什麼不使用MapR-DB、MapR Streams以及MapR-FS,還有MapR Persistent Application Client Container (PACC)來部署你的模式?哦,我們也為你準備了服務來幫助你。這就是MapR希望通過QSS傳遞的信息。

MapR首席產品官Anil Gadre表示:“深度學習可以為企業組織提供深遠的轉型機會。我們的專業知識加上獨特的設計構成了QSS的基礎。QSS將可以讓企業快速利用現代化基於GPU的架構,為他們擴展深度學習鋪平道路。”

AI on Hadoop

那麼,這與AI on Hadoop是一回事嗎?與SQL不同,AI是沒有標準的。甚至現在還沒有一個被廣泛接受和理解的定義。深度學習只是機器學習的一部分,深度學習又只是AI的一部分。甚至在深度學習中,雖然會有一些共享的理念,但是沒有一個常用的API。所以SQQ是DL on Hadoop,並不是真正的AI on Hadoop。

分析:“AI on Hadoop”有意義嗎?

AI不止是機器學習,機器學習不止是深度學習(圖片來源:Nvidia)

使用像Hadoop這樣的數據和計算平臺作為AI的基礎這是很自然的想法。但是能夠在Hadoop上運行機器學習或者深度學習並不會讓Hadoop廠商變成一家AI廠商。這是我們在過去幾個月與許多Hadoop廠商高管溝通得出的結論。

對於Cloudera公司首席執行官Tom Reilly來說,“機器學習是非常真實非常活躍的,在實踐中有很好的表現。我們的客戶正在努力瞭解AI,瞭解這對未來意味著什麼。我們正在幫助他們使用機器學習,我們的平臺已經支持機器學習,並將繼續提供支持。我們的平臺是人們對AI是使用的數據的承載平臺。”

Cloudera一直被批評在最近的IPO文件中試圖把自己定位為一家AI公司。據我們所知,Cloudear並沒有在AI方面的廣泛內部經驗。它有一個數據科學團隊,有很多員工,還有最近收購的sense.io。

Sense.io一直被集成到Cloudear的堆棧中,收購後被重新包裝成Cloudera Data Science Workbench (CDSW)。在最近與Cloudear數據科學總監Sean Own的交談中,Owen將sense.io比作IBM的DataWorks。

“通過提供對數據的就緒訪問,CDWS縮短了通過我們自動化的機器學習平臺交付AI應用價值的時間,”DataRobot公司首席執行官Jeremy Achin指出。這一點很好,但是這並不是真正的AI,對吧?

對於Hortonworks公司首席技術官Scott Gnau表示,AI包含兩個關鍵組成部分:大量數據外加數據包和算法處理數據。Hortonworks支持兩者,AI勝利了,Hortonworks也就勝利了。不過,Gnau強調說,他認為Hortonworks的優勢在於企業監管和安全性。

Gnau認為,我們還沒有看到我們所期待的AI中的新興技術。所以Hortonworks的方法是投資基礎設施,成為值得信賴的數據廠商,同時密切關注新興的殺手級技術和應用。

每家廠商的方法都必須考慮現在的大背景以及他們的變革方向。AI是一個新的戰場,廠商各自的方法與他們的理念和目標相符合,我們將繼續關注和分析AI方面的進展。

相關推薦

推薦中...