離開谷歌雲回國創業,他們想將AI與Kubernetes結合革新傳統行業

雲計算 Google 大數據 機器學習 雷鋒網 2017-04-13

一年前,李彥宏曾發表演講稱,雲計算、大數據、人工智能正逐漸走向“三位一體”。他指出,深度學習賦予人工智能實用價值。這一年來,不少公司都在搶灘AI與雲計算結合市場,物聯網時代的到來也為此加了一把火。

才雲科技(Caicloud)創始人兼 CEO 張鑫博士認為,“容器技術正在迅速發展成為雲計算領域的新貨幣,並向著軟件交付的事實標準大步邁進。”作為雲計算的一部分,有些人試圖將AI與容器雲相結合。

才雲科技是一家深耕容器集群管理的創業公司,現在他們想為自己貼上“深度學習容器雲公司標籤”。今年以來,才雲動作不小。在3月的發佈會上,除了宣佈獲得由經緯中國領投的4000萬A輪融資,才雲迭代了 CLaaS 2.0 容器雲PaaS平臺,並推出新產品—— TensorFlow As A Service(TaaS)深度學習平臺。

離開谷歌雲回國創業,他們想將AI與Kubernetes結合革新傳統行業

才雲科技(Caicloud)CEO張鑫

據瞭解,才雲科技頗具谷歌氣質。CEO 張鑫是前谷歌集群管理系統資深工程師,核心團隊成員大多也是谷歌系,首席大數據科學家鄭澤宇是前谷歌高級工程師,CTO 鄧德源是前谷歌集群管理核心成員。2015年正值國內雲計算、大數據處於風口浪尖之時,政策也頻頻利好高科技創業,在這個大背景下張鑫他們離職創業,將谷歌雲服務集群技術帶回國內,為國內企業提供開發維護服務。

才雲兩架馬車的內部架構是怎樣的?

具體來說,才雲 Caicloud 平臺依託於物理機,虛擬機,微軟雲,AWS 雲平臺,阿里雲平臺,創建了 Kubernetes 集群。Kubernetes 是谷歌基於十餘年容器和集群管理方面的經驗基礎上開源的容器集群管理系統,本質上可看作是基於容器技術的 PaaS 平臺。在多個 Kubernetes 集群之上,才雲建立了 Caicloud CLaaS 容器集群管理平臺。在 CLaaS 平臺之上還有:分佈式深度學習平臺 TaaS,CI/CD 工具 Cyclone,以及 Cargo。

離開谷歌雲回國創業,他們想將AI與Kubernetes結合革新傳統行業

才雲科技產品一覽

顯而易見,CLaaS與 TaaS 是拉動才雲發展的兩架馬車,兩者之間也能相互拉動。CLaaS 與 TaaS 的關係可以類比早期微軟 Windows(CLaaS)和 Office(TaaS),Office 拉動了 Windows 的市場份額,同時 Windows 也為 Office 提供了獨特的底層支持。

基石 Caicloud CLaaS

Caicloud CLaaS 是才雲的基礎產品。它是為企業客戶提供容器雲解決方案的 PaaS 平臺,共包含4款產品:Cargo(鏡像倉庫)、CLaaS(跨集群管理)、Cyclone(持續交付)、TaaS 及針對企業的大數據智能分析服務。

谷歌是容器領域的摩天巨擘。業內人士稱,容器已經成為了谷歌基礎設施上運行的唯一實體。據瞭解,2005年穀歌就已經基於底層技術開發了一些應用,如搜索、視頻、大數據應用等。這一套內部使用多年的集群管理核心系統叫 Borg,2014年穀歌開源的 Kubernetes 系統受 Borg 啟發而誕生。張鑫深度參與了研發過程,在他看來,容器並不僅是一種工具,未來會成為滿足業務需求的平臺。因此從創業伊始,才雲便選擇了圍繞技術的產品化和生態建設這條路。

近日微軟宣佈收購 Deis (專門開發 Kubernetes 容器管理技術的軟件公司)。對此張鑫表示,谷歌、微軟兩巨頭之所以青睞 Kubernetes 的原因在於看到了容器集群管理的價值,

“隨著用戶與市場的成熟,人們意識到容器本身只是一個底層技術,廣大開發者和運維人員都不應該過多關注這個盒子。谷歌早在10年前就意識到真正的核心的技術是對海量這類‘盒子’的管理、調度、和掌控;與這個管理系統打交道才應該是開發、運維人員去管理其應用和服務的正確姿勢。”

AI+Cloud=TensorFlow As A Service

谷歌奉行 AI First 戰略,深受薰陶的才雲團隊也很快意識到人工智能應用將有望成為企業雲的殺手級應用。張鑫談到才雲 CAI 戰略(Cloud+AI=CAI),他認為雲是 AI 落地的最好方式,AI 是雲的靈魂和戰略佈局,AI 理念於雲的提升作用可能更大於技術的效用。

因此,TaaS 誕生了。TaaS 是以 TensorFlow 為核心的分佈式訓練及模型託管系統,它結合了 Kubernetes 容器集群管理系統 與 TensorFlow 深度學習系統。

據雷鋒網瞭解,Tensorflow 是現階段主流深度學習框架之一,被廣泛應用於國內外大型企業。但 Tensorflow 也存在某些缺陷。在單機特定應用場景裡,即便使用目前最先進的 GPU 都無法滿足其計算量的要求。而在集群環境下,TensorFlow 存在高門檻、難配置、難管理等問題。而才雲通過在 Kubernetes 基礎上,支持 GPU 和可視化的 UI 封裝,使 GPU 在分佈式系統中進行隔離,能對 GPU 進行更加靈活自由的調度使用, 從而提升深度學習任務的訓練速度。

離開谷歌雲回國創業,他們想將AI與Kubernetes結合革新傳統行業

通過kubernetes在分佈式環境中進行GPU隔離

離開谷歌雲回國創業,他們想將AI與Kubernetes結合革新傳統行業

TaaS界面

趙慧智是前惠普 Kubernetes 技術領域的 GPU 專家、現才云云開源高級工程師,他對雷鋒網表示,才雲AI方向其實有兩個產品。其中之一是企業定製化人工智能解決方案,才雲會針對不同公司的業務模式和需求,設計不同的應用模型。

另一個產品是 TaaS 深度學習私有云平臺。這是考慮到用戶(可能是機構也可能是個人)在使用 TensorFlow 設計模型時的時間成本及使用效率問題。若在一臺機器上訓練模型可能要幾個月甚至一年的時間,時間成本高,而單個用戶增加機器數量不經濟也不實際。基於此痛點,才雲提供通用型平臺,用戶可以託管模型,平臺就能開始計算,無需整天監管。除藉助計算資源外,TensorFlow 本身有著侷限,存在部署、資源管理、監控、多用戶、集群管理等問題,TaaS 可以解決上述問題。趙慧智提到才云為企業設計的定製化解決方案也是在這個平臺上跑。

離開谷歌雲回國創業,他們想將AI與Kubernetes結合革新傳統行業

才云云開源高級工程師趙慧智

馬車跑得有多快?

產品的最終目的是實踐應用。才雲告訴雷鋒網,他們的目標用戶是傳統企業和互聯網+轉型中的大企業。而對於特定領域,比如金融等合規性門檻較高的領域,尚未有已落地的定製案例。才雲表示最近剛贏得金融客戶,目前還仍處於項目開發階段,計劃會有 200 個物理機節點上線。

為就一些通用解決方案來說,以營銷活動為例,高峰會出現大量的瞬時訪問量,卻又缺乏彈性收縮機制,缺乏高可用和負載均衡。Caicloud 可以動態伸縮節點數量,支持資源水平擴展。同時混合雲的部署方式能支持瞬時高併發,利用公有云資源滿足資源需求;若出現對於運維要求很高,需要高效的大規模集群管理系統的情況,Caicloud 運維平臺將由點及面,從日誌收集到分析,應用監控到多級報警,從行為記錄到權限控制,所有信息都由可視化方式呈現,提高運維效率。

趙慧智表示 CLaaS 的通用效用體現在兩方面:

  • 一方面能提高集群部署能力和管理能力,使監控和日誌管理會更簡單,能更全局性地把握部署;

  • 另一方面也有著所有云平臺都有的功能:節省用戶的硬件資源,維護應用程序管理。

目前國家電網、錦江電商、通用集團等機構已採用 CLaaS 產品。錦江電商副總裁龔天乙提到了2個數字,錦江電商在與才雲科技合作的大半年裡,將95%以上的應用都遷移到了容器集群產品上,錦江的應用發佈時間從小時級調到了分鐘級。

而在談到 TaaS 的應用時,趙慧智表示 TaaS 主要以業務為導向,不同的企業有著不同的業務,才雲也會分析業務,提供不同的解決方案,涉及金融、安防、能源、教育等多領域。這裡需要指出一點,TaaS 私有云於3月底才正式發佈,公有云處於內測階段,所以目前才雲也無法提供真實的應用案例和客戶使用效果。

前文也已提到,CLaaS 與 TaaS 之間存在相互拉動關係,這種良性關係不僅體現在技術端,也表現在產品交叉銷售方面。兩大產品的目標用戶相同,若以 TaaS 服務切入企業,客戶能夠更直接地體驗才雲 PaaS 平臺,瞭解平臺的價值。這為接下來的銷售提供鋪墊,反之亦然。

最後,在雷鋒網問到與客戶合作過程中有什麼困難時,趙慧智答道:

才雲做的是從基礎設施深入到業務層面的整合通用解決方案,那麼就會面臨一個問題:企業定製化需求,這需要雙方大量溝通。對才雲來說定製化服務其實是有一定挑戰,我們會用通用方式、從底層數據模型中抽象出來去解決,例如模板化應用編排。

相關推薦

推薦中...