在2017年10月召開的杭州雲棲大會上,阿里巴巴達摩院正式亮相。這是一個被阿里巴巴董事局主席馬雲寄予厚望的部門,承載了阿里巴巴最頂尖的研發資源,達摩院意味著技術創新,也代表著阿里的未來。

兩年過去了,達摩院究竟做了什麼?7月9日下午,達摩院機器智能技術事業部首席架構師王駿、達摩院語音實驗室負責人鄢志傑、達摩院語音實驗室高級算法專家雷鳴等技術專家向21世紀經濟報道記者介紹了阿里巴巴在AI領域的一些最新進展。

王駿表示,阿里巴巴對AI技術有非常多的需求,達摩院機器智能採用自上而下的研究體系,每一個研究小組都有靈活度,可以去做自己需要的方向,併兼顧短期、中期、長期的規劃,而且最終的價值也都體現在創新技術產品上。

達摩院做了什麼?

在成立達摩院時,馬雲表示在三年內將給達摩院投入1000億元。但他同時也提出要求,即達摩院要學會自營自利,未來要自己掙錢。

這也使得達摩院在創辦之初就與其他的研究院有了很大的不同。鄢志傑以語音實驗室為例說道,“我們在建立團隊時就把研究和工程放到了一起,目的就是希望新的研發能夠迅速轉化為產品。另外,這樣也能幫助研發人員更加了解來自業務的真實需求,在選題方向上可以做出判斷。”

所以,若回顧達摩院過去的兩年,除了可以看到一些理論性的研究項目,還會有很多可以實際應用的技術產品。據介紹,近年來,僅阿里AI團隊便在國際頂級學術會議上共發表了近400篇頂級論文,同時也在國際頂級技術賽事上斬獲40餘項世界第一。

比如在6月剛剛結束的第三屆圖像識別競賽WebVision中,阿里AI以82.54%的識別準確率擊敗了全世界150多支參賽隊伍獲得冠軍。這是一個超大規模圖像識別的比賽,它要實現的是通過拍攝一個物體的照片,然後去搜索其他圖片。據王駿介紹,阿里其實很早就開始研究這個技術,並應用在淘寶的拍立淘上面,目前,阿里AI可以識別的物理實體超過100萬種。

而取得這些成績,與達摩院實力雄厚的人才儲備不無關係。目前,達摩院旗下的科學家團隊包括美國密歇根州立大學終身教授金榕、密西根大學終身教授施堯耘、新加坡南洋理工大學終身教授王剛等在內的20多位世界級科學家,以及10多名IEEE FELLOW。就在今年3月,原Facebook人工智能科學家賈揚清也宣佈加入阿里巴巴達摩院任技術副總裁。

王駿表示,達摩院是個全球化的機構,半數以上成員都具有博士以上學位,辦公室分佈在四個國家的8個主要城市。其打趣的說道,“達摩院要想所有員工一起開個會,時間協調起來會很麻煩。”

將語音合成定製成本降低10倍

當天,達摩院機器智能首次向外界展示了新一代語音合成技術——KAN-TTS(TTS是Text To Speech的縮寫,即“從文本到語音”)。據介紹,KAN-TTS由達摩院機器智能實驗室自主研發,深度融合了目前主流的端到端TTS技術和傳統TTS技術,從多個方面改進了語音合成。

雷鳴表示,TTS技術自1939年從實驗室第一次發明出來以後,經歷過多個發展階段,目前所處的階段是以2017年為節點,主要特點是合成語音已經非常接近於真人表現。

據其介紹,當前,業界商用系統的合成語音與原始音頻錄音的接近程度通常在85%到90%之間,這其實已經是一個很高水平,而基於KAN-TTS技術的合成語音,則可將該數據進一步提高到97%以上。

此外,達摩院語音實驗室還提供了開箱即用的TTS解決方案,這主要是針對一些產品具有特定場景的需求。“比如有些產品就要講一些兒童教育的故事,有些則是講富有情感的故事,針對這些,我們提供了通用、客服、童聲、英文和方言等5個場景及34種聲音供選擇。”雷鳴表示。

鄢志傑告訴記者,達摩院是一個技術密集型團隊,但它並不是只專注於技術的研究,同時也要把這些技術產品化。“比如語音技術,我們有各種各樣語音的源頭算法,這些不僅僅應用在阿里自己的業務上,同時他們也能夠把這些技術放到雲上,分享給他們的合作伙伴。可以說,阿里有什麼,阿里雲的客戶就能拿到什麼。”

而這實際上也是當初成立達摩院,阿里巴巴對其提出的要求。兩年前,馬雲在談及達摩院的發展時明確表示,達摩院不是阿里巴巴體系的達摩院,而是整個經濟體的達摩院,達摩院必須要比阿里巴巴活得時間長,要影響至少20億人。

據一位知情人士向記者透露,今年9月份將是達摩院成立兩週年,以及阿里的半導體業務成立一週年,屆時,阿里也將有重大的成果對外發布。

相關推薦

推薦中...