俞棟：我為什麼加入騰訊做AI？

人工智能語音識別大數據機器學習財新網 2017-05-31

【財新網】（記者孫文婧）人工智能（AI）已成為互聯網科技巨頭贏得未來的新戰場。從傾斜資源配置、重構商業模式到延攬技術管理人才，BAT三巨頭都在加快AI佈局力度。最新的消息是，5月2日，騰訊宣佈任命語音識別技術專家俞棟博士為AI Lab（人工智能實驗室）副主任，併成立美國西雅圖AI實驗室。

在5月27-28日在京舉辦的“全球機器智能峰會”（GMIS）期間，騰訊AI Lab副主任俞棟以書面形式接受了財新記者專訪，回答了業內關注和關切的問題。

俞棟被視為首次將深度學習技術應用在語音識別領域的研究領頭人之一。他於 1998 年加入微軟公司，曾任微軟研究院首席研究員，兼任浙江大學兼職教授和中科大客座教授。在俞棟入職騰訊前兩個月，另一名人工智能機器學習、大數據分析領域的知名學者張潼，也從百度深度學習研究院副院長任上加盟騰訊，任AI Lab主任。

在AI領域的技術積累和商業應用方面，目前業內普遍認為百度在BAT三巨頭中最為領先，騰訊相對落後。張潼和俞棟兩員技術大將的加盟，一度被視為騰訊趕超百度的希望。百度在今年1月陸奇上任集團總裁兼COO，已經明確提出全面轉型做AI平臺的戰略目標。那麼騰訊在AI方面又計劃如何佈局？AI跟傳統業務之間如何銜接？當前最熱門的語音技術，未來將在騰訊的AI戰略中扮演何種角色？

財新記者：一個月前，你離開了供職18年的微軟加盟騰訊。為何做這樣的職業選擇？

俞棟：1998年我開始在微軟工作，2002年進入微軟研究院語音和對話組（Speech and Dialog Group），我一直把語音識別作為研究重點，也很有興趣通過研究解決一些語音識別領域的關鍵問題，希望能給出更好的解決方案。

加入騰訊後，我會主要負責西雅圖AI實驗室的運營和管理，當然也會進一步推動騰訊在語音識別和自然語言理解等AI領域的基礎研究。

開展語音識別研究需要幾個條件：第一，語音識別必須有大數據來源，必須有大運算能力，必須有落地場景（即語音出口後能形成反饋機制進而優化產品），這三大發展條件。第二，自己偏好研究，喜歡解決一些有挑戰性的問題。我看重的這些條件騰訊都能夠滿足，所以選擇了騰訊。其他邀請的公司各有利弊，有的公司有產品但缺研究，或有的有研究但缺產品。

財新記者：有人說，在人工智能佈局方面，騰訊現在已經落後於百度和阿里。你認同嗎？

俞棟：騰訊的AI Lab確實是去年4月才成立的，但騰訊的AI發展不是去年才開始。AI發展依託的四大關鍵因素：豐富應用場景、海量大數據、強大計算能力和一流科技人才。這些騰訊在過去18年裡已經有豐富積累，這是AI Lab重要的發展基礎，也是騰訊未來發展潛力所在。

財新記者：百度現在已經明確提出向一家人工智能公司轉型，致力於做AI平臺。在騰訊目前或者下一階段的發展規劃中，AI板塊如何定位？

俞棟：互聯網行業已從人口、用戶、流量到內容驅動的上半場，進入到核心技術驅動的下半場。佈局AI等核心技術，是為騰訊建立長期競爭優勢、搶佔企業發展新的制高點。這也是騰訊將AI Lab定位為企業級AI實驗室，並致力於加大、加快、加強AI領域前沿基礎研究與應用探索的根本原因。

財新記者：騰訊在AI方面未來計劃如何佈局？相較於與百度、阿里，騰訊的AI戰略將有何不同？

俞棟：去年4月，騰訊成立了AI Lab，作為騰訊企業級的AI實驗室，隸屬騰訊技術工程事業群（TEG）。TEG這個部門一直負責騰訊的基礎架構建設。AI Lab的定位是專注基礎研究和應用探索的結合，為騰訊打造全面AI能力，併為產品及業務部門提供AI技術支持。

騰訊的AI Lab將有四大基礎研究方向：計算機視覺、語音識別、自然語言處理和機器學習。每個領域既做AI基礎研究，又要進行深層次的應用研究拓展。以語音識別和處理技術為例，我們希望AI Lab能提供從頭到尾的語音技術解決方案，並能根據不同產品、不同團隊的需求進行定製化服務，給到公司業務最好的支持。

騰訊的AI也有四大應用研究方向，將結合騰訊獨有的場景和業務優勢，在內容、遊戲、社交和平臺工具型AI這四類應用中，重點進行AI探索。

其中，在內容方面，主要應用場景包括內容推薦及搜索，如天天快報、QQ看點、微信；社交方面，主要關注基於社交對話的聊天機器人、智能助手等；在遊戲方面，主要應用在“絕藝”等圍棋程序；在平臺工具方面，未來希望開放AI能力，如基於圖像的人臉識別、語音識別、NLP中的輿情分析處理，及深度學習平臺等。

財新記者：騰訊位於深圳的AI Lab總部，跟你最近新成立的西雅圖AI實驗室，相互之間是何種關係？

俞棟：在分工上，騰訊AI Lab深圳總部由張潼領導，做基礎研究和應用探索的結合。美國西雅圖AI實驗室將偏向基礎研究，由我負責運營及管理，主要研究語音識別及自然語言理解等領域。

但需要強調，基礎研究和應用研究之間沒有非常嚴格的界限，有時很難說清楚一個東西是屬於基礎還是應用，比如基礎研究團隊如果把某一項技術裡的關鍵問題直接解決，那麼它就可以立刻應用到產品裡面。

財新記者：目前包括微軟、亞馬遜、蘋果、谷歌、百度在內的許多互聯網科技公司，都將語音助手視為實現AI平臺戰略的切入口。騰訊計劃在語音識別技術方面如何佈局？

俞棟：一方面，我長期從事語音識別領域的研究，但這個領域有一些關鍵問題目前還沒有很好的解決方案，我們希望再次有所突破；

另一方面，語音識別只是應用的一個環節，無論是文字還是語音等數據，大多需要進一步處理，這就需要用到自然語言理解（NLP）。這也是一個不太成熟的領域。所以我們希望先多花點精力在這兩方面，看看能不能做得比現在的技術更好。

財新記者：在語音技術方面，騰訊會選擇哪些應用場景？是否會利用微信等這些既有的語音場景資源？

俞棟：語音識別是基礎技術，應用範圍比較廣。比如說轉寫，打電話可以留言，留言也可以轉文字。

語音識別也能其他產品的前瞻處理工具，比如口語翻譯，先識別你說了什麼話，然後翻譯成另外一種文字，再轉為語音。從口語翻譯出發，還能做語音信息檢索。比如說中央臺有這麼多新聞，要查某個時間播的某條新聞，你只要輸入內容，就能查到是什麼時間段。語音還是智能電話的入口，可控制家電、機器人等等。

騰訊的很多業務都能用到語音識別技術，比如多人遊戲裡用語音控制機器人隊友、微信和QQ等社交產品裡的個人助理功能、以及智能印象等。

從行業發展來講，越來越多國內外公司開始把語音對話系統作為重要的戰略方向。業內認為，語音對話將成為下一個平臺。

財新記者：騰訊是否打算像亞馬遜一樣做Echo音箱等智能硬件？您如何看待最近的語音音箱產品熱？未來，騰訊是否會將語音技術拓展到無人駕駛、智能服務機器人等場景中應用？

俞棟：騰訊不同業務都在做不同的嘗試，AI Lab也會向不同業務部門提供技術支持。在具體的產品發展上，我不方便透露太多。

智能音箱只是智能語音交互技術在智能家居應用中的一個形態。無論是智能音箱、智能服務機器人還是無人車技術，其中的智能語音交互技術都能提供與場景相關度高，並持續反饋的有價值數據，比如在放音樂、查天氣等功能裡與用戶不斷交互，產生和應用場景最相關數據，再通過持續反饋不斷優化技術。在很多這樣的場景中，由於人與設備離得遠，語音是最方便自然的交互手段。

財新記者：在微軟的職業經歷對您現在有何影響？您如何看待中美兩國在AI方面的研究進展和商業路徑？

俞棟：在微軟的19年裡我有機會和世界上一些最有創新力的計算機領域的研究員們一起工作，一起研究解決一些語音識別領域的關鍵問題，把語音識別技術往前推進了一大步。這些職業經歷有助於我培養研究的品味，更好地判斷一項研究的價值和潛力，更有效地尋找研究的突破口。這些經歷也有助於我更好地和各類在某些方面有天賦的背景不同的人一起工作。

世界範圍內華裔人才在AI領域人數眾多，這是中國發展AI的機會。但從開創性研究上說，中國跟美國還是有一定差距的。不過，在中國有豐富的應用場景、海量大數據、強大計算能力和眾多的科技人才儲備，隨著越來越多的人才投入到AI研究裡，越來越多的海外優秀研究人員回到中國，帶來新的研究方法和思想，源自中國研究人員的原創成果會越來越多。■

俞棟：我為什麼加入騰訊做AI？

相關推薦