微軟亞洲研究院副院長周明：微軟的 NLP 帝國

機器學習微軟亞研微軟小冰雲計算新智元 2017-06-08

新智元報道

自然語言處理對於微軟有多重要？

微軟幾乎所有和 AI 相關的重要產品——從重塑生產力和業務流程來看，有智能輸入、輔助寫作、機器翻譯、智能客服等；從雲平臺來看，有Bot框架，認知計算，知識圖譜，商業智能；從創造更加個性化的計算和重塑生產力兩方面來看，有必應搜索、微軟小娜（Cortana）、微軟小冰、推薦系統等等——背後都體現了自然語言處理技術的重要性。

1998年11月5日，微軟亞洲研究院（MSRA）成立。自然語言處理是研究院成立伊始就開創的研究領域。現在18年多過去了，微軟亞洲研究院在科學研究、產品、人才培養以及校企合作都取得了很大進步。

例如，在科學研究方面，微軟亞洲研究院貢獻了200篇以上頂級會議和期刊的文章，為這個領域最重要的ACL會議貢獻了100篇以上的長文、短文還有演示。

上圖總結了世界上發表ACL文章的主要單位和作者，根據長文統計的話，微軟在所有主要的研究單位里名列第一。

而從作者上來看，我們今天介紹的微軟亞洲研究院副院長周明博士，他與他的同事發表的文章在作者裡面也名列第一。同時，他們還有100多項專利，很多都用在微軟的產品裡面。

周明博士去年被選為ACL主席，他同時也擔任著中國計算機學會自然語言專委會主任。

1999年，周明博士加入微軟亞洲研究院，不久開始負責自然語言研究組。他帶領團隊進行了微軟輸入法、英庫詞典（必應詞典）、中英翻譯、微軟中國文化系列（微軟對聯、微軟字謎、微軟絕句）等重要產品和項目的研發，並對微軟Office、必應搜索、Windows等產品中的自然語言技術做出了重要貢獻。近年來，周明博士領導研究團隊與微軟產品組合作開發了微軟小冰（中國）、Rinna（日本）、Zo（美國）等聊天機器人系統。

周明博士發表了120餘篇重要會議和期刊論文（包括50篇以上的ACL文章），擁有國際發明專利40餘項。他多年來通過微軟與中國和亞太地區的高校合作計劃，包括微軟-高校聯合實驗室、微軟實習生計劃、微軟-高校聯合培養博士生計劃、青年教師鑄星培養計劃，與高校和學術組織聯合舉辦暑期學校和學術會議等多種形式，對推動自然語言處理在中國和亞太的卓越發展做出了傑出貢獻。

日前，在微軟大廈舉行的自然語言處理前沿技術分享會活動上，周明博士以《自然語言處理前沿技術》為主題，分享了微軟對包括神經網絡翻譯、聊天機器人、閱讀理解等板塊在內的 NLP 領域的思考，並接受了新智元等媒體的採訪。

語言智能是人工智能皇冠上的明珠

分享會的主要內容分為三個部分：第一部分簡單介紹了自然語言處理這個學科有哪些技術、歷史，過去18年自然語言處理在微軟亞洲研究院起到的作用和發展；第二，介紹了 MSRA 在四個方面最新的進展，像機器翻譯，聊天機器人，中國文化，還有閱讀理解，這些都是目前非常熱門的話題；最後介紹了周明博士對未來的思考，包括目前存在哪些問題，未來的研究方向是什麼。

自然語言處理，即Nature Language Processing，一般簡稱為“NLP”。人工智能經過61年的發展，起起伏伏，曾經歷過兩次冬天，隨著雲計算、大數據、深度學習三大要素的交織下，人工智能又迎來了一個新的春天。各國政府、企業、學校、研究所，都大力推出非常宏偉的人工智能發展計劃，希望在新一波浪潮當中佔據新的領先點。人工智能這次的春天跟以往相比有哪些特點呢？

第一，數據比以前大了很多倍。以前做人工智能基本上是請一些專家錄入數據寫一些簡單的規則，現在都是海量的數據，包括互聯網數據。

第二，計算的能力大大發展。以雲計算為代表的計算能力使人們在訓練或實施時不用再擔心。以前的PC機能力非常有限。

第三，所謂的深度學習，實現了點對點、端對端的訓練。你需要做的就是掌握並整理標註的數據，放到深度學習框架裡面，它自動學習，自動抽取課程完成你所需要完成的任務。這使得機器學習的門檻大幅度下降，人工智能可以走向平民化，很多領域都可以用人工智能實現。

還有重要的一點，就是落地的場景，這是過去兩次浪潮都沒有的。過去都是套用系統，做一些小遊戲、小玩具，又比如做一個小問答系統。現在人工智能有實實在在的應用場景，比如說現在億萬網民都在使用的搜索引擎背後有很多人工智能的系統；自動駕駛汽車從感知到認知都用到了很多人工智能技術。這個場景有什麼好處呢？一開始技術是有限的，能力是有問題的，隨著越來越多人將其作為剛需使用，自然而然提供了海量的反饋，整個系統就可以不斷提升。比如說搜索引擎，網民使用搜索引擎實際上也在幫助搜索引擎訓練。

人工智能的體系是什麼樣的？人工智能是用電腦來模擬和實現人類的智能，而人類的智能大概分如下幾個層次：

第一是運算智能，記憶、計算的能力，這一點機器早已經超過人類。

第二是感知智能，包括聽覺、視覺、觸覺；最近兩年，隨著深度學習的引入，大幅度提高語音識別和圖像識別的識別率，所以計算機在感知智能層面已經做得相當不錯了，在一些典型的測試題下，達到或者超過了人類的平均水平。

第三是認知智能，包括理解、運用語言的能力，掌握知識、運用知識的能力，以及在語言和知識基礎上的推理能力。過去認知智能主要集中在語言智能這塊，即自然語言處理，它簡單理解了句子、篇章，實現了幫助搜索引擎、仿照系統提供一些基本的功能、提供一些簡單的對話翻譯。周明博士認為語言智能是人工智能皇冠上的明珠，如果語言智能能實現突破，跟它同屬認知智能的知識和推理就會得到長足的發展，就能推動整個人工智能體系，有更多的場景可以落地。

最高一層是創造智能，人們利用已有的條件，利用一些想象力甚至有一些是臆斷、夢想，想象一些不存在的事情包括理論、方法、技術，通過實驗加以驗證，然後提出新的理論，指導更多實踐，最後產生很好的作品或產品。在創造智能上，人工智能目前還比較空白，如果能進一步推動感知智能和認知智能，尤其是認知智能，可能向創造智能進軍。

自然語言處理是體現語言智能重要的技術，它是人工智能一個重要的分支，幫助分析、理解或者生成自然語言，實現人與機器的自然交流，同時也幫助人與人之間的交流。

現在NLP主流技術全部由深度學習實現

周明博士認為自然語言處理包括以下幾方面內容，第一是NLP的基礎技術，圍繞不同層次的自然語言處理，比如說分詞、詞性標註、語義分析做一些加工。後面做任何其他新的技術或者應用都必須要用到基礎技術。

中間這塊是NLP核心技術，包括詞彙、短語、句子、篇章的表示，大家所說的WordEmbedding就是在研究不同的語言單位的表示方法。它也包括機器翻譯、提問和回答、信息檢索、信息抽取、聊天和對話、知識工程、語言生成、推薦系統。

最後是“NLP+”，仿照“人工智能+”或“互聯網+”的概念，實際上就是把自然語言處理技術深入到各個應用系統和垂直領域中。比較有名的是搜索引擎、智能客服、商業智能和語音助手，還有更多在垂直領域——法律、醫療、教育等各個方面的應用。

正如其他人工智能學科，自然語言處理也要有很多支撐技術、數據，包括用戶畫像，以提供個性化的服務，包括用來做訓練之用的大數據，包括雲計算提供、實施、訓練的基礎設施，包括機器學習和深度學習提供訓練的技能。它一定要有各種知識支撐，比如領域知識還有常識知識。上圖就概括了人工智能方方面面的要素。

關於自然語言處理的歷史發展，可以說人工智能一開始是以自然語言處理髮端的，比如說機器翻譯是人們做人工智能最先的嘗試。當時用六條規則、200多個詞彙做俄英翻譯，被認為是人工智能尖端性的改革。後來人們又做了很多大規模的問答系統、搜索系統、廣告系統等，實際上都是基於規則的技術發展。人們去寫N條規則，比如說機器翻譯的詞彙規則、轉換規則、具體規則等等，優點是可以很快上線，但寫規則的代價太大了，一個領域的規則換到另外一個領域幾乎沒用。

到了上世紀90年代左右，隨著統計機器學習的發展，人們把它引用到自然語言處理中，機器翻譯由基於規則變成基於統計，這個勢頭一直延續2007年前後。深度學習興起，在語音識別和圖像識別上嶄露頭角。2007年到現在，可以歸結為深度學習的起步、成熟和大發展的時期。現在語音識別、圖像識別等開始使用深度學習，而在自然語言處理方面，主要體現在詞嵌入、神經網絡、機器翻譯、問答系統、對話系統。現在主流技術全部都是用深度學習來實現的。

神經網絡機器翻譯對源語言編碼，引入語言知識和領域知識

微軟一成立就做了很多自然語言處理的研究，後期開始做基於規則、基於實例、基於統計的翻譯等，到了2007年的時候，微軟基於統計的翻譯系統上線，提供免費的對外服務。

2012年，微軟亞洲研究院跟總部研究院合作做了一個語音翻譯系統，其中語音一部分是微軟亞洲研究院語音組的同事做的，翻譯部分是由自然語言計算組來做。

在2012年天津舉行的21世紀的計算大會上，當時微軟研究院的領導人Rick Rashid博士面對3,000位聽眾現場成功演示了這個語音翻譯系統，轟動一時，堪稱整個世界上機器翻譯尤其是語音翻譯領域的重要里程碑。

2015年，微軟對外公開發布了Skype Translator，它集成了微軟的語音技術和翻譯技術，現在在十種語言上提供了語音到語音的翻譯。

今年微軟又有了新的長足的進步，首先在語音翻譯上全面採用了神經網絡機器翻譯，並拓展了新的翻譯功能，稱為 Microsoft Translator Live Feature（現場翻譯功能），在演講和開會時，實時自動在手機端或桌面端，把演講者的話翻譯成多種語言。

這張圖概括了神經網絡機器翻譯，簡要的說，就是對源語言的句子進行編碼，一般都是用長短時記憶LSTM進行編碼。編碼的結果就是有很多隱節點，每個隱節點代表從句首到當前詞彙為止，與句子的語義信息。基於這些隱節點，通過一個注意力的模型來體現不同隱節點對於翻譯目標詞的作用。通過這樣的一個模式對目標語言可以逐詞進行生成，直到生成句尾。中間在某一階段可能會有多個翻譯，這裡會保留最佳的翻譯，從左到右持續。

這裡最重要的技術是對於源語言的編碼，還有體現不同詞彙翻譯的，不同作用的注意力模型。這裡又引入了語言知識。因為在編碼的時候僅把源語言和目標語言看成字符串，沒有體會內在的詞彙和詞彙之間的修飾關係。

把句法知識引入到神經網絡編碼、解碼之中，得到了更佳的翻譯。上圖顯示出，指標得到了很大程度的提升。

此外，周明博士團隊還考慮到在很多領域是有知識圖譜的，他們把知識圖譜納入到傳統的神經網絡機器翻譯當中，來規劃語言理解的過程。其中一個假設就是雖然大家的語言可能不一樣，但是體現在知識圖譜的領域上可能是一致的，就用知識圖譜增強編碼、解碼。具體來講，就是對於輸入句子，先映射到知識圖譜，然後再基於知識圖譜增強解碼過程，使得譯文得到進一步改善。

以上兩個工作都發表在本領域最重要的會議 ACL 上，得到了很多學者的好評。

MSRA把NLP和中國文化巧妙，弘揚中國文化

微軟亞洲研究院利用自然語言處理的技術，尤其是機器翻譯的經驗，果斷進軍到中國文化裡，這一點在全世界獨樹一幟。

2004年，沈向洋院長領導 MSRA 做了一個微軟對聯：用戶輸入上聯，電腦自動對出下聯，語句非常工整，甚至更進一步把橫批對出來。

這個系統在當時跟新浪進行了合作，做成了一個手機遊戲，用戶可以通過發短信的方式，將上聯發過去，然後通過短信接收下聯。當時大家都覺得很有意思。

微軟對聯也是世界上第一次採用機器翻譯的技術來模擬對聯全過程。過去也有人做對聯遊戲，都是用規則的方法寫很多很多的語言學規則，確保什麼樣的詞跟什麼樣的詞對，並符合對仗、平仄一堆語言學的規則，但是實際效果不好，也沒有人使用。MSRA 把機器翻譯技術巧妙用在中國文化上，解決了這個問題。

在微軟對聯的基礎上，他們繼續嘗試其他的中國文化。

比如現在，已經可以用電腦來模擬整個猜字謎和出字謎的過程了，以及用人工智能技術來創作律詩、絕句和宋詞。

最近，宋睿華博士在用神經網絡的技術來進行詩歌的創作。這件事非常有創意：用戶提交一個照片，讓系統進行，然後變成一首詩，自由體的詩。寫詩是很不容易的，因為要體現意境。你說這是山，這是水，這不叫詩；詩歌必須要昇華、凝練，用詩的語言來體現此時的情或者景，由景入情，由情入景，這才是詩。

大概兩週以前，微軟小冰發佈了微軟小冰寫詩的技能，引起了很多人的關注。

MSRA一直在嘗試把人工智能和中國文化巧妙結合起來，弘揚中國文化。

對話即平臺

“對話即平臺”，英文叫做“Conversation as a Platform （CaaP）”。2016年，微軟首席執行官薩提亞在大會上提出了 CaaP 這個概念，他認為繼圖形界面的下一代就是對話，它會對整個人工智能、計算機設備帶來一場新的革命。

為什麼要提到這個概念呢？周明博士認為原因有二：

第一個原因，源於大家都已經習慣用社交手段，如微信、Facebook與他人聊天的過程。微軟希望將這種通過自然的語言交流的過程呈現在當今的人機交互中，而語音交流的背後就是對話平臺。第二個原因則在於，現在大家面對的設備有的屏幕很小，有的甚至沒有屏幕，所以通過語音交互，更為自然直觀。因此，我們是需要對話式的自然語言交流的，這要通過語音助手來幫忙完成。

而語音助手又可以調用很多Bot，來完成一些具體的功能，比如說定杯咖啡，買一張車票等等。芸芸眾生，有很多很多需求，每個需求都有可能是一個小Bot，必須有人去做這個Bot。而微軟此時就扮演了一個平臺的角色，希望開發者能夠把自己的能力釋放出來，讓全世界的開發者，甚至普通的學生就能開發出自己喜歡的Bot，形成一個生態的平臺，生態的環境。

如何從人出發，通過智能助理，再通過Bot體現這一生態呢？微軟在做CaaP的時候，實際上有兩個主要的產品策略。

第一個是小娜，通過手機和智能設備介入，讓人與電腦進行交流：人發佈命令，小娜理解並執行任務。同時，小娜作為你的貼身處理，也理解你的性格特點、喜好、習慣，然後主動給你一些貼心提示。比如，你過去經常路過某個地方買牛奶，在你下次路過的時候，她就會提醒你，問你要不要買。她從過去的被動到現在的主動，由原來的手機，到微軟所有的產品，比如Xbox和Windows，都得到了應用。現在，小娜已經擁有超過1.4億活躍用戶，在數以十億級計的設備上與人們進行交流。現在，小娜覆蓋的語言已經有十幾種語言，包括中文。小娜還在不斷髮展，背後有很多自然語言技術來自微軟研究院，包括微軟亞洲研究院。

第二個就是小冰。它是一種新的理念，很多人一開始不理解。人們跟小冰一起的這種閒聊有什麼意思？其實閒聊也是人工智能的一部分，我們人與人見面的時候，寒喧、問候、甚至瞎扯，天南海北地聊，這個沒有智能是完成不了的，實際上除了語言方面的智能，還得有知識智能，必須得懂某一個領域的知識才能聊起來。所以，小冰是試圖把各個語言的知識融匯貫通，實現一個開放語言自由的聊天過程。這件事，在全球都是比較創新的。現在，小冰已經覆蓋了三種語言：中文、日文、英文，累積了上億用戶。很多人跟它聊天樂此不疲，而平均聊天的回數多達23輪。這是在所有聊天機器人裡面遙遙領先的。而平時聊天時長大概是25分鐘左右。小冰背後三種語言的聊天機器人也都來自於微軟亞洲研究院。

無論是小冰這種閒聊，還是小娜這種注重任務執行的技術，其實背後單元處理引擎無外乎是三層技術。

第一層：通用聊天，需要掌握溝通技巧、通用聊天數據、主題聊天數據，還要知道用戶畫像，投其所好。

第二層：信息服務和問答，需要搜索的能力，問答的能力，還需要對常見問題表進行收集、整理和搜索，從知識圖表、文檔和圖表中找出相應信息，並且回答問題，我們統稱為Info Bot。

第三層：面向特定任務的對話能力，例如定咖啡、定花、買火車票，這個任務是固定的，狀態也是固定的，狀態轉移也是清晰的，那麼就可以用Bot一個一個實現。你有一個調度系統，你知道用戶的意圖就調用相應的Bot 執行相應的任務。它用到的技術就是對用戶意圖的理解，對話的管理，領域知識，對話圖譜等等。

實際上，人類擁有這全部三個智能，而且人知道什麼時候用什麼智能，就是因為最上頭，還有一個調度系統。你跟我閒聊的時候，我就會跟你閒聊；你跟我嚴肅地問問題，那麼我就會回答你的問題。通過一個調度系統，可以想象，我們在做人機對話的時候，其實是在根據用戶的提問調用不同的引擎，再根據不同的意圖調用不同的Bot。這樣整體來實現一個所謂的人機交互全過程。這背後的技術由不同的研究員分別去進行實施，然後再整體通過跟產品組合作體現一個完美的產品流程。

微軟想把有關的能力釋放給全世界，讓每個人都能夠體驗人工智能的好處，讓開發者開發自己的Bot。但是開發者的機器不懂自然語言，怎麼辦呢？這就要通過一個叫Bot Framework 的工具、平臺來實現。

任何一個開發者只用幾行代碼就可以完成自己所需要的Bot。這裡有一個簡單的例子，這個人想做一個披薩的Bot，他用Bot的框架，這幾行語句填入相應的知識，相應的數據，就可以實現一個簡單的定披薩的Bot。你可以想象很多小業主，沒有這種開發能力，但是就是可以簡單操作幾下，就可以做一個小Bot吸引來很多客戶。

這裡面有很多關鍵技術。微軟有一個叫做LUIS（Language Understanding Intelligent Service）的平臺，提供了用戶的意圖理解能力、實體識別能力、對話的管理能力等等。比如說這句話““read me the headlines”，系統識別的結果是他想做朗讀，內容就是今天的頭條新聞。再比如說“Pausefor 5 minutes”，系統理解它的意思是暫停，暫停多長時間？有一個參數：5分鐘。所以，通過LUIS，就可以把意圖和重要的信息抽取出來，讓後面Bot來讀取。

微軟的聊天對話技術也在與很多企業合作，賦能這些企業。比如，微軟跟敦煌研究院合作。敦煌研究院提供出數據，微軟則把引擎加上去，很快就建立了一個敦煌研究院的客服系統，藉助敦煌研究院公眾號，可以讓用戶和它聊與敦煌有關的事。用戶也可以問問題，例如敦煌研究院什麼時候開門、有什麼好吃的，他可以把聊天、對話都集成在一個平臺上，發揮人工智能在公眾號上的作用。

向達到或超過人類平均的閱讀理解水平努力

閱讀理解顧名思義就是給你一篇文章，看你理解到什麼程度。人都有智能，而且是非常高的智能。除了累積知識，還要懂一些常識。具體測試你的閱讀能力、理解能力的手段，一般都是給一篇文章，再你一些問題。你能來就說明你理解了，答不上來就說明你不理解。對電腦的測試也是這樣。

給大家舉個例子，說明一下閱讀理解。這一段話的大意是在介紹萊茵河，它流經哪些國家，最終在哪裡注入大海。萊茵河畔最大的城市是德國科隆。它是中歐和西歐區域的第二長河流，僅次於多瑙河之後，約1230公里。然後，我們問的問題是，什麼河比萊茵河長？當你讀完了這段話，你就要推斷，“after”在這裡是什麼意思，從而才能得出正確答案是多瑙河。電腦要做這道題，實際上要仔細解析很多問題，最終才能作出回答。

為了推動閱讀理解的發展，美國斯坦福大學就開發了一個測試題，也開放給大眾。它既有訓練的部分，也有開發的部分，還有測試的部分。每個參賽隊伍拿到測試題目，自己進行訓練。通過開發調自己的參數，最後提交自己的系統，然後斯坦福大學就把你的成績公佈到他的網站上。

現在大家可以看到的是參賽的30多支隊伍，來自於谷歌、Facebook、微軟等企業，以及著名的大學如華盛頓大學、紐約大學等。國內的大學如上海交大、哈工大，以及企業如科大訊飛等也有參與。成績的評判標準有兩種。一個是精確匹配，答案全部正確才能得分，還有一個是部分匹配，答案有一部分是對的也可以得分。

現在的成績一目瞭然，微軟亞洲研究院提交的結果名列第一名，而且是從去年9月份到現在為止一直是名列第一。很多其他參賽隊伍都拼命想撼動微軟亞洲研究院的地位，用盡了各種技巧，但最終微軟亞洲研究院還是穩居第一名。

現在人工閱讀的正確率做到了多少呢？能做到82%左右。現在微軟亞洲研究院的結果排名世界第一，在76%左右，與人類水平還差5分左右。

在閱讀理解這樣難的技術上，應該清醒的認識到還有很長的路要走。其實就包括對常識知識的把握、推理的能力，還有識別問題、上下文理解的問題等等。但是要有信心，隨著一天天的努力和進步，終究有一天我們可能達到或者超過人類平均的閱讀理解水平。

這有什麼用呢？比如可以做客服，給定一個網站，用戶問出一些問題，智能客服不需要把網站從頭到尾看一遍，就可以直接定位出答案。它有很多的應用。

為了推動機器閱讀的發展，微軟也推出了自己的一個新的測試題，叫做MARCO，其中貢獻了微軟必應搜索很多的精華部分，也是體現了微軟對學術界無私的幫助。因為這個數據集剛推出不久，提交的隊伍還不是那麼多。

NLP的六大發展趨勢以及未來的六大研究方向

最後，周明博士還向大家介紹了他對自然語言處理目前存在的問題以及未來的研究方向的一些思考。首先，他認為 NLP 有如下的發展趨勢：

“第一，我認為，隨著大數據、深度學習、雲計算這三大要素推動，所謂認知智能，尤其是語言智能跟感知智能一樣會有長足的發展。你也可以說，自然語言處理迎來了60餘年發展歷史上最好的一個時期，進步最快的一個時期，從初步的應用到搜索、聊天機器人上，到通過對上下文的理解，知識的把握，它的處理能力得到長足的進步。具體來講，我認為，口語機器翻譯肯定會完全普及。任何人出國，無論到了哪個國家，拿起電話來你說你的母語，跟當地人交流不會有太大的問題，而且是非常自如的過程，就跟你打電話一樣。所以，我認為口語機器翻譯會完全普及。雖然這不意味著同聲翻譯能徹底顛覆，也不意味著這種專業領域的文獻的翻譯可以徹底解決；但我認為還是會有很大的進展。”

“第二，自然語言的會話、聊天、問答、對話達到實用程度。這是什麼意思？這意味著在常見的場景下，通過人機對話的過程完成某項任務。這個是可以完全實現，或者跟某個智能設備進行交流，比如說關燈、打開電腦、打開紗窗這種一點問題都沒有，包括帶口音的說話都可以完全聽懂。但是同樣，這也不代表任何話題、任何任務、用任何變種的語言去說都可以達到。目前離那個目標還很遠，我們也在努力。”

“第三，智能客服加上人工客服完美的結合，一定會大大提高客服的效率。我認為很多重複的客服工作，比如說問答，還有簡單的任務，基本上人工智能都可以解決。但是複雜的情況下仍然不能解決。所以，它實際上是人工智能跟人類智能完美生產線的結合來提高一個很好的生產力，這個是沒有問題的。”

“第四，自動寫對聯、寫詩、寫新聞稿和歌曲等等，我認為今天可能還是一個新鮮的事物，但是五到十年一定都會流行起來，甚至都會用起來。比如說寫新聞稿，給你一些數據，這個新聞稿草稿馬上就寫出來，你要做的就是糾正，添油加醋，供不同的媒體使用等。”

“第五，在會話方面，語音助手、物聯網、智能硬件、智能家居等等，凡是用到人機交互的，我認為基本上都可以得到應用，而且促進以上的一些產品推廣。”

“最後，認知智能、感知智能一起努力，在很多場景下，比如說法律、醫療診斷、醫療諮詢、法律顧問、投融資等等，這些方面自然語言處理會得到廣泛的應用。”

同時，周明博士也指出，在良好的預期之外，要看到自然語言處理還有很多很多沒有解決的問題。周明博士列出了幾個他認為較為重要的研究方向：

“第一，通過用戶畫像實現個性化服務。現在自然語言處理基本上用戶畫像用得非常非常少。其實人與人的對話，其實是對不同的人說不同的話，因為我們知道對話的人的性格、特點、知識層次，我瞭解了這個用戶，知道用戶的畫像，那麼在對話的時候就會有所調整。目前來講，我們還遠遠不能做到這一點。”

“第二，通過可解釋的學習洞察人工智能機理。現在自然語言處理跟其他的人工智能一樣，都是通過一個端對端的訓練，而其實裡面是一個黑箱，你也不知道發生了什麼，哪個東西起作用，哪個東西沒有起作用。我們也在思考，有沒有一種可解釋的人工智能，幫助我們知道哪些地方發揮了作用，哪些地方是錯的，然後進行修正，快速調整我們的系統。目前還沒有針對這個問題很好的解決方案，儘管有一些視覺化的工作，但是都比較粗淺，還沒有達到最精準的判定和跟蹤。”

“第三，通過知識與深度學習的結合提升效率。所謂知識和深度學習的結合，有可能很多情況下是需要有人類知識的。比如說客服，是有一些常見處理過程的。那麼出現問題我該怎麼解決？這些知識如何跟數據巧妙結合，從而加快學習的過程、提高學習的質量，這也是比較令人關注的。”

“第四，通過遷移學習實現領域自適應。如果們想翻某一個專業領域，比如說計算機領域，可能現有的翻譯工具翻得不好。所以大家都在研究，有沒有一種辦法，能夠幫助機器進行遷移學習，能夠更好的運用到語音自適應上。”

“第五，通過強化學習實現自我演化。這就是說我們自然語言系統上線之後有很多人用，得到了有很多人的反饋，包括顯示的反饋、演示的反饋，然後通過強化學習不斷的提升系統。這就是系統的自我演化。”

“最後，我認為也是非常關鍵的，通過無監督學習充分利用未標註數據。現在都依賴於帶標註的數據，沒有帶標註的數據沒有辦法利用。但是很多場景下，標註數據不夠，你找人工標註代價又極大。那麼如何用這些沒有標註的數據呢？這就要通過一個所謂無監督的學習過程，或者半監督的學習過程增強整體的學習過程。這裡也是目前研究上非常令人關注的。”

微軟的NLP技術做得更細，時間更久，擁有更深厚的積累

周明博士的主題演講之後，新智元向周博士提出了問題。

新智元：周老師您好，我是來自新智元的記者，謝謝您的演講，我有兩個問題。首先，現在做智能語音助理的公司這麼多，微軟的技術與眾不同的地方在哪裡？您認為做智能語音處理成功的關鍵在哪裡？您剛剛在PPT裡面提到了一個調度系統，能夠在調度系統這方面詳細的介紹一下嗎？

周明：謝謝。

第一個問題，語音助手確實做得很多了，無論國內國外。微軟的語音助手的成果主要體現在小娜上。小娜現在的特點是什麼呢？我覺得有如下幾個特點。第一，傳統的命令式——用戶發命令，機器理解、執行已經做得不錯了。其次，小娜增加的是它會主動了解用戶的個人品性、習慣、愛好，然後進行主動地提醒和建議。這一點是我們的特色。此外，小娜內部用了很多自然語言的技術，也恰巧是我們的長處。比如在問答、情緒識別、情感分析等方面。當然，很多其他公司也在這些方面應用了自己的技術，但是微軟研究院長期以來在這方面做的是比較領先的。

第二個問題，關於調度系統。我認為，做一個對話系統，一定要分而治之。就是說，你可以分開讓某些團隊只做問答，某些團隊只做閒聊，某些團隊只做對話；但是你一定要有調度系統。這相當於人的中樞一樣，接收到一個具體的問題，然後引導到一個具體的引擎上去。在說話的時候，人們可能會出現跳躍的情況，由閒聊變成嚴肅的問答。這時你就要感知到對方進入了嚴肅問答的狀態，就需要引擎的切換。這一領域重要的技術就是用戶意圖的瞭解，理解這三大事情：對話、閒聊、執行任務，是具體想要做什麼，要做出一個判斷。判斷完了以後，在調用具體的Bot。這背後都是跟自然語言有關的，我們在意圖理解和分發這方面做了很多年。

新智元：NLP是微軟獨特於其他公司的亮點技術，微軟亞洲研究院在其中扮演了重要角色，是這樣嗎？

周明：首先，自然語言處理技術各大公司都在做，我們只是做得更細，時間更久，擁有更深厚的積累。作為核心技術，自然語言處理技術在很多具體應用中發揮著重要作用，包括意圖識別、分類、表達等。我們參與了其中很多的技術部分，也與總部的同事有很多合作。