深度學習NLP領軍人Manning:未來5年神經機器翻譯會有超越|新智元專訪

深度學習NLP領軍人Manning:未來5年神經機器翻譯會有超越|新智元專訪

1新智元專訪

深度學習NLP領軍人Manning:未來5年神經機器翻譯會有超越|新智元專訪

雖然沒有語音和圖像那麼猛烈,但深度學習已然席捲自然語言處理。2014年11月,Hinton在Reddit AMA(Ask Me Anything)中說,他認為未來5年最令人激動的領域將是真正理解文字和視頻,Hinton說:“5年內,如果計算機沒能做到在觀看YouTube視頻後能夠講述發生了什麼,我會感到很失望。”2015年6月,LeCun在Facebook AI實驗室巴黎分部的開幕式上說,深度學習接下來的重要一步是自然語言理解,讓機器不僅能夠理解單個單詞,還能理解整個句子乃至段落。現代深度學習的另一大巨頭Yoshua Bengio,更是率領團隊越來越多地從事深度學習語言學研究,包括現在已經成果斐然的神經機器翻譯系統。

不僅如此,統計機器學習大神Michael Jordan也在2014年9月的AMA中表示,如果他有10億美元的資金來構建研究項目,他會選擇建設一個NASA那樣規模的自然語言處理計劃,包括語義學、語用學等等。Jordan說:“從學術上講(intellectually)我認為NLP是個引人入勝的問題,讓我們專注於高度結構化的推理,在觸及‘什麼是思維’這一核心的同時又非常實用,而且能讓世界變得更加美好。”不過,Jordan認為深度學習在NLP的表現遠遠沒有視覺那樣好,他也不大看好將海量數據與黑箱結構相結合去做NLP。

對於後者,斯坦福大學的教授Christopher Manning有不同的觀點。Manning認為深度學習是研究NLP和語言學的好方法。Manning是斯坦福大學計算機科學和語言學系機器學習Thomas M. Siebel教授,他的研究目標是讓計算機能夠智能地處理、理解和生成人類語言材料。作為深度學習自然語言處理的領軍人,Manning從事了很多著名的工作,包括樹狀遞歸神經網絡、情感分析、神經網絡依賴性解析(dependency parsing),語言矢量的GloVe模型、神經機器翻譯,還有深度學習語言理解。他主講的斯坦福CS224N深度學習自然語言處理課程非常受歡迎。同時,Manning也關注計算語言學解析方法、文本推理和多語言處理,是斯坦福大學依賴關係和通用依賴性(Universal Dependencies)的主要開發者。

深度學習NLP領軍人Manning:未來5年神經機器翻譯會有超越|新智元專訪深度學習NLP領軍人Manning:未來5年神經機器翻譯會有超越|新智元專訪

Manning教授的論文目前被引用超過7萬次,其中,他作為第一作者與人合著的《自然語言處理統計方法》(Manning and Schütze,1999)和《信息檢索》(Manning,Raghavan和Schütze,2008)已經成為領域內著名的教科書。Manning是ACM Fellow、AAAI Fellow和ACL Fellow,往屆ACL President。他的研究多次獲得ACL、Coling、EMNLP和CHI這些計算語言學頂會的最佳論文獎。Manning在澳大利亞國立大學本科畢業後,1994年在斯坦福大學獲得博士學位,而後在卡內基梅隆大學和悉尼大學擔任教職,1999年重新回到斯坦福大學並一直留校至今。他創建了斯坦福NLP Group,負責管理斯坦福CoreNLP軟件的開發工作。

日前,新智元對第二次來到中國的Manning教授進行了專訪(他第一次來是2015年的ACL)。Manning教授受邀出席第12屆中國中文信息學會暑期學校暨前沿技術講習班,並做結課報告,介紹斯坦福大學NLP組的工作進展。

在採訪中,Manning教授指出,雖然深度學習是研究NLP的好方法,但目前為止NLP從深度學習的收益更多是來自分佈式詞彙表示(distributed word representation),而非真正的深度學習,真正的深度學習使用更抽象的表徵構建的層次來促進泛化。但是,他對此表示樂觀,“我們現在仍處於這一波深度學習復興浪潮的初期”。同時,他認為構建深度學習系統的方法本身就很有用,不僅侷限於NLP。

Manning也鼓勵人們在工作中更多結合語言和語言結構。他認為NLP中的深度學習與語言學之爭是很自然的現象——“當有很好用的形式化方法工具出現時,研究這些新工具的人會把它們用在各種各樣的領域裡,即使他們自己並不是這些領域的專家,因此往往會忽視領域中本應注意的細微精妙之處”——有爭論是好事,問題將來也會自己解決。同時,Manning表示,NLP是研究語言技術的領域,並不是研究什麼是最好的機器學習,因此核心問題永遠都將是領域專業問題。

總的來說,Manning認為我們正處在一個非常激動人心的時代,“自然語言處理被視為機器學習和行業應用問題的核心,我們應該感到興奮和高興”。他鼓勵大家考慮問題、架構,認知科學以及人類語言的細節,如何學習、處理以及如何變化,而不僅僅是追求最好最漂亮的數字。

以下內容綜合了Manning教授專訪和結課報告,在不改變原意的情況下作了編輯整理。

很高興看到ACL 2017有更多深度學習與語言結構的融合

新智元:今年的ACL有什麼讓你感興趣的工作?

Manning:我對語言和語言結構很感興趣,因此很高興在今年的ACL看到更多研究語言結構的工作。其中,有幾個團隊利用語法結構和句子,以各種方式結合句法知識來完善神經機器翻譯模型,比如NYU的Kyunghyun Cho——Cho是著名的奉行“Deep Learning First”的人,很高興看到他開始關注語言和語言結構。今年的EMNLP也有這樣的工作,華盛頓大學的Kenton Lee等人提出了一個端到端的神經共指解析模型(coreference resolution,“共指解析”,自然語言處理中的一個基本任務,目的在於自動識別表示同一個實體的名詞短語或代詞,並將它們歸類——編注),相比使用傳統方法結果有了大幅提升。我的學生Kevin Clark實際上也在從事共指解析方面的工作,但Kenton Lee新系統的表現要好更多。

回到ACL 2017,伯克利的Jacob Andreas等人發表了《Translating Neuralese》,這與智能體之間相互對話以及與人類對話有關(研究人員通過翻譯智能體之間的對話 [messages] 來理解這些信息,與傳統的機器翻譯不同,這項工作並沒有可比照的數據用於學習,因此研究人員假設特定情況下智能體之間的對話等同於自然語言串 [string],然後建模——編注),這更多是一種概念上的驗證,也是很不錯的工作。

新智元:說到智能體之間的對話,前段時間有一則火遍全球的消息,“Facebook的AI Bot發明了自己的語言”。

Manning:我認為整件事情完全是媒體的誤讀,報道出來的與實際發生的是兩碼事。那兩個Bot的“對話”與物聯網裡傳感器之間發送的信號沒什麼區別,而“項目關閉”也並非出於恐慌,而是跟所有程序員按下Ctrl+C一樣,只是覺得再把這個測試繼續下去沒有意思了。而測試之所以會沒意思,我認為僅僅是因為從某種意義上看這是個失敗的實驗——我們想要開發的是能夠與人類交流的對話系統,Bot自行學習後生成人類無法理解的速記符號並沒有用。當然,速記符號本身很有用,人類也廣泛使用速記符號,但關鍵還是要讓人類能夠理解。人類發明語言是件奇妙而複雜的事情,研究智能體如何發明它們自己的語言有助於理解人類語言的本質,也有很多學者在從事這方面的工作。但據我所知,目前這些都還只是極其原始、簡單的符號系統,能做的只是像嬰兒那樣,用兩個單詞來表達意思,比如 want juice,want mommy。

NLP中“語言學 vs 深度學習”之爭:語言並非是基於規則的符號系統,使用深度學習將對語言學研究做出科學貢獻

新智元:你如何看自然語言處理領域裡“語言學VS深度學習”之爭?

Manning:總是有這樣的情況,當有很好用的形式化方法工具出現時,研究這些新工具的人會把它們用在各種各樣的領域裡,即使他們自己並不是這些領域的專家,因此往往會忽視領域中本應注意的細微精妙之處。我認為有這樣的爭論很好,事情也會自己解決。深度學習無疑在自然語言處理的很多地方都有很大的用處,而瞭解語法和語言結構也很有必要。我認為隨著時間的推移,我們會有關於這些不同觀點的積極對話和交流。

很多反深度學習的語言學家,他們之所以認為深度學習從根本上錯了,是因為他們將語言看作一個基於規則的符號系統,這也是傳統的語言學觀點。但我並不這樣認為。語言是很鬆散的,隨著時間推移不斷髮生變化,雖然其中確實存在系統性的規律,能夠通過詞類、語法規則等對其進行歸納,但人類對語言的使用是靈活而且多變的,詞義也不斷轉變,諸如此類的現象,實際上通過神經網絡的分佈式表徵能夠被更好的建模。所以,我認為使用深度學習的一些概念,有很大可能對語言學做出科學貢獻。

深度學習是研究語言學的好方法,但正因如此也很容易陷入錯覺,誤以為深度學習就是研究語言學的最好方法。實際上我們現在做的最多的就是建模,這些模型在某些情況下很好用,但也都有各自的侷限。

新智元:最大的侷限在哪裡呢?

Manning:就現階段而言,還很難說最大的侷限,因為我們尚處於這一波深度學習復興浪潮的早期,有那麼多的進展,不斷有更多更好的解決方案被發現,這些都令人激動。因此,我認為現在還說不好未來會怎樣,我們也還沒有明確地看到這些方法什麼時候會不管用。不過,我懷疑 [深度學習] 最大的侷限可能會來自於假設 [對象或過程都擁有] 統一的結構,例如很大的數字,很大的矩陣,然後相乘,這與人腦中發生的並不太一致,也和語言運作的方式相去甚遠。所以,我認為將來我們會需要擁有更多模態和更多分化(differentiation)的模型,組合在一起使用

從事NLP 20年,看領域發展里程碑:基於文本的事實理解已經做得很好,接下來是讓機器通過閱讀理解世界如何運作

新智元:從事自然語言處理20多年,你認為領域發展都有哪些里程碑?接下來會怎樣?

Manning:自然語言處理以及相關領域的進展是一個循序漸進的過程,與其看里程碑,不如說錯誤率一直降低,到達一定界限後,就變得很實用。以語音識別為例,雖然不是自然語言處理,但作為語言技術的一種,語音識別無疑取得了極大的進展,基於深度學習的方法讓語音識別的準確率大幅提升,人們注意到統計曲線的陡變,但這實際上是一個30年的旅程,每一年研究人員都在將準確率不斷提升,當錯誤率降低到一定水平後,普通人覺得語音識別好用了,不再是以往被逼無奈才會用,現在,一些簡單的任務能在手機上用語音很好地完成。

我認為其他領域也會經歷像語音識別一樣的歷程。比如說機器翻譯,也是一個通過不斷積累取得進展的領域,近來神經機器翻譯大獲成功,神經機器翻譯在2014年首次推出,3年後的現在,幾乎所有大公司都將其應用到了各自的產品中。但是,相比語音識別,神經機器翻譯還差得很遠,雖然現在已經好到可以用(useful),但我想大概再過個5年,會變得真的很好,超越一個界限,用起來很順手(usable),方便人們溝通和交流

還有問答和閱讀理解系統——這也是我的學生陳丹琦在做的,在過去幾年已經變得超級好。一些比較難的問題,涉及到對文本的理解,目前我們還無法做到,但根據文本中陳述的事實進行問答,比如誰是誰的曾祖父,誰在畢業後第一份工作是什麼……這些已經能給出精度極高的答案,可以說,事實問題基本都能答對。

新智元:我們此前採訪了伊利諾伊大學的劉兵教授,他認為NLP一個很大的侷限在於,有很多在人類看來十分簡單的問題,比如將一塊石頭投入水中會發生什麼,計算機無法作答,因為答案有太多。

Manning:當我們說自然語言理解的時候,實際上分為兩部分,一部分是(自然)語言理解,其中基於文本的事實理解我們已經做得很好了,另一部分則幾乎跟語言無關,這部分關乎的是掌握知識,理解世界如何運作,這個我們現在還做不到。所以,像把石頭扔進水裡會發生什麼,實際上單是語言理解這部分沒有問題的,問題在於如何構建一個深度學習系統,能像人類一樣理解世界,知道做一件事會產生什麼後果。

新智元:那怎麼做到這一點呢,比如讓機器理解常識?

Manning:現在的問答和閱讀理解系統在一定的參數設置下表現很好,但本質上做的還是模式匹配。在此基礎上更進一步,讓系統掌握常識,這個問題很難。我現在也沒有很好的答案。不過,我相信最初的一步可以這樣走,那就是讓計算機通過閱讀學習知識。

我的工作主要涉及語言理解,但也從事了一些讓計算機理解世界的工作,方法就是讓計算機閱讀文本,這也是我認為非常有前景的一個研究方向。讓機器理解世界的方式有很多種,可以是觀看視頻,或者將機器人放到一個環境中讓它進行探索。閱讀或許是更加簡單有效的一種,小說、新聞、書籍中描寫了大量的人類活動,反映了物理世界和現實生活,有了這麼大的信息量,就可以構建知識圖譜,再使用開放信息抽取,表徵各種關係,還可以構建情景注意力模型(episodic attention model)……這些結合到一起,我相信能夠讓模型在某些類型的常識上進行一定程度的推理。

當然,有了這些還是不夠,比如要回答將石頭投入水中會發生什麼,還需要對世界有物理上的瞭解。而且,人類在溝通時,有很多信息都是不會通過語言來表達的。因此,光研究語言學和自然語言處理是無法使我們對常識建模的,或許借鑑強化學習和機器人領域的技巧和方法能打開局面。

在語言理解中,我想我們也需要進行更多知識表徵、推理和讓計算機理解世界的研究,這方面的工作應該得到更多的關注。雖然嚴格上講這並不屬於語言理解問題,但卻與語言密切相關——沒有對知識和世界的理解,無法真正做到理解語言。反過來,要理解知識和世界,也需要閱讀文本,離不開語言理解,所以這可以看做是一個循環。

中文信息學會暑期學校結課報告Q&A

深度學習NLP領軍人Manning:未來5年神經機器翻譯會有超越|新智元專訪

Manning教授受邀出席第12屆中國中文信息學會暑期學校暨前沿技術講習班,並做結課報告,介紹斯坦福大學NLP組的工作進展

Q:如何繼續改進機器翻譯?

Manning:有幾種可行的方法,一種是結合句法結構和神經機器翻譯系統,還有就是利用詞類、語法分析這些信息。我認為了解組成成分(constituency)、詞彙等信息,不僅對機器翻譯有用,對問答等領域也會很有用。還有就是在整個篇章的基礎上進行翻譯。目前的機器翻譯基本上還是在句子的基礎上進行的,實際上人類譯者在翻譯時,相比只有單獨的句子,他們在得到上下文信息後,會對內容進行更好的翻譯。因此,這也是提升機器翻譯的一個方向。要實現智能,需要去理解更大的東西,而不僅僅處理句子這樣較小的部分。

Q:如何看待深度學習黑箱?

Manning:實際上黑箱問題有些被誇大了,你可以從很多角度去看黑箱。大多數時候,人類做決策也是黑箱,你沒有辦法知道另一人腦子裡在想些什麼,但我們仍然會信任其他人的理性決策。在處理某些問題上,神經網絡的表現已經很好了,或許,神經網絡也需要我們給予這樣的信任。此外,深度學習模型的難解性在一定程度上源於其他機器學習方法,比如使用了LSTM、內核等結構後,你很難弄清楚模型中都發生了什麼,這也是不能忽視的一個事實。

另一方面,對研究者和開發人員而言,在構建深度學習模型時,如果能直接看特徵和特徵權重就瞭解哪個地方出了問題,並提出改進方法,絕對是一件很有價值的事情。但現在,我們在建模時更多遇到的情況是,不知道究竟出了什麼問題,是再加一層網絡呢,還是改變正則化方法,或者調整初始函數……於是,乾脆隨意做個五六處改動然後跑模型,希望其中一個改動奏效。這種方式即使最後模型確實變好了,但仍然無法令人滿意。從這個角度講,如果能弄清黑箱無疑是件好事。

最後,從應用的角度看,深度學習有很多應用,比如醫療,在這些情況下,如果能知道模型是如何推理並得出結果的當然會更好。實際上,現在關於神經網絡注意力的研究,能在一定程度上揭示神經網絡工作的過程,但顯然這還遠遠不夠。我在斯坦福的同事Pang Wei Koh和Percy Liang最近在ICML 2017獲得了最佳論文的工作就是關於模型可解釋性,他們反過去理解哪些訓練數據在模型在分類決策中的影響更大,從而更好地理解模型為什麼做出某個特定的決策。我認為這是非常有用的工作。

※新智元也為此採訪了Percy Liang教授,Liang教授向新智元解釋了他們的工作。關於模型的可解釋性,我們問了一個問題:為什麼模型會做出某一種預測?(Why did a model make a certain prediction?)雖然以前的工作在模型的角度回答這個問題(answered this question in terms of the model),但模型又來自哪裡?答案最終還是在訓練數據裡,是訓練數據推動了預測。我們提出了一個問題:如果增加一個訓練樣本的權重並重新訓練模型,它將如何改變預測?我們使用統計學的經典想法——影響函數來回答這個問題。這種方法的優點是適用於任何(可微分)模型,包括任意的神經網絡。Liang教授表示,他很高興看到統計學中的舊想法與現代深度學習環境相結合。

點擊閱讀原文可查看職位詳情,期待你的加入~

相關推薦

推薦中...