騰訊AI Lab NLP 團隊首次曝光，張潼、俞棟帶隊解讀ACL三大前沿

機器學習數據挖掘文章人工智能新智元新智元 2017-08-26

1新智元推薦

騰訊 AI Lab去年四月成立，今年是首次參展ACL，共計三篇文章被錄取，位居國內企業前列。此次團隊由實驗室主任張潼博士與副主任俞棟博士共同帶領到現場交流學習。

上圖：騰訊AI Lab主任張潼博士現場演講座無虛席

下左圖：參與ACL的團隊；下右圖：現場論文展示

從研究領域和前沿思考出發，我們重點關注了三大領域的前沿研究，以下為重點論文評述。

以下論文均可在官網下載：http://t.cn/R9ynux4

問答系統 Question Answering System

隨著人工智能的發展，圖靈測試受到越來越多的挑戰，問答系統（QA）就是其中一個嘗試：試圖讓機器用準確、簡潔的語言回答用戶提出的自然語言問題。近年來，基於神經網絡的問答系統已成主流。在本屆ACL，知識問答系統（KBQA）及檢索式問答系統（IRQA）也繼續在神經網絡模型基礎之上有新突破：一方面在知識問答系統中，在解決問題表示以及答案生成任務時，基於端到端神經網絡模型被進一步優化；另一方面，檢索式問答系統中，針對小規模文檔精確檢索以及針對大規模文檔快速檢索，有了新嘗試和突破。

一、知識問答系統

1、An End-to-End Model for Question Answering over Knowledge Base with Cross-Attention Combining Global Knowledge

基於神經網絡的知識問答系統已取得矚目成績，然而傳統神經網絡方法在進行問句表示的同時，並沒有考慮答案對其影響。這篇中科院和百度合作完成的文章中，作者提出了一種基於端到端的神經網絡模型，特別地利用交叉注意力機制對問句和答案進行互相關注。一方面利用答案信息動態地進行問句表示，使得問句表示更加靈活充分；另外一方面也根據問題對答案不同方面的不同關注，對問句答案得分進行不同權重表示。此外，知識庫全局知識被進一步引入用來訓練Embedding並擴展詞表，從而充分捕捉到知識庫的全局結構信息，並緩解了傳統模型中的詞表溢出問題。在公開的數據集WebQuestions上，實驗證明該方法能有效提升端到端模型實驗性能。

2、Generating Natural Answers by Incorporating Copying and Retrieving Mechanisms in Sequence-to-Sequence Learning

如何讓知識問答系統生成自然語言形式的答案目前仍是一大挑戰，中科院發表的這篇文章給出了一種可融入外部知識庫的端到端神經網絡模型。為給出一個自然的答案，此模型使用了端到端的語言模型。同時為引入外部知識庫，而引入了檢索機制。針對需要結合多個事實回答的複雜問句，模型用三種不同模式獲取詞彙並進行選取：用拷貝方式取得問句中的實體、用預測方式產生讓答案更自然的連接詞、用檢索方式獲取相關事實並結合多個相關事實產生複雜問句的自然形式的答案。論文分別在模擬數據集和真實數據集上進行了模型檢驗，在自動評估和人工評估上都證實了其模型超出其他傳統端到端模型。

二、檢索式問答系統

1、Gated Self-Matching Networks for Reading Comprehension and Question Answering

檢索式問答系統試圖從文檔中獲取問題的答案。一般步驟是先從一眾文檔中檢索相關文檔，然後再進一步檢索出相關篇章。由北大和微軟合作發表的這篇文章重點解決後面一步，即閱讀理解式的問答系統。文章基於端到端的多層神經網絡模型從篇章中獲取答案。

模型分為四部分：一是使用多層雙向神經網絡編碼問題和篇章的語義向量表示；二是使用門注意力機制得到問題感知的篇章的語義向量表示；三是通過Self-Matching注意力機制提煉篇章的語義向量表示，從全部篇章中編碼最終語義向量表示；四是利用Pointer-network來預測答案邊界，從而得到最終答案。在Stanford發佈的機器閱讀理解比賽數據集SQuAD上，本文提出的模型的單模型和集成模型結果都分別排名第一。

2、Coarse-to-Fine Question Answering for Long Documents

大規模文檔中檢索答案在時間有效性上目前仍是一大挑戰，由華盛頓大學和谷歌等多家機構聯合發表的這篇文章中，針對大規模文檔檢索提出了一種高效檢索並保持甚至提高目前最先進模型性能的架構 - 模型分層對文檔檢索。首先使用快速模型從大規模文檔中選擇問題相關的少量句子：使用三種不同句子簡單表示方式處理大規模文檔，然後利用Hard或Soft注意力機制得到文檔的一個摘要表示，並使用三種不同方式選擇少量候選句子，然後才用相對慢速的端到端神經網絡模型從候選句子中產生最終結果。在WIKIREADING部分數據集上，實驗結果顯示此框架可以比基礎模型檢索速度高出3.5到6.7倍。

機器翻譯：Machine Translation

粗略統計，本屆ACL有27篇機器翻譯相關的論文（15篇長文+12篇短文）。我們總結了三大未來趨勢，重點關注其中三個較有代表性方向的相關研究工作。

趨勢一：神經網絡機器翻譯的進一步可視化，建立起神經網絡內部向量數字和自然語言結構的關聯，為神經網絡翻譯模型提供更有效的理解和調試工具。

趨勢二：神經網絡機器翻譯模型框架的優化。最近的工作表明遞歸神經網絡並不是神經網絡機器翻譯模型的惟一選擇，Facebook最近的工作使用CNN全面替代RNN，Google更進一步只用前向神經網絡+注意力機制，均取得了速度和翻譯效果上的進步。如果找到一種在效果和可解釋性上更優的模型框架，是未來的一個重要研究方向。

趨勢三：解決更通用的翻譯問題。雖然當前神經網絡機器翻譯方法和過去的統計機器翻譯方法差異很大，但很多翻譯問題是相通的，所以解決通用的翻譯問題也是未來的一個研究趨勢。比如如何在資源匱乏領域構建好的翻譯模型，如何進行篇章級翻譯，以及如何在當前詞級別的神經網絡翻譯模型中進行短語的翻譯？騰訊AI Lab最近接收的兩篇EMNLP 2017論文對後兩個問題進行了初步探索。

一、基於句法的翻譯模型

本次會議中，有關如何在神經網絡翻譯模型中引入句法信息的工作共有8篇，是本屆會議中機器翻譯領域的一個重要方向。受過去統計機器翻譯發展脈落（從基於字符串的翻譯模型到基於句法樹的翻譯模型）的啟發，來自不同單位的研究者探討了各種引入句法信息的方式，包括引入源端句法樹或目標端句法樹，使用成分句法樹或依存句法樹及至淺層組塊結構。

騰訊AI Lab研究員參與的兩個研究[1-2]分別探索了從源端和目標端引入句法信息的可能性。第一個工作通過使用一種簡單有效的方式將句法樹轉化為句法標籤序列，在不更改序列到序列模型框架的條件下將源端句法信息引入神經網絡翻譯系統中。第二個工作則是在解碼器端引入一個額外的組塊層，通過限定每個組塊短語中的所有詞共用一個組塊層狀態及源端上下文向量，不僅引入了目標端的句法信息，同時以一種比較巧妙的方式引入“短語”翻譯。

* [1] Modeling Source Syntax for Neural Machine Translation; [2]Chunk-Based Bi-Scale Decoder for Neural Machine Translation

二、神經網絡的理解和可視化

神經網絡機器翻譯模型自2014年被提出以來，一個主要問題是神經網絡結構及運行過程的不可解釋性，讓研究者無法根據翻譯出現的問題對網絡結構進行鍼對性改進設計，從而引發一個重要問題 - 當前神經網絡模型無法保證將源端語義內容無損傳遞至目標端，讓生成的譯文流暢度較好但忠實度不足，比如遺漏翻譯或過度翻譯錯誤。

本次會議有兩篇論文嘗試理解及可視化神經網絡模型，其中一篇ACL Outstanding Paper來自清華大學NLP組[1]，他們提出了一種新的可視化方法，通過計算神經網絡中任意兩個神經元之間的相關性，為分析、理解和調試神經網絡機器翻譯提供了可能性。

[1] Visualizing and Understanding Neural Machine Translation

另一篇論文[2]則通過外在詞性和形態標註任務來評判通過不同粒度方法訓練得到的詞語表示，分析神經網絡翻譯模型對詞語的理解能力。

[2]What do Neural Machine Translation Models Learn about Morphology?

三、神經網絡結構的改進

本次會議同樣有多篇工作嘗試對當前神經網絡結構進行改進，其中三篇工作比較有代表性：

1、A Convolutional Encoder Model for Neural Machine Translation

在編碼器端使用卷積神經網絡（CNN）代替主流的遞歸神經網絡（RNN），在效果相當的前提下速度提升近2倍。

2、Deep Neural Machine Translation with Linear Associative Unit

為當前主流的非線性Gating RNN（比如LSTM或GRU）提供了一種線性的可能替代（Linear Associative Unit），在深層神經網絡中取得了較好效果。

3、Neural Machine Translation via Binary Code Prediction

通過將時間消耗最大的詞彙表歸一化過程（Softmax）替換為高效的二進制預測（Binary Code Prediction）問題，可極大提高翻譯模型的訓練和解碼速度以及內存消耗。

信息抽取 Information Extraction

信息抽取主要是指從文本中自動抽取特定目標信息的技術。本次ACL大會有關信息抽取論文共計20多篇，涵蓋實體識別、事件抽取、關係抽取、三元組抽取等多個具體任務，其中模型大部分還是以神經網絡為主，但方法各有特點。我們從幾個領域裡分別選取了一篇代表性文章進行解讀：

1、Deep Pyramid Convolutional Neural Networks for Text Categorization

該篇論文由騰訊AI Lab和RJ Research Consulting合作完成，主要介紹了一種輕量級的詞級別深度卷積網絡。該模型能有效捕捉文本的全局語義信息，並能在神經網絡層數增加的前提下保證計算量不變。該模型在六個分本分類（主題分類和情感分類）的公開數據集中取得目前最優的結果。

2、Joint Extraction of Entities and Relations Based on a Novel Tagging Scheme

該論文是騰訊AI Lab研究員在中科院自動化所讀博期間發表的三元組抽取工作，入選ACL了2017 Outstanding Papers。該論文提出了一種新型的標記策略，通過設計特殊標籤可有效關聯詞語與三元組之間的關係。因此，基於此標記策略，成功地把三元組抽取問題轉換為序列標註問題，提出了一種端對端的序列標註模型用於三元組抽取。

3、Exploiting Argument Information to Improve Event Detection via Supervised Attention Mechanisms

該論文是騰訊AI Lab研究員在中科院自動化所讀博期間研究的事件抽取工作，提出了一種直接應用角色信息做事件識別的方法，基本思想是在事件識別過程中重點關注事件的角色詞。作者為此提出了一個基於神經網絡的事件識別模型，並通過有監督的關注機制實現上述目標。

4、A Local Detection Approach for Named Entity Recognition and Mention Detection

該論文針對命名實體識別任務提出了一種新穎的解決方式，併入選ACL 2017 Outstanding Papers。傳統的命名實體識別方法是將該任務轉換為一個序列標註的問題，本文不再從序列標註的角度出發，而是採用一種對輸入文本中的文本片段分類的方式識別實體。該論文通過固定窗口的方式獲得輸入文本中的各片段，然後利用片段的上下文背景信息及片段本身信息對片段進行實體分類。該方法在幾個公開的實體識別數據中獲得了最優結果。此外，相比於序列標註的方式，該方法可以有效解決重疊實體的問題。

關於騰訊 AI Lab NLP團隊

自然語言理解（Natural Language Processing，簡稱NLP）賦予計算機通過自然語言文本與外界交互的能力。NLP中心使命是追蹤和研究最前沿的自然語言文本理解和生成技術，並孵化下一代自然語言處理技術與商業應用場景。目前團隊有10位基礎研究科學家，其中大多擁有國內外知名院校的博士學位，在學界或工業界科研經歷豐富。同時在應用探索上，NLP中心與騰訊多個應用工程師團隊及國內外高校及實驗室緊密合作。

在前沿研究上，NLP中心正致力於打造一個文本理解引擎，實現基於語義分析、知識推理和統計機器學習相結合的深度文本理解。開放域人機對話是NLP領域目前最艱鉅的任務之一，NLP中心正在打造一個開放域人機對話引擎（Open-Domain Conversation Engine），通過深度理解自然語言提升回覆質量，並允許用戶定製不同性別和語言風格的聊天機器人。研究人員結合深度學習技術和NLP研究熱點，取得了諸多創造性的成果，研究成果被近期多個相關頂級會議和刊物錄用，包括ACL會議論文3篇，EMNLP會議論文7篇，及TASLP期刊論文1篇。

在應用探索上，NLP中心特別注重研究與具體產品間的交互。其文本理解、文本生成、對話和翻譯等技術應用到了公司諸多產品中，提升產品智能化以更好服務用戶。研究人員還積極從產品實際需求中發現新的NLP問題，為學術界提供更豐富的研究課題和場景。

本屆ACL騰訊AI Lab被收錄的三篇論文包括：

論文一：Modeling Source Syntax for Neural Machine Translation

論文二：Chunk-Based Bi-Scale Decoder for Neural Machine Translation

論文三：Deep Pyramid Convolutional Neural Networks for Text Categorization

一分鐘瞭解ACL 2017

ACL（國際計算機語言協會年會，Meeting of the Association for Computational Linguistics）是計算語言學裡最重要的國際會議，今年是第55屆，於7月30日到8月4日在加拿大溫哥華舉辦。會議涵蓋生物醫學、認知建模與心理語言學、交互式對話系統、機器翻譯等各個領域。

在評估會議的學術影響力指標上，本次會議均創新高 —— 論文有效提交數1318 篇，包括751 篇長文和 567 篇短文。錄取數為 195 篇長文（18%）、104 篇短文（25％）與22 篇傑出論文（ 1.6%）。而在新發布的2017谷歌學術指標中，ACL是計算機語言學和自然語言處理領域排名最高的國際學術年會。

整個會議期共 367 個報告，長文將展示 14 分鐘，短文 12 分鐘，密度為歷屆最高。並首次舉辦了關注女性研究群體的「WiNLP Workshop」，及可代為照顧兒童的「KiddleCorp」，方便已為人父母的研究者參會。

錄取論文涉及領域佔比最高的五類是：信息提取檢索與問答、文檔分析和自然語言處理應用（23.4%）、語義（12.1%）、機器翻譯（8.2%）、機器學習（7%）、生成與總結（6.5%）。而投稿熱度增長最快的領域為對話和交互系統（59.7%）、機器人視覺基礎（41.9% ）與機器學習（ 34.4%）。

騰訊AI Lab主任張潼介紹到，「ACL早期利用語法和規則分析自然語言，90年代後，隨著以LDC（Linguistic Data Consortium）為代表的自然語言數據集建立擴充，統計自然語言方法在計算語言學裡作用越來越大併成為主流。2000年後隨著互聯網高速發展及以自然語言為核心的人機交互方式興起，自然語言研究被賦予極高應用價值。」

騰訊AI Lab副主任俞棟認為，「自然語言的理解、表達、生成和轉換一直是自然語言處理的核心問題。近年來有很多新的解決思路和方法。今年的ACL涉及自然語言處理的各方面，尤其在語義解析、語義角色標註、基於語義和語法的自然語言生成、機器翻譯和問答系統方向上都有一些有趣的工作。」

點擊閱讀原文，查看騰訊 AI 實驗室原文報道。

點擊閱讀原文可查看職位詳情，期待你的加入~

騰訊AI Lab NLP 團隊首次曝光，張潼、俞棟帶隊解讀ACL三大前沿

相關推薦