DeepMind兩篇新論文研究用神經網絡做關係推理

機器學習人工智能深度學習物理量子位 2017-06-07

陳樺編譯自 DeepMind官方博客

作者 Adam Santoro, David Raposo, Nick Watters

量子位報道 | 公眾號 QbitAI

關係推理是什麼？DeepMind舉了這麼幾個例子：

阿加莎·克里斯蒂小說的讀者一點點地拼湊證據猜測犯人；小朋友追到球的前邊防止它滾進河裡；在市場上買東西的人做各方面的比較，挑選獼猴桃或者芒果。

最近，這家公司發表了兩篇論文，探討了神經網絡如何用非結構化數據進行復雜關係推理，並在官方博客上對這個研究課題和兩篇論文進行了介紹。

以下是DeepMind官方博客上的文章，量子位編譯：

我們會將世界分割成事物之間的關係。通過對不同事物，例如實體對象、語句，甚至抽象概念之間的關係得出邏輯結論，我們就可以理解世界的運轉方式。這種能力被稱作關係推理，是人類智慧的核心。

通過每天獲得的非結構化感官信息，我們建立起這樣的關係。例如，我們的眼睛接受了大量光子，而大腦則將這些混亂的信息組成為我們需要關聯在一起的特定實體。

如果希望人工智能系統具備類似人類認知能力的靈活性和效率，那麼關鍵挑戰在於，從非結構化數據中推斷出實體及其之間的關係。這個問題的解決將使系統可以生成新的實體組合，基於有限的方法獲得無限的用途。

當代深度學習方法已經在處理非結構化數據方面取得了巨大進展。然而，這些方法往往沒有明確考慮對象之間的關係。

在兩篇新論文中，DeepMind探討了深度神經網絡利用非結構化數據進行復雜關係推理的能力。在第一篇論文，《用於簡單關係推理的神經網絡模塊》中，我們描述了一種關係網絡（RN），並證明其可以在具有挑戰性的任務中實現超人的水平。在第二篇論文，《視覺交互網絡》中，我們描述了一種通用模型，可基於視覺觀察來預測實體對象的未來狀態。

用於簡單關係推理的神經網絡模塊

為了更深入地探索關係推理的概念，並測試能否以簡單的方式將其集成至現有系統中，我們創建了一個簡單的、即插即用的RN模塊，並將其添加到現有神經網絡體系結構中。一個經過RN增強的網絡可以接受非結構化的數據輸入，例如圖片或語句，並推斷其中所包含對象的關係。

例如，一個帶RN的網絡可能會看到包含不同形狀的場景，例如球體和立方體。為了研究它們之間的關係（例如球體比立方體更大），網絡必須從圖像中獲取非結構化的像素流，並指出在場景中哪些像素構成了對象。神經網絡並沒有被告知對象的定義，必須自己得出結論。隨後，這些對象的展示經過了分組（例如球體和立方體），並由RN模塊進行處理。RN模塊比較這些對象，建立“關係”（例如球體比立方體更大）。這些關係並不是硬編碼的，必須由RN來學習，RN對所有可能的配對進行了比較。最終，RN將這些關係綜合在一起，為場景中的所有圖形對生成輸出。

我們在幾種任務中測試了這個模型，包括CLEVR，一個視覺問答任務。CLEVR設計用於研究模型完成不同類型推理，例如計數、比較和查詢的能力。CLEVR由以下這樣的圖片構成：

DeepMind兩篇新論文研究用神經網絡做關係推理

每張圖片都有其關聯的問題，專注於場景中對象的關係。例如，關於上圖的問題或許是：“這裡有個小橡膠品，和大圓柱體的顏色一樣，它是什麼形狀？”

基於標準視覺問答架構，CLEVR取得的最佳成績是正確率68.5%，而人類的成績為92.5%。然而，通過由RN增強的網絡，我們取得了超人的水平：95.5%。

為了檢查RN的普適性，我們還在不同的語言任務中測試了RN。具體來說，我們使用了bAbI套件，即一系列基於文字的問答任務。bAbI由許多故事組成，這些故事包含許多不同語句，最後引出一個問題。例如，句子可能是“桑德拉拿起足球”和“桑德拉去辦公室”，問題可能是“足球在哪裡？”答案當然是：辦公室。

在20個bAbI任務中的18箇中，經過RN增強的網絡得分超過95%，類似於當前最強大的模型。值得注意的是，在某些特定任務，例如歸納方面，這種網絡的得分更高。而這是那些成熟模型所無法做到的。

完整的測試結果和更多信息可以參閱這篇論文。

視覺交互網絡

關係推理的另一個關鍵部分涉及到在現實場景中預測未來。簡單來說，人類不僅可以推斷出對象在哪裡，還能判斷接下來幾秒鐘、幾分鐘、甚至更長時間裡會發生什麼。舉個例子，如果你對著牆踢足球，那麼大腦會預測，當球撞到牆之後，將會有什麼樣的運動方式（球的反彈速度和你踢的力度成正比，而在大部分情況下，牆都會紋絲不動）。

這樣的預測由複雜的認知系統來指導，可以實現對象及其互動過程的推理。

在這方面，我們開發了視覺交互網絡（VIN），這種模型模仿了人類的這一能力。VIN能從幾幀視頻中推斷出多個實體對象的狀態，隨後預測這些對象接下來的變化。這與生成模型不同，後者可以直觀地“想象”視頻接下來的幾幀。相反，VIN關於對象的預測基於狀態如何演化。

DeepMind兩篇新論文研究用神經網絡做關係推理