DeepMind兩篇新論文研究用神經網絡做關係推理

陳樺 編譯自 DeepMind官方博客

作者 Adam Santoro, David Raposo, Nick Watters

量子位 報道 | 公眾號 QbitAI

DeepMind兩篇新論文研究用神經網絡做關係推理

關係推理是什麼?DeepMind舉了這麼幾個例子:

阿加莎·克里斯蒂小說的讀者一點點地拼湊證據猜測犯人;小朋友追到球的前邊防止它滾進河裡;在市場上買東西的人做各方面的比較,挑選獼猴桃或者芒果。

最近,這家公司發表了兩篇論文,探討了神經網絡如何用非結構化數據進行復雜關係推理,並在官方博客上對這個研究課題和兩篇論文進行了介紹。

以下是DeepMind官方博客上的文章,量子位編譯:

我們會將世界分割成事物之間的關係。通過對不同事物,例如實體對象、語句,甚至抽象概念之間的關係得出邏輯結論,我們就可以理解世界的運轉方式。這種能力被稱作關係推理,是人類智慧的核心。

通過每天獲得的非結構化感官信息,我們建立起這樣的關係。例如,我們的眼睛接受了大量光子,而大腦則將這些混亂的信息組成為我們需要關聯在一起的特定實體。

如果希望人工智能系統具備類似人類認知能力的靈活性和效率,那麼關鍵挑戰在於,從非結構化數據中推斷出實體及其之間的關係。這個問題的解決將使系統可以生成新的實體組合,基於有限的方法獲得無限的用途。

當代深度學習方法已經在處理非結構化數據方面取得了巨大進展。然而,這些方法往往沒有明確考慮對象之間的關係。

在兩篇新論文中,DeepMind探討了深度神經網絡利用非結構化數據進行復雜關係推理的能力。在第一篇論文,《用於簡單關係推理的神經網絡模塊》中,我們描述了一種關係網絡(RN),並證明其可以在具有挑戰性的任務中實現超人的水平。在第二篇論文,《視覺交互網絡》中,我們描述了一種通用模型,可基於視覺觀察來預測實體對象的未來狀態。

用於簡單關係推理的神經網絡模塊

為了更深入地探索關係推理的概念,並測試能否以簡單的方式將其集成至現有系統中,我們創建了一個簡單的、即插即用的RN模塊,並將其添加到現有神經網絡體系結構中。一個經過RN增強的網絡可以接受非結構化的數據輸入,例如圖片或語句,並推斷其中所包含對象的關係。

例如,一個帶RN的網絡可能會看到包含不同形狀的場景,例如球體和立方體。為了研究它們之間的關係(例如球體比立方體更大),網絡必須從圖像中獲取非結構化的像素流,並指出在場景中哪些像素構成了對象。神經網絡並沒有被告知對象的定義,必須自己得出結論。隨後,這些對象的展示經過了分組(例如球體和立方體),並由RN模塊進行處理。RN模塊比較這些對象,建立“關係”(例如球體比立方體更大)。這些關係並不是硬編碼的,必須由RN來學習,RN對所有可能的配對進行了比較。最終,RN將這些關係綜合在一起,為場景中的所有圖形對生成輸出。

我們在幾種任務中測試了這個模型,包括CLEVR,一個視覺問答任務。CLEVR設計用於研究模型完成不同類型推理,例如計數、比較和查詢的能力。CLEVR由以下這樣的圖片構成:

DeepMind兩篇新論文研究用神經網絡做關係推理

每張圖片都有其關聯的問題,專注於場景中對象的關係。例如,關於上圖的問題或許是:“這裡有個小橡膠品,和大圓柱體的顏色一樣,它是什麼形狀?”

基於標準視覺問答架構,CLEVR取得的最佳成績是正確率68.5%,而人類的成績為92.5%。然而,通過由RN增強的網絡,我們取得了超人的水平:95.5%。

為了檢查RN的普適性,我們還在不同的語言任務中測試了RN。具體來說,我們使用了bAbI套件,即一系列基於文字的問答任務。bAbI由許多故事組成,這些故事包含許多不同語句,最後引出一個問題。例如,句子可能是“桑德拉拿起足球”和“桑德拉去辦公室”,問題可能是“足球在哪裡?”答案當然是:辦公室。

在20個bAbI任務中的18箇中,經過RN增強的網絡得分超過95%,類似於當前最強大的模型。值得注意的是,在某些特定任務,例如歸納方面,這種網絡的得分更高。而這是那些成熟模型所無法做到的。

完整的測試結果和更多信息可以參閱這篇論文。

視覺交互網絡

關係推理的另一個關鍵部分涉及到在現實場景中預測未來。簡單來說,人類不僅可以推斷出對象在哪裡,還能判斷接下來幾秒鐘、幾分鐘、甚至更長時間裡會發生什麼。舉個例子,如果你對著牆踢足球,那麼大腦會預測,當球撞到牆之後,將會有什麼樣的運動方式(球的反彈速度和你踢的力度成正比,而在大部分情況下,牆都會紋絲不動)。

這樣的預測由複雜的認知系統來指導,可以實現對象及其互動過程的推理。

在這方面,我們開發了視覺交互網絡(VIN),這種模型模仿了人類的這一能力。VIN能從幾幀視頻中推斷出多個實體對象的狀態,隨後預測這些對象接下來的變化。這與生成模型不同,後者可以直觀地“想象”視頻接下來的幾幀。相反,VIN關於對象的預測基於狀態如何演化。

DeepMind兩篇新論文研究用神經網絡做關係推理

VIN包含兩種機制:視覺模塊和物理推理模塊。它們可以將可視場景處理為一系列離散的對象,並學習其中的物理規則系統,從而預測這些對象未來會發生什麼。

我們測試了VIN在各種系統上的能力,包括球的彈跳、連接至彈簧的重物,以及存在重力作用的行星系統。結果表明,VIN能準確預測,未來數百步之後對象將會發生什麼。

與此前公開發表的模型,以及關係推理機制被移除的VIN相比,可以看到完整的VIN有明顯更好的表現。

這兩篇論文都展示了有前景的方式,來理解關係推理的挑戰。它們展示了神經網絡如何將世界分解成對象,判斷其關係,從而獲得強大的推理能力。這使得神經網絡可以生成新的對象組合,對錶面上看起來不同,但實際有著潛在共同關係的場景進行推理。

我們認為,這些方法是可擴展的,可應用於更多任務,有助於建立更復雜的推理模型,使我們更好地理解通用人類智力的關鍵組成部分,儘管我們認為這些能力是理所當然的。

相關鏈接

DeepMind博客原文:

https://deepmind.com/blog/neural-approach-relational-reasoning/

用於簡單關係推理的神經網絡模塊:

https://arxiv.org/abs/1706.01427

視覺交互網絡:

https://arxiv.org/abs/1706.01433

CLEVR:

http://cs.stanford.edu/people/jcjohns/clevr/

bAbl:

https://research.fb.com/downloads/babi/

【完】

招聘

量子位正在招募編輯記者、運營、產品等崗位,工作地點在北京中關村。相關細節,請在公眾號對話界面,回覆:“招聘”。

One More Thing…

今天AI界還有哪些事值得關注?在量子位(QbitAI)公眾號對話界面回覆“今天”,看我們全網蒐羅的AI行業和研究動態。筆芯~

相關推薦

推薦中...