'CVPR 2019 最佳學生論文官方解讀'

"

雷鋒網 AI 科技評論按:作為人類感知世界、進行交互的兩大最重要的方式,視覺和語言一直是人工智能領域研究的重點。近年來,將視覺與語言信息進行融合和轉化成為了一個活躍的研究方向,許多讓人眼前一亮的工作也隨之產生。微軟研究院在文本中,對其獲得 CVPR 2019 最佳學生論文的工作進行了技術解析,非常值得一讀!

人類如何進行高效的溝通呢?人們普遍認為,人類用來交流的詞語(例如「狗」)會引發對物理概念的相似理解。實際上,我們對於狗的物理外形、發出的聲音、行走或奔跑的方式等都有共同的概念。換句話說,自然語言與人類與他們所處的環境之間的交互方式息息相關。因此,通過將自然語言基標對準到我們所處環境的各種模態中(例如圖像、動作、物體、聲音等),可以產生有意義的行為。心理學領域最新的研究成果表明,嬰兒最可能學會的第一個單詞是基於其視覺體驗的,這為嬰兒語言學習問題的新理論奠定了基礎。那麼現在問題來了:我們是否能夠構建出可以像人類一樣,學著在不同模態下進行溝通的智能體?

在各種多模態學習任務中,視覺-語言導航(VLN)是一類十分有趣也極具挑戰性的任務。這是因為,為了能夠以遵循自然語言指令的方式對真實環境中的智能體進行導航,我們需要執行兩層基標對準:將指令基標對準到局部空間視覺場景中,然後將指令與全局時序視覺軌跡相匹配。最近,深度神經網絡領域的工作重點關注於通過在視覺上基標對準語言學習任務,來連通視覺和自然語言理解的橋樑,從而構建智能體,這要求研究人員具備機器學習、計算機視覺、自然語言處理以及其它領域的專業知識。

對於這種基標對準任務而言,深度學習技術非常具有使用前景,這是因為使用深度學習技術能夠使得同時從計算機視覺和語言的低級感知數據中學習到高級語義特徵成為可能。此外,深度學習模型也使我們可以將不同模態的信息融合到同一種表徵中。基礎語言學習任務還要求與某個外部環境進行交互;因此,強化學習為我們提供了一種優雅的框架,能夠基於視覺層面來完成對話任務規劃。所有這些研究進展使得解決具有挑戰性的 VLN 任務在技術上可行。

"

雷鋒網 AI 科技評論按:作為人類感知世界、進行交互的兩大最重要的方式,視覺和語言一直是人工智能領域研究的重點。近年來,將視覺與語言信息進行融合和轉化成為了一個活躍的研究方向,許多讓人眼前一亮的工作也隨之產生。微軟研究院在文本中,對其獲得 CVPR 2019 最佳學生論文的工作進行了技術解析,非常值得一讀!

人類如何進行高效的溝通呢?人們普遍認為,人類用來交流的詞語(例如「狗」)會引發對物理概念的相似理解。實際上,我們對於狗的物理外形、發出的聲音、行走或奔跑的方式等都有共同的概念。換句話說,自然語言與人類與他們所處的環境之間的交互方式息息相關。因此,通過將自然語言基標對準到我們所處環境的各種模態中(例如圖像、動作、物體、聲音等),可以產生有意義的行為。心理學領域最新的研究成果表明,嬰兒最可能學會的第一個單詞是基於其視覺體驗的,這為嬰兒語言學習問題的新理論奠定了基礎。那麼現在問題來了:我們是否能夠構建出可以像人類一樣,學著在不同模態下進行溝通的智能體?

在各種多模態學習任務中,視覺-語言導航(VLN)是一類十分有趣也極具挑戰性的任務。這是因為,為了能夠以遵循自然語言指令的方式對真實環境中的智能體進行導航,我們需要執行兩層基標對準:將指令基標對準到局部空間視覺場景中,然後將指令與全局時序視覺軌跡相匹配。最近,深度神經網絡領域的工作重點關注於通過在視覺上基標對準語言學習任務,來連通視覺和自然語言理解的橋樑,從而構建智能體,這要求研究人員具備機器學習、計算機視覺、自然語言處理以及其它領域的專業知識。

對於這種基標對準任務而言,深度學習技術非常具有使用前景,這是因為使用深度學習技術能夠使得同時從計算機視覺和語言的低級感知數據中學習到高級語義特徵成為可能。此外,深度學習模型也使我們可以將不同模態的信息融合到同一種表徵中。基礎語言學習任務還要求與某個外部環境進行交互;因此,強化學習為我們提供了一種優雅的框架,能夠基於視覺層面來完成對話任務規劃。所有這些研究進展使得解決具有挑戰性的 VLN 任務在技術上可行。

CVPR 2019 最佳學生論文官方解讀

圖 1:視覺語言導航(VLN)任務示意圖。圖中展示了指令、局部視覺場景,以及從俯視視角描繪的全局軌跡。智能體並不能獲取俯視圖信息。路徑 A 是遵循指令得到的正確演示路徑。路徑 B 和 C 代表智能體執行出的兩條路徑。

微軟研究院的視覺和語言研究人員一直致力於研究對自然語言和視覺交互進行基標對準的各種不同的方法,並一直在應對 VLN 所特有的挑戰。 CVPR 2019 中,由微軟 AI 研究院的 Qiuyuan Huang、Asli Celikyilmaz、Lei Zhang、Jianfeng Gao,加州大學聖巴巴拉分校的王鑫、Yuan-Feng Wang、王威廉,以及杜克大學的 Dinghan Shen 共同完成的工作「Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vision-Language Navigation」獲得了最佳學生論文,微軟的 VLN 研究團隊在本論文中探索了解決 VLN 領域這三個關鍵挑戰的方案:跨模態基標對準(cross-modal grounding)、不適定反饋(ill-posed feedback)以及泛化(generalization)問題。不僅如此,這項工作所取得的好結果非常激動人心!

  • 論文查看地址:https://www.microsoft.com/en-us/research/publication/reinforced-cross-modal-matching-and-self-supervised-imitation-learning-forvision-language-navigation/

其中的一個挑戰是,根據視覺圖像和自然語言指令進行推理。如圖 1 所示,為了到達目的地(用黃色圓圈高亮表示),智能體需要將用單詞序列表徵的指令對標到局部的視覺場景中,並且將指令與全局時序空間中的視覺軌跡匹配起來。為了解決這個問題,我們提出了一種新的強化跨模態匹配(RCM)方法,它可以通過強化學習在局部和全局進行跨模態基礎標對。

如圖 2a 所示,我們的研究團隊設計了一個帶有兩種獎勵函數的推理導航器。外部獎勵會指導智能體學習文本指令和局部視覺場景之間的跨模態基礎對標,從而使智能體可以推測出要關注的子指令以及相應的視覺內容。同時,從全局的角度來看,內部獎勵和匹配評價器一起,通過根據執行的路徑重建原始指令的概率來評估一個執行路徑,我們將其稱為「循環重建」獎勵。

"

雷鋒網 AI 科技評論按:作為人類感知世界、進行交互的兩大最重要的方式,視覺和語言一直是人工智能領域研究的重點。近年來,將視覺與語言信息進行融合和轉化成為了一個活躍的研究方向,許多讓人眼前一亮的工作也隨之產生。微軟研究院在文本中,對其獲得 CVPR 2019 最佳學生論文的工作進行了技術解析,非常值得一讀!

人類如何進行高效的溝通呢?人們普遍認為,人類用來交流的詞語(例如「狗」)會引發對物理概念的相似理解。實際上,我們對於狗的物理外形、發出的聲音、行走或奔跑的方式等都有共同的概念。換句話說,自然語言與人類與他們所處的環境之間的交互方式息息相關。因此,通過將自然語言基標對準到我們所處環境的各種模態中(例如圖像、動作、物體、聲音等),可以產生有意義的行為。心理學領域最新的研究成果表明,嬰兒最可能學會的第一個單詞是基於其視覺體驗的,這為嬰兒語言學習問題的新理論奠定了基礎。那麼現在問題來了:我們是否能夠構建出可以像人類一樣,學著在不同模態下進行溝通的智能體?

在各種多模態學習任務中,視覺-語言導航(VLN)是一類十分有趣也極具挑戰性的任務。這是因為,為了能夠以遵循自然語言指令的方式對真實環境中的智能體進行導航,我們需要執行兩層基標對準:將指令基標對準到局部空間視覺場景中,然後將指令與全局時序視覺軌跡相匹配。最近,深度神經網絡領域的工作重點關注於通過在視覺上基標對準語言學習任務,來連通視覺和自然語言理解的橋樑,從而構建智能體,這要求研究人員具備機器學習、計算機視覺、自然語言處理以及其它領域的專業知識。

對於這種基標對準任務而言,深度學習技術非常具有使用前景,這是因為使用深度學習技術能夠使得同時從計算機視覺和語言的低級感知數據中學習到高級語義特徵成為可能。此外,深度學習模型也使我們可以將不同模態的信息融合到同一種表徵中。基礎語言學習任務還要求與某個外部環境進行交互;因此,強化學習為我們提供了一種優雅的框架,能夠基於視覺層面來完成對話任務規劃。所有這些研究進展使得解決具有挑戰性的 VLN 任務在技術上可行。

CVPR 2019 最佳學生論文官方解讀

圖 1:視覺語言導航(VLN)任務示意圖。圖中展示了指令、局部視覺場景,以及從俯視視角描繪的全局軌跡。智能體並不能獲取俯視圖信息。路徑 A 是遵循指令得到的正確演示路徑。路徑 B 和 C 代表智能體執行出的兩條路徑。

微軟研究院的視覺和語言研究人員一直致力於研究對自然語言和視覺交互進行基標對準的各種不同的方法,並一直在應對 VLN 所特有的挑戰。 CVPR 2019 中,由微軟 AI 研究院的 Qiuyuan Huang、Asli Celikyilmaz、Lei Zhang、Jianfeng Gao,加州大學聖巴巴拉分校的王鑫、Yuan-Feng Wang、王威廉,以及杜克大學的 Dinghan Shen 共同完成的工作「Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vision-Language Navigation」獲得了最佳學生論文,微軟的 VLN 研究團隊在本論文中探索了解決 VLN 領域這三個關鍵挑戰的方案:跨模態基標對準(cross-modal grounding)、不適定反饋(ill-posed feedback)以及泛化(generalization)問題。不僅如此,這項工作所取得的好結果非常激動人心!

  • 論文查看地址:https://www.microsoft.com/en-us/research/publication/reinforced-cross-modal-matching-and-self-supervised-imitation-learning-forvision-language-navigation/

其中的一個挑戰是,根據視覺圖像和自然語言指令進行推理。如圖 1 所示,為了到達目的地(用黃色圓圈高亮表示),智能體需要將用單詞序列表徵的指令對標到局部的視覺場景中,並且將指令與全局時序空間中的視覺軌跡匹配起來。為了解決這個問題,我們提出了一種新的強化跨模態匹配(RCM)方法,它可以通過強化學習在局部和全局進行跨模態基礎標對。

如圖 2a 所示,我們的研究團隊設計了一個帶有兩種獎勵函數的推理導航器。外部獎勵會指導智能體學習文本指令和局部視覺場景之間的跨模態基礎對標,從而使智能體可以推測出要關注的子指令以及相應的視覺內容。同時,從全局的角度來看,內部獎勵和匹配評價器一起,通過根據執行的路徑重建原始指令的概率來評估一個執行路徑,我們將其稱為「循環重建」獎勵。

CVPR 2019 最佳學生論文官方解讀

圖 2:用於將自然語言指令與視覺環境對標的強化跨模態匹配框架。

該內部獎勵對於這種 VLN 任務尤為重要;如何訓練這些智能體,以及從它們的環境中獲取反饋是VLN 研究人員面臨的重大挑戰。在訓練時,學習遵循專家演示需要頻繁的反饋,從而使智能體可以保持在正確的軌跡上,並且按時到達目的地。然而,在 VLN 任務中,反饋是非常粗糙的,因為只有當智能體到達了某個目標位置後才會提供「成功」的反饋,完全沒有考慮智能體是否遵循了指令(如圖 1 中的路徑 A 所示),或者是按照隨機的路徑到達了目的地(如圖 1 中路徑 C 所示)。如果智能體稍微比預計時間停止得早了一些(如圖 1 中的路徑 B 所示),即使與指令相匹配的「好」軌跡也可能被認為是「不成功」的。這樣的話,不適定反饋可能會與最優策略學習的結果不符。

如圖 2a 和 2b 所示,我們提出通過局部測量一個循環重建獎勵來評價智能體遵循指令的能力;這種機制能夠提供一種細粒度的內部獎勵信號,促使智能體更好地理解語言輸入,並且懲罰與指令不匹配的軌跡。舉例而言,如圖 1 所示,使用我們提出的獎勵,路徑 B 就會被認為優於路徑 C。

使用匹配評價器提供的內部獎勵以及環境提供外部獎勵進行訓練,我們的推理導航器會學著將自然語言指令同時在局部空間視覺場景和全局時序視覺軌跡進行基標對準。在一個 VLN 對比基準數據集上的評估結果顯示,我們的 RCM 模型在 SPL(通過逆路徑長度加權的成功率)指標上顯著優於之前的方法,提升高達 10%,實現了目前最佳的模型性能。

當處於訓練時未曾見過的環境中時,VLN 智能體的性能會顯著降低。為了縮小這種差距,我們提出了一種通過自監督學習探索未見過的環境的有效解決方案。通過這種新技術,我們可以促進終身學習以及對新環境的適應。例如,家用機器人可以探索一個新的房子,然後通過學習之前的經驗迭代式地改進導航策略。受到這一事實的啟發,我們引入了一種自監督模仿學習機制(SIL)來支持智能體對未見過的環境(沒有帶標籤的數據)進行探索。其中,智能體會學習自己過去積極的經驗。

具體而言,在我們的框架中,導航器將執行多次「roll-out」策略,其中好的軌跡(由匹配評價器確定)將會被保存在經驗回放緩存中,然後被導航器用於模仿。通過這種方式,當行器可以對其最佳行為進行近似,從而得到更好地策略。我們能夠證明 SIL 可以近似得到一個更好、更高效的策略,這極大地縮小了訓練時見過和未曾見過的環境之間的成功率的性能差異(從 30.7% 降低到 11.7%)。

非常榮幸,這篇論文被選為了 CVPR 2019 的最佳學生論文。用 CVPR 2019 最佳論文獎組委會的話來說,就是「視覺導航是計算機視覺的一個重要領域,而這篇論文在視覺-語言導航方面取得了進展。在該領域之前工作的基礎上,該論文在跨模態環境下基於自模仿學習所取得的成果令人激動!」熱烈祝賀這篇論的作者們:來自加州大學聖巴巴拉分校的王鑫、Yuan-Fang Wang、王威廉,來自微軟 AI 研究院的 Qiuyuan Huang、Asli Celikyilmaz、Lei Zhang、Jianfeng Gao, 以及來自杜克大學的 Dinghan Shen。其中,王鑫對這一工作所做的貢獻是其在微軟研究院實習期間完成的。

在另外一篇 CVPR 2019 論文「Tactical Rewind: Self-Correction via Backtracking in Vision-and-Language Navigation」(由微軟 AI 研究院的 Xiujun Li 和 Jianfeng Gao,華盛頓大學的 Liyiming Ke、Yonatan Bisk、Ari Holtzman、Yejin Choi、Siddhartha Srinivasa,以及微軟 Dynamics AI 的 Zhe Gan 和 Jingjing Liu 共同完成)中,我們改進了 VLN 智能體的搜索方法,提出了一個被稱為「快速導航器」(Fast Navigator)的動作編碼的通用框架,使智能體能夠基於局部和全局的信息比較長度不同的部分路徑,並且在出錯時進行回溯。

  • 論文查看地址:https://www.microsoft.com/en-us/research/publication/tactical-rewind-self-correction-via-backtracking-in-vision-and-language-navigation/

我們注意到,VLN 與文本生成任務有一些相似之處,所有現有的工作可以被分為兩類:

  • 貪婪搜索(Greedy search)——在每個時間步做出決策時,智能體僅僅考慮局部信息,其中所有的智能體都存在「exposure bias」的現象,這是序列生成任務中的一類典型問題;

  • 集束搜索(Beam search)是另一個極端。智能體會使用「roll-out」策略生成多條軌跡,然後選擇最好的那一條。儘管這種方法提升了成功率,但是其計算成本與軌跡數成正比,並且這種成本可能十分巨大。不可能會有人部署一個在執行每次命令前都要在房子裡重複進行 100 次導航(即使它最終到達了正確的位置)的家用機器人吧!

總的來說,當前的 VLN 模型面臨著兩大核心問題:首先,我們應該回溯嗎?如果我們應該回溯,那麼我們應該回溯到哪一步呢?其次,我們應該在何時停止搜索?

為了使智能體能夠在出錯時進行回溯,我們將搜索與神經編碼結合了起來,從而使得智能體可以基於局部和全局信息比較長度不同的部分路徑,然後在發現錯誤時進行回溯。為了確定我們是否應該停止搜索,我們使用了一個融合函數,該函數會將局部動作知識和歷史轉化為一個進度的估計值,從而通過對我們之前的動作與給定的文本指令的匹配程度建模來評估智能體的進度。

via https://www.microsoft.com/en-us/research/blog/see-what-we-mean-visually-grounded-natural-language-navigation-is-going-places/雷鋒網 雷鋒網

"

相關推薦

推薦中...