阿里人工智能實驗室首席科學家王剛 ICCV 2017 收錄論文深度解讀

機器學習 人工智能 HTML CNN 新零售技術解讀 新零售技術解讀 2017-11-01

ICCV,被譽為計算機視覺領域三大頂級會議之一的、作為計算機視覺領域最高級別的會議之一,其論文集代表了計算機視覺領域最新的發展方向和水平。阿里巴巴在 ICCV 2017上有多篇論文入選。本文是阿里AI LAB 首席科學家王剛與南洋理工大學團隊合作的 ICCV 2017 論文《語言卷積神經網絡應用於圖像標題生成的經驗學習》《An Empirical Study of Language CNN for Image Captioning》解讀。

論文簡介:我們提出了基於卷積網絡CNN的語言模型,該CNN的輸入為之前時刻的所有單詞,進而可以抓住對生成描述很重要的歷史信息,用於指導當前時刻單詞的生成。目前,語音建模大多采用LSTM,雖然通過引入“門機制”獲得長距離依存性建模的能力。但是LSTM通過逐個單詞遞推的方式來對語音建模,無論序列長度如何,信息均通過固定長度的向量傳遞。在輸入很長序列,這種逐個遞推的方式型很難去學到合理的表達。因此,我們提出的模型貢獻在於通過CNN對歷史單詞進行建模,並結合簡單遞歸模型,解決了長文本層次結構和依存性建模的問題。MS COCO和Flickr 30K上,該模型性能顯著的超過了LSTM和GRU,並均取得了state-of-the-art效果。

圖像描述的發展

圖像描述自動生成是一個融合計算機視覺、自然語言處理和機器學習的綜合問題,它類似於翻譯一副圖片為一段描述文字。該任務不僅需要利用模型去理解圖片的內容並且還需要用自然語言去表達它們之間的關係。經過持續數十年計算機視覺、圖像識別、自然語言處理和機器學習等領域的發展, 讓我們有可能利用神經網絡完成突破性的工作。

例如, 近年來,ImageNet的興起,以及大規模圖像描述數據庫的出現(MS COCO, AI Challenger中文圖像), 讓研究者們有機會完成更多有實際價值的應用。舉個離實際應用比較近的例子, 通過攝像頭獲取圖像或視頻,結合圖像描述以(Image-to-Text)及語音生成技術(Text-to-Speech),視障人士可以獲得對眼前事物的準確描述。此外,還可能自動對數以千萬的未標註圖像生成描述以便分類檢索。

基於encoder-decoder結構的圖像描述存在不足

目前,主流的圖像描述模型都是基於encoder-decoder結構。其中,encoder為卷積神經網絡,同於圖像特徵抽取。decoder一般為遞歸神經網絡,用於語言模型建模。遞歸神經網絡雖然相對傳統方法效果顯著。但是,所有遞推網絡都避免不了一個潛在的問題,那就是當輸入序列很長時,歷史信息不可避免的會損失。也就是說,雖然門機制一定程度上解決了梯度消失的問題。但是,也帶來了缺點。尤其輸入序列很長時,由於門機制的存在,遞歸神經網絡難以保留全部的必要信息。

基於卷積網絡CNN的語言模型 超越目前所有方法

我們提出的基於卷積網絡CNN的語言模型則解決了傳統encode-decode結構在編解碼時都依賴於內部一個固定長度向量的限制。該模型主要由四部分組成:用於圖像特徵提取的CNN_I,用於自然語言建模的CNN_L,融合視覺和文本特徵的的多模態層 M,以及單詞預測的遞歸網絡。

描述生成過程過程如下:首先利用CNN提取圖像特徵,然後CNN_L對歷史預測的所有單詞進行建模,並得到整體表達。然後,通過多模態層對圖像和語音信息進行融合,並將融合的信息輸入遞歸網絡預測下一個單詞。

阿里人工智能實驗室首席科學家王剛 ICCV 2017 收錄論文深度解讀

和傳統遞歸神經網絡相比,我們的建立了一個輸入句子的層級表徵,這樣可以更好地提取長距離的依存性(long-term dependencies)。這種層次理解的思路和和語言學中語法形式體系中的樹結構分析很像。總的來說,我們的模型利用了language CNN天然的整體性理解能力,並結合遞歸網絡的串行理解能力。既獲得了長曆史信息建模(long-term)的能力,有不丟失時序建模(Short-Term)網絡來表達單詞信息,進而能夠很好的對歷史信息建模,用於當前單詞的預測。

阿里人工智能實驗室首席科學家王剛 ICCV 2017 收錄論文深度解讀

從我們在MS COCO的對比分析看出,我們的模型很明顯的超過了所有的遞推神經網絡,而且由於引入了language CNN,我們的網絡比LSTM網絡更容易訓練,在Flick30K上,我們超越了目前所有的方法.

阿里人工智能實驗室首席科學家王剛 ICCV 2017 收錄論文深度解讀

論文下載鏈接:

//openaccess.thecvf.com/content_iccv_2017/html/Gu_An_Empirical_Study_ICCV_2017_paper.html

相關推薦

推薦中...