阿里人工智能實驗室首席科學家王剛 ICCV 2017 收錄論文深度解讀

機器學習人工智能 HTML CNN 新零售技術解讀新零售技術解讀 2017-11-01

ICCV，被譽為計算機視覺領域三大頂級會議之一的、作為計算機視覺領域最高級別的會議之一，其論文集代表了計算機視覺領域最新的發展方向和水平。阿里巴巴在 ICCV 2017上有多篇論文入選。本文是阿里AI LAB 首席科學家王剛與南洋理工大學團隊合作的 ICCV 2017 論文《語言卷積神經網絡應用於圖像標題生成的經驗學習》《An Empirical Study of Language CNN for Image Captioning》解讀。

論文簡介：我們提出了基於卷積網絡CNN的語言模型，該CNN的輸入為之前時刻的所有單詞，進而可以抓住對生成描述很重要的歷史信息，用於指導當前時刻單詞的生成。目前，語音建模大多采用LSTM，雖然通過引入“門機制”獲得長距離依存性建模的能力。但是LSTM通過逐個單詞遞推的方式來對語音建模，無論序列長度如何，信息均通過固定長度的向量傳遞。在輸入很長序列，這種逐個遞推的方式型很難去學到合理的表達。因此，我們提出的模型貢獻在於通過CNN對歷史單詞進行建模，並結合簡單遞歸模型，解決了長文本層次結構和依存性建模的問題。MS COCO和Flickr 30K上，該模型性能顯著的超過了LSTM和GRU，並均取得了state-of-the-art效果。

圖像描述的發展

圖像描述自動生成是一個融合計算機視覺、自然語言處理和機器學習的綜合問題，它類似於翻譯一副圖片為一段描述文字。該任務不僅需要利用模型去理解圖片的內容並且還需要用自然語言去表達它們之間的關係。經過持續數十年計算機視覺、圖像識別、自然語言處理和機器學習等領域的發展, 讓我們有可能利用神經網絡完成突破性的工作。

例如, 近年來，ImageNet的興起,以及大規模圖像描述數據庫的出現(MS COCO, AI Challenger中文圖像), 讓研究者們有機會完成更多有實際價值的應用。舉個離實際應用比較近的例子, 通過攝像頭獲取圖像或視頻，結合圖像描述以(Image-to-Text)及語音生成技術(Text-to-Speech)，視障人士可以獲得對眼前事物的準確描述。此外，還可能自動對數以千萬的未標註圖像生成描述以便分類檢索。

基於encoder-decoder結構的圖像描述存在不足

目前，主流的圖像描述模型都是基於encoder-decoder結構。其中，encoder為卷積神經網絡，同於圖像特徵抽取。decoder一般為遞歸神經網絡，用於語言模型建模。遞歸神經網絡雖然相對傳統方法效果顯著。但是，所有遞推網絡都避免不了一個潛在的問題，那就是當輸入序列很長時，歷史信息不可避免的會損失。也就是說，雖然門機制一定程度上解決了梯度消失的問題。但是，也帶來了缺點。尤其輸入序列很長時，由於門機制的存在，遞歸神經網絡難以保留全部的必要信息。

基於卷積網絡CNN的語言模型 超越目前所有方法

我們提出的基於卷積網絡CNN的語言模型則解決了傳統encode-decode結構在編解碼時都依賴於內部一個固定長度向量的限制。該模型主要由四部分組成：用於圖像特徵提取的CNN_I，用於自然語言建模的CNN_L，融合視覺和文本特徵的的多模態層 M，以及單詞預測的遞歸網絡。

描述生成過程過程如下：首先利用CNN提取圖像特徵，然後CNN_L對歷史預測的所有單詞進行建模，並得到整體表達。然後，通過多模態層對圖像和語音信息進行融合，並將融合的信息輸入遞歸網絡預測下一個單詞。

阿里人工智能實驗室首席科學家王剛 ICCV 2017 收錄論文深度解讀

和傳統遞歸神經網絡相比，我們的建立了一個輸入句子的層級表徵，這樣可以更好地提取長距離的依存性（long-term dependencies）。這種層次理解的思路和和語言學中語法形式體系中的樹結構分析很像。總的來說，我們的模型利用了language CNN天然的整體性理解能力，並結合遞歸網絡的串行理解能力。既獲得了長曆史信息建模（long-term）的能力，有不丟失時序建模（Short-Term）網絡來表達單詞信息，進而能夠很好的對歷史信息建模，用於當前單詞的預測。

阿里人工智能實驗室首席科學家王剛 ICCV 2017 收錄論文深度解讀

從我們在MS COCO的對比分析看出,我們的模型很明顯的超過了所有的遞推神經網絡,而且由於引入了language CNN,我們的網絡比LSTM網絡更容易訓練,在Flick30K上,我們超越了目前所有的方法.

阿里人工智能實驗室首席科學家王剛 ICCV 2017 收錄論文深度解讀

論文下載鏈接：

//openaccess.thecvf.com/content_iccv_2017/html/Gu_An_Empirical_Study_ICCV_2017_paper.html

相關推薦

'2019年人工智能大會“雙馬交流”淺談，阿里老大其實是個夢想家'

"2019年人工智能大會於近期完美落幕！沒有驚喜、沒有意外，也沒有類似百度“宏顏獲水”這樣的意外情況發生...值得被人稱道的就是這次大會上馬雲與馬斯克兩位創業大佬的”有意思“的交流！這次交流被外國網友們稱之為：外星人VS鋼鐵俠的談話...作為學習python 七年的過來人，...

2019世界人工智能大會馬雲伊隆·馬斯克 Python 電腦技術百度讓夢發生工程師網絡爬蟲機器學習地球創業雞湯腳本語言 2019-09-05

'阿里開源人機對話模型ESIM，達摩院90後科學家研發，曾創世界紀錄'

"乾明發自凹非寺量子位報道 | 公眾號 QbitAI阿里巴巴，AI開源又有新動作。這次是人機對話模型ESIM，全稱Enhanced Sequential Inference Model，一種增強序列推斷模型。阿里介紹稱，自2017年首次提出以來，這一研究已被谷歌、F...

阿里巴巴集團陳謙人工智能 Facebook Ubuntu 2019-07-15

阿里雲機器智能首席科學家閔萬里宣佈離職將做風險投資人

“高山仰止，景行行止。開始追尋新的雲和遠方。”昨天，阿里雲機器智能首席科學家閔萬里在阿里內網宣佈了離職的消息。接下來，這位人工智能領域的大牛將投入風險投資領域。這位出身中科大少年班，被譽為天才少年的科學家，是最早從硅谷離職來杭州企業的頂尖科學家之一。他在杭州的這6年，和他的...

阿里巴巴集團阿里雲計算人工智能風險投資大數據人生第一份工作服裝硅谷餓了麼投資杭州大學技術交通萬里少年班斯坦福大學 IBM 不完美媽媽馬雲中國科學技術大學淘寶網浙江大學 Google 芝加哥大學新聞藝術 2019-06-24

14歲讀大學留美16年，近日以首席科學家的身份離開阿里

他14歲就考上大學，17歲就出國留學並一舉拿下芝加哥大學碩士和博士學位，先後被IBM（國際商業機器公司）和GOOGLE相中，並毅然而然的放棄美高薪工作回國...

中國科學技術大學阿里巴巴集團大學少年班馬雲數學芝加哥大學 IBM 物理人工智能交通算法技術大數據地球留學人生第一份工作新加坡斯坦福大學雲計算 2019-06-24

科學家王海峰：從百度十篇論文入選ACL 2019說起

中新網5月29日電近日，國際自然語言處理(NLP)領域的權威學術會議“國際計算語言學協會年會”(ACL 2019)公佈了今年大會論文錄用結果，其中，百度...

人工智能百度技術自然語言處理百度地圖機器人數據挖掘百度百科輸入法吳文俊韓國電信公司人機交互哈爾濱市歷史 2019-05-30

阿里人工智能實驗室茹憶：超級智能硬件將是AI時代的生活必需品

4月12日，FUS獵雲網2019年度人工智能產業峰會在北京千禧大酒店隆重舉行，近百位知名資本大咖，獨角獸創始人、創業風雲人物及近千位投資人與創業者共聚一堂...

人工智能智能硬件智能家居移動互聯網獵雲網硬件智能手機電腦人機交互阿里巴巴集團操作系統金融機器人鼠標 Windows 投資創業 2019-04-14

這家人工智能+零售企業，為何能同時贏得阿里、三星、小米青睞？

如何精準定位目標客戶群體？如何推進門店數字化轉型？如何實現降本增效？這是傳統零售業的痛點，也是熱點話題！小視科技“店小喵”智慧零售解決方案，用人臉識別技術...

人工智能技術人臉識別大數據市場營銷阿里巴巴集團三星集團可視化技術上海金融算法硬件 2019-04-06

零點之戰！探訪阿里巴巴8大技術專家，提前揭祕2017雙11關鍵技術

摘要：在距離雙11已經不到10天的這個時刻，一場看不見硝煙的戰爭似乎已經打響。隨著一年一度購物狂歡的即將到來，網上出現了很多阿里技術應對雙11的段子。“阿...

大數據雲計算 ElasticSearch 機器學習雲棲社區 2017-11-07

阿里達摩院進展神速！又拉來了微軟、谷歌著名人工智能專家

10與11日，阿里巴巴宣佈成立承載“NASA計劃”的實體組織——“達摩院”，定位於進行基礎科學和顛覆式技術創新研究。馬雲表示，未來3年內，將為達摩院投入1...

人工智能 Google 微軟網絡安全創業邦 2017-10-18

AI如何變革阿里電商？iDST首席科學家任小楓首次公開演講

李根發自雲棲小鎮量子位報道 | 公眾號 QbitAI2017雲棲大會，與馬雲同時開啟演講的技術專家，是iDST首席科學家兼副院長任小楓。這是他今年...

電子商務人工智能機器學習馬雲量子位 2017-10-15

阿里開始真正對人工智能發力了，這次看上的卻是這家不知名公司

在現在這個時間，泛泛談及 AI 必然無法忽視智能音箱，它是目前 AI 技術最成熟的應用，具有入口潛力，它也是一塊被所有互聯網巨頭都覬覦的肥肉。阿里作為和亞...

人工智能電子商務機器人音箱互聯網扒皮王 2017-10-13

重磅消息！全球頂級科學家助力阿里成立達摩學院，用科技創新世界

今日，由阿里巴巴集團舉辦的年度雲計算盛會——杭州雲棲大會將正式拉開帷幕，這是一場由阿里巴巴主導得雲生態科技盛會。大會自10月11日起至10月14日在杭州市...

馬雲人工智能雲計算菩提達摩雲計算視界 2017-10-12

阿里將在雄安新區設3家子公司：涉AI、螞蟻金服和菜鳥；北航設立全國首個人工智能專業，與百度合作辦學丨AI 掘金晚報

北航設立全國首個人工智能專業，與百度合作辦學雷鋒網瞭解到，近日，位於中關村核心區的北京航空航天大學宣佈：在該校軟件學院設立全國首個人工智能專業。該專業依託...

大學螞蟻金服人工智能機器學習雷鋒網 2017-10-02

通用人工智能有多嚇人？中國量子衛星首席科學家潘建偉道出真相！

近日，微軟全球執行副總裁沈向陽在美國華盛頓州貝爾維尤，也就是在微軟總部所在地接受了媒體採訪。沈向陽向媒體表示：今後，科技公司和科研機構將努力攻堅通用人工智...

人工智能潘建偉航空航天機器人我為科技狂 2017-09-25

又挖到一個重量級牛人！知名科學家施堯耘加入阿里雲

∆ 阿里雲公佈的一張照片，左為阿里雲總裁胡曉明，右為施堯耘。阿里巴巴在技術人才儲備方面可謂不遺餘力。9月11日下午，記者從阿里雲方面確認，世界知名量子計算...

雲計算量子計算人工智能 NASA 浙江新聞 2017-09-13

2017人工智能未來企業排行榜：百度阿里騰訊據前三

原標題：2017人工智能未來企業排行榜人工智能（Artificial Intelligence）是一門新興的技術科學，該領域的研究包括機器人、語言識別、圖...

人工智能機器人機器學習數據挖掘齊魯壹點 2017-09-13

知名量子技術科學家施堯耘入職阿里，師從姚期智

9月11日，世界知名量子計算科學家、密西根大學終身教授、美國國家科學基金會“職業成就獎”（Career Award）獲得者施堯耘已正式加入阿里巴巴，擔任阿...

量子計算姚期智人工智能雲計算 IT戰略家 2017-09-13

知名量子技術科學家施堯耘入職阿里，師從姚期智

量子計算人工智能雲計算姚期智 IT戰略家 2017-09-12

阿里18歲又建國家重大前沿基礎研究實驗室專注五大方向黑科技

2017年9月6日上午，由浙江省政府、浙江大學、阿里巴巴集團聯合共建的之江實驗室正式揭牌成立。這一新型科研機構，將在未來網絡計算和系統、泛化人工智能、泛在...

人工智能錘子科技浙江大學通信 Adair品科技 2017-09-07

科大訊飛首席科學家胡鬱帶你看人工智能未來的可愛模樣

湖南衛視《我是未來》絕密片段流出，科大訊飛首席科學家胡鬱帶你看人工智能未來的可愛模樣！前段時間，Alpha Go對戰天才圍棋手柯潔九段大獲全勝，一時掀起大...

人工智能機器人胡鬱掃地機器人吉力智能科技 2017-08-27

推薦中...