五年後的計算機視覺會是什麼樣?和CV先驅們一同暢想(上) | CVPR2019

五年後的計算機視覺會是什麼樣?和CV先驅們一同暢想(上) | CVPR2019

AI 科技評論按:對於計算機視覺研究者們來說,以當前的技術水平為基礎,尋找突破點做提升改進是科研的主旋律。這幾年來,計算機視覺領域的已有問題在研究者們的努力下普遍得到了越來越好的解決,映入大家視野的新問題也越來越多。不過到了 CVPR 這個供全球計算機視覺研究者齊聚討論的盛會上,一個可能不那麼直接指導短期研究、不那麼容易形成共識問題也就自然地湧上了大家的心頭:在五到十年後的未來,計算機視覺的研究會是什麼樣子,是深度學習幾乎完全替代了目前還在使用的其他一些方法,還是我們應該期待新的革命?CVPR 2019 上的首屆「Computer Vision After 5 Years - CVPR Workshop」就正式地帶大家一起討論這個問題,不僅讓已經有經驗的研究者們交流觀點,也為這個領域的年輕學者們拓展思路和視野。

Computer Vision After 5 Years Workshop 的三位組織者來自 UC 伯克利、FAIR 以及 UIUC,邀請到的演講者包括 Ross Girshick、Jitendra Malik、Alexei Efros 等計算機視覺領域響噹噹的人物。研討會在中午休息後開始;開始前五分鐘,會議廳內就座無虛席。到了計劃開始時間時,容量約 400 人的演講廳的兩側走道、門內走廊就像 Facebook 何愷明、Ross 組組織的 Visual Recognition and Beyond 教學講座一樣擠滿了人,這也說明了研究者們對整個領域大方向的關心。(雖然相比於本屆 CVPR 超過 9000 的參會人員來說也算不上是多大的數字)

AI 科技評論把各位學者演講的主要內容摘錄如下。

演講一

首位演講者是 INRIA 法國國家信息於自動化所的研究主任 Cordelia Schmid。

五年後的計算機視覺會是什麼樣?和CV先驅們一同暢想(上) | CVPR2019

Cordelia Schmid 是 IEEE Fellow,研究領域為圖像和視頻描述、對象和類別識別、機器學習,長期任 IEEE PAMI、IJCV 編輯,如今是 IJCV 主編,也是 CVPR2015 的大會主席。

五年後的計算機視覺會是什麼樣?和CV先驅們一同暢想(上) | CVPR2019

Cordelia Schmid 的演講題目是《5 年後對視覺世界的自動化理解》。

五年後的計算機視覺會是什麼樣?和CV先驅們一同暢想(上) | CVPR2019

得益於機器學習研究的新進展和各種大規模數據集,今天的機器感知已經有了很多喜人的成果,對如何設計模型也有了新的思路。但當前的數據集其實存在一些問題,這會限制新任務中的表現。

五年後的計算機視覺會是什麼樣?和CV先驅們一同暢想(上) | CVPR2019

數據方面,目前的人工標註數據存在許多問題,比如能覆蓋的類別和實例數量都很有限,需要增加新的類別或者概念時難以重新標註或者升級標註,類別存在長尾現象,有一些信息是難以標註進去的(比如流、三維形體)。

五年後的計算機視覺會是什麼樣?和CV先驅們一同暢想(上) | CVPR2019

針對人體動作識別任務,Cordelia Schmid 介紹了她對數據問題的解決方案 SURREAL Dataset,這是一個合成的三維人體動作數據集,有良好的可遷移性,也有許多不同級別的標註。

五年後的計算機視覺會是什麼樣?和CV先驅們一同暢想(上) | CVPR2019

總體上來說,她認為未來的計算機視覺有這三個發展方向:數據集會同時有手工標註的、生成的和弱監督數據三類;更好的視頻理解;以及多模態表徵,與世界有更多互動。

五年後的計算機視覺會是什麼樣?和CV先驅們一同暢想(上) | CVPR2019

對於視頻學習話題,目前一大問題是視頻數據集規模不理想,比如 UCF-101 和 J-HMDB 數據集的多樣性、時長、分辨率都很有限。新型的數據集需要主角之外的更多動作,也更豐富多變。視頻學習的目標包括判斷時序依賴(時序關係)、動作預測。為此也需要新型的模型設計,她小組的一篇視頻動作檢測的論文就被 CVPR 2019 接收了。

五年後的計算機視覺會是什麼樣?和CV先驅們一同暢想(上) | CVPR2019

在感知畫面之外,計算機視覺研究還可以有更多補充,比如視覺系統可以與世界互動,和機器人、強化學習結合;音頻和文字數據的加入也可以帶來更好的視覺理解。

五年後的計算機視覺會是什麼樣?和CV先驅們一同暢想(上) | CVPR2019

具體做法是多模態監督,最新的 Video-Bert 能學習視頻和對話之間的對應關係;模仿學習結合強化學習、虛擬環境訓練到真實環境訓練遷移也是值得引入到計算機視覺領域的做法。

五年後的計算機視覺會是什麼樣?和CV先驅們一同暢想(上) | CVPR2019

總結:Cordelia Schmid 對未來計算機視覺發展趨勢的預測是,需要設計新的模型,它們需要能考慮到空間和時間信息;弱監督訓練如果能做出好的結果,那麼下一步就是自監督學習;需要高質量的人類檢測和視頻對象檢測數據集,這非常重要;結合文本和聲音的跨模態集成;在與世界的交互中學習。

演講二

五年後的計算機視覺會是什麼樣?和CV先驅們一同暢想(上) | CVPR2019

下一位講者是 UC 伯克利電子工程與計算機系教授 Alexei Efros,他也是計算機視覺領域的先驅,尤其以最近鄰方法而聞名。他的演講風趣幽默,令人愉悅,也引發了現場許多聽眾的共鳴。

五年後的計算機視覺會是什麼樣?和CV先驅們一同暢想(上) | CVPR2019

他首先展示了這樣一張 PPT——計算機視覺的下一個五年計劃。然後他很快解釋這是開玩笑的,學術研究的事情怎麼可能做得像蘇聯的五年計劃一樣呢。他緊接著講了個關於學術課題的笑話,一個學生問他的導師「什麼課題才是真正重要的」,導師回答他「當然是現在正在做的!」(也許是暗示沒有一心投入哪個課題的人才能真正看得遠)

五年後的計算機視覺會是什麼樣?和CV先驅們一同暢想(上) | CVPR2019

所以他真正的演講題目是:「沒有遺憾的未來五年」。預測五年很難,但是可以做盡量不讓自己後悔的事情。也是藉機談一談自己學術經歷中的一些感想。

五年後的計算機視覺會是什麼樣?和CV先驅們一同暢想(上) | CVPR2019

遺憾是從哪裡來的?Vladlen Koltun 有句話說「每篇論文都是障礙」,因為糟糕的論文可能會影響自己一生的學術名譽,可能會浪費了時間以至於做不了更有影響力的事情,甚至更糟糕地,可能會把整個領域引向錯誤的方向。而且也會長期帶有這種負罪感。但是也不能只顧著安全,做學術研究就是需要冒一些險的。

五年後的計算機視覺會是什麼樣?和CV先驅們一同暢想(上) | CVPR2019

Alexei Efros 說自己的學術生涯裡有兩大遺憾:圖模型,就不應該嘗試這個方向的,而且把很多別的研究人員也帶到溝裡了;而卷積網絡,應該更早地研究、更早地使用。他講了一則趣事,Yann LeCun 以前到伯克利做過演講,介紹 CNN,LeCun 講的時候彷彿完全沒覺得有必要解釋是怎麼來的,就只是說了你需要這個、那個,把它們連起來,然後就好了。他還帶了電腦,現場演示訓練和預測(當時別的方法都沒法這麼快地完成)。這和當時做圖模型的人的做法完全不一樣,但也直到後來大家才接受了 CNN。

五年後的計算機視覺會是什麼樣?和CV先驅們一同暢想(上) | CVPR2019

而所有遺憾的「元遺憾」,就是領域內的研究人員們花了太多時間精力研究算法。對特徵的研究要少一些,對數據的研究更少,但實際上它們的效果是反過來的——數據帶來的提升是最顯著的。

五年後的計算機視覺會是什麼樣?和CV先驅們一同暢想(上) | CVPR2019

他舉了例子說明,如今面部識別早已不是問題,但當時,1998 年、1999 年都有人已經用簡單的方法做出了優秀的結果,但讓領域內公認「解決」了面部識別問題的算法,是看起來足夠難的那個算法—— 2011 年的 Haar 特徵加級聯提升多厲害,更早的用像素特徵、用樸素貝葉斯聽起來就沒難度,樸素貝葉斯(Naive Bayesian)這麼天真、簡單,怎麼能說是突破性結果的代表呢。

五年後的計算機視覺會是什麼樣?和CV先驅們一同暢想(上) | CVPR2019

另一個例子是他自己在 2008 年用最近鄰算法做了圖像的地理位置識別,巧的是谷歌也在 2016 年用深度學習研究了同一個問題。作為後來者的谷歌拿出了更多的數據,所以結果更好。

五年後的計算機視覺會是什麼樣?和CV先驅們一同暢想(上) | CVPR2019

但有趣的是,在實驗數據裡,一樣的數據量下,他們的老方法比谷歌的新方法效果還好。所以關鍵點還是在於數據,但大家都在急著提出並且標榜自己的算法。

五年後的計算機視覺會是什麼樣?和CV先驅們一同暢想(上) | CVPR2019

所以說,做科研的人都有這麼種自戀:相比之下,我們更願意把成果歸功於自己的聰明才智。

五年後的計算機視覺會是什麼樣?和CV先驅們一同暢想(上) | CVPR2019

對於未來 5 年計算機視覺領域的發展趨勢,Alexei Efros 接下來給出了自己的看法,更具體地說是對未來研究可能證明是障礙、可能會成為遺憾的東西的看法。不過他也說自己的觀點是有爭議性的,如果有人能證明他是錯的也挺好的:

五年後的計算機視覺會是什麼樣?和CV先驅們一同暢想(上) | CVPR2019

1,對抗性攻擊和魯棒性問題,他認為這不應該是個問題,沒必要花那麼多精力去想辦法避免,實際上可能也永遠都避免不了。因為對抗性樣本本來就不是來自自然數據流形的數據,落在由自然數據流形所劃分的決策邊界上就是有可能的,所以這並不是一個數學問題,而是一個人類的感知問題。他的建議是隻要我們讓人類的視覺行為和計算機的類似就行了。換句話說,對抗性樣本只是人類與計算機的感知特點不同的表現,而不是問題本身;如果想要治病,不要只吃止痛藥(要研究感知特點,就不要緊盯著想要消滅對抗性樣本);

五年後的計算機視覺會是什麼樣?和CV先驅們一同暢想(上) | CVPR2019

2,他認為短期內視覺無法和語言結合,抽象程度相差太多。Alexei Efros 挖苦說,最近幾十年的 CVPR 論文可能都會反覆上演這樣的戲碼:每一年都會有論文帶來新的視覺+語言數據集,然後第二年發現在這個數據集上只需要用最近鄰算法或者隨便一個什麼基準線方法就能打敗所有別的方法。他說這是因為我們現在有的方法真的太弱了,還不足以把這兩種模態的信息有效地提取、融合起來。「我們還沒達到一隻老鼠的視覺能力,怎麼就開始想著做直立人做的事情了」

五年後的計算機視覺會是什麼樣?和CV先驅們一同暢想(上) | CVPR2019

3,我們對可解釋性的要求太嚴苛,有些問題沒有簡單的低維描述,就是複雜的,就是需要足夠多的數據才能解決。相比於理工科往往用簡單明瞭的公式描述現象,心理學、基因、經濟學等學科已經沒辦法簡單地用公式表示了。所以在這種時候我們就是應當依靠大量數據,沒必要一定要追求一個簡單的解。

五年後的計算機視覺會是什麼樣?和CV先驅們一同暢想(上) | CVPR2019

他還舉了個例子,一團煙霧的行為可以用公式描述,但是一顆樹的生長行為是由溫度、光照、水、氣候等等許多複雜的因素在很長時間內連續變化所影響的,那麼它就是沒辦法簡單地解釋的。

五年後的計算機視覺會是什麼樣?和CV先驅們一同暢想(上) | CVPR2019

4,重新思考數據集。雖然做實驗、發論文的時候一定需要用數據集,但是我們心裡要記得,數據集並不等於整個世界,它只是一個相當固定的、二維的側寫。所以模型出現的過擬合/作弊行為也就不應該被看作是問題,同樣的樣本甚至同樣的數據集(多輪訓練)反覆看了很多次,當然會出現這樣的結果。說到底,就不應該使用有限的標註和數據集。

五年後的計算機視覺會是什麼樣?和CV先驅們一同暢想(上) | CVPR2019五年後的計算機視覺會是什麼樣?和CV先驅們一同暢想(上) | CVPR2019

結束語:如果說人生目標可以是增加未來可以懷念的東西的話,他自己的五年計劃就是減少遺憾、增加可以未來懷念的東西,比如可以從別發表自己不滿意的論文開始。

(限於文章篇幅,後續 Ross Girshick、Jitendra Malik 等幾位講者的演講內容將在下篇中呈現,敬請期待)

AI 科技評論現場報道

End

2019 全球人工智能與機器人峰會

2019 年 7 月 12 日至 14 日,由中國計算機學會(CCF)主辦、雷鋒網和香港中文大學(深圳)聯合承辦,深圳市人工智能與機器人研究院協辦的2019 全球人工智能與機器人峰會(簡稱 CCF-GAIR 2019)將於深圳正式啟幕。

屆時,諾貝爾獎得主JamesJ. Heckman、中外院士、世界頂會主席、知名Fellow,多位重磅嘉賓將親自坐陣,一起探討人工智能和機器人領域學、產、投等複雜的生存態勢。

點擊閱讀原文,回顧 CVPR 2019 精彩瞬間

相關推薦

推薦中...