一個時代的終結：ImageNet 競賽 2017 是最後一屆，WebVision 競賽或接棒

機器學習人工智能大數據 Google 新智元 2017-05-28

新智元報道

2017 年 7 月 26 日，將標誌著一個時代的終結。

那一天，與計算機視覺頂會 CVPR 2017 同期舉行的 Workshop——“超越 ILSVRC”（Beyond ImageNet Large Scale Visual Recogition Challenge），將宣佈計算機視覺乃至整個人工智能發展史上的里程碑——IamgeNet 大規模視覺識別挑戰賽將於 2017 年正式結束，此後將專注於目前尚未解決的問題及以後發展方向。

根據“超越 ILSVRC” Workshop 官網介紹，這堂研討會的內容主要包括以下 4 點：

發表 2017 年 ILSVRC 的結果
評估 ILSVRC 2017 圖像、視頻物體識別、分類的當前最佳結果
探討這與當前在計算機視覺產業中應用的最優技術的關係
受邀講者（目前確定的有加州大學伯克利分校的 Jitendra Malik，以及斯坦福大學教授、目前谷歌雲首席科學家李飛飛）發表講話，論述在他們看來從認知視覺到機器人視覺等領域存在的挑戰

ImageNet：深度學習熱潮的關鍵推動者之一

ImageNet 可以說是計算機視覺研究人員進行大規模物體識別和檢測時，最先想到的視覺大數據來源。ImageNet 數據集最初由斯坦福大學李飛飛等人在 CVPR 2009 的一篇論文中推出，並被用於替代 PASCAL 數據集（後者在數據規模和多樣性上都不如 ImageNet）和 LabelMe 數據集（在標準化上不如 ImageNet）。

ImageNet 從 Caltech101（2004 年一個專注於圖像分類的數據集，也是李飛飛開創的）。ImageNet 不但是計算機視覺發展的重要推動者，也是這一波深度學習熱潮的關鍵驅動力之一。

截至 2016 年，ImageNet 中含有超過 1500 萬由人手工註釋的圖片網址，也就是帶標籤的圖片，標籤說明了圖片中的內容，超過 2.2 萬個類別。其中，至少有 100 萬張裡面提供了邊框（bounding box）。

ImageNet 數據集中“獵狐犬”的部分示例

從 2010 年以來，ImageNet 每年都會舉辦一次軟件競賽，也即 ImageNet 大規模視覺識別挑戰賽（ILSVRC），參賽程序會相互比試，看誰能以最高的正確率對物體和場景進行分類和檢測，不僅牽動著產學研三界的心，也是各團隊、巨頭展示實力的競技場。

從 2010 年以來，每年的 ILSVRC 都主要包括以下 3 項，後來逐漸增多：

圖像分類：算法產生圖像中存在的對象類別列表
單物體定位：算法生成一個圖像中含有的物體類別的列表，以及軸對齊的邊框，邊框指示每個物體類別的每個實例的位置和比例
物體檢測：算法生成圖像中含有的物體類別的列表，以及每個物體類別中每個實例的邊框，邊框表示這些實例的位置和比例。

2012 年，Alex Krizhevsky、Ilya Sutskever 和 Geoffrey Hinton 創造了一個“大型的深度卷積神經網絡”，也即現在眾所周知的 AlexNet，贏得了當年的 ILSVRC。這是史上第一次有模型在 ImageNet 數據集表現如此出色。論文中提出的方法，比如數據增強和 dropout，直到現在也在使用，那篇論文“ImageNet Classification with Deep Convolutional Networks”，迄今被引用約 7000 次，被業內普遍視為行業最重要的論文之一，真正展示了 CNN 的優點，並且以破紀錄的比賽成績實打實地做支撐。

2012 年是 CNN 首次實現 Top 5 誤差率 15.4% 的一年，當時的次優項誤差率為 26.2%。這個表現震驚了整個計算機視覺界。可以說，是自那時起，CNN 才成了家喻戶曉的名字。

ImageNet 歷屆冠軍及技術回顧：

模型	AlexNet	ZF Net	GoogLeNet	ResNet
時間（年）	2012	2013	2014	2015
層數（層）	8	8	22	152
Top 5 錯誤率	15.4%	11.2%	6.7%	3.57%
數據增強	√	√	√	√
Dropout	√	√
批量歸一化	√

中國團隊在 ImageNet 競賽中的亮眼表現

2016 年的 ILSVRC，來自中國的團隊大放異彩：

CUImage（商湯和港中文），Trimps-Soushen（公安部三所），CUvideo（商湯和港中文），HikVision（海康威視），SenseCUSceneParsing（商湯和香港城市大學），NUIST（南京信息工程大學）包攬了各個項目的冠軍。

從下圖中可見，無論的圖像分類、物體檢測、物體識別，計算機的正確率都已經遠遠超越人類。可以說，計算機視覺在感知方面的問題已經得到了很好的解決。

那麼，計算機視覺的未來的重點將是什麼，ImageNet 競賽之後，又會出現什麼呢？

超越 ILSVRC：側重圖像學習和理解的 WebVision 競賽

WebVision 數據集是通過蘇黎世科技大學計算機視覺實驗室的網絡數據團隊收集的。這一數據集的開發得到了谷歌研究院蘇黎世分部的支持。

WebVision 數據集使用與 2012 年 ImageNet 競賽相同的 1000 個類別，涵蓋了直接從網絡收集到的 240 萬張現代圖像（包括谷歌圖像搜索中獲得的 100 萬張，以及來自 Flickr 的 140 萬張圖像）和元數據。

在 CVPR 2017 上，也會舉辦 WebVision Challenge，這一比賽更加註重對圖像和視頻數據的學習和理解，它有可能會成為未來的 ImageNet 競賽嗎？

摘要

我們提出 2017 年 WebVision 競賽，這是一項公開的圖像識別挑戰賽，旨在基於網頁圖像進行深度學習，而無需人手工對實例進行標註。此前的計算機視覺挑戰賽，如 ILSVRC、Places2 和 PASCAL VOC，通過提供大量的註釋數據，用於模型設計和標準化的基準測試，為計算機視覺的發展發揮了關鍵作用。為了延續它們的精神，我們在本屆 CVPR 2017 舉辦研討會，進行一項基於大規模網絡圖像數據集的公開競賽。WebVision 數據集包含從互聯網上用爬蟲收集的 240 多萬的網絡圖像，方法是使用從 ILSVRC 2012 基準中的 1000 個語義概念生成的查詢（query）。元信息（Meta information）也包含在內。

此外，WebVision 數據集也提供檢驗數據集和測試數據集，這些數據集中的數據都帶有人手工標註的標籤，從而便於算法的開發。2017 年 WebVision 挑戰賽分為兩類，一是在 WebVision 測試數據集上進行圖像分類，以及在 PASCAL VOC 2012 數據集上進行遷移學習。在本文中，我們描述了數據收集和註釋的細節，突出了 WebVision 數據集的特點，並介紹了相關評估指標。

編譯來源：

超越 ILSRVC 研討會介紹：http://image-net.org/challenges/beyond_ilsvrc
WebVision Challenge 介紹：http://www.vision.ee.ethz.ch/webvision/about.html
WebVision Challenge 論文：https://arxiv.org/pdf/1705.05640.pdf

【推薦賬號：清博大數據】

國內最前沿的新媒體大數據平臺

億量級數據監控數十種智能工具一站式便捷管理

清博大數據大數據生態的智能服務者

您的傳播決策指南針

▼

一個時代的終結：ImageNet 競賽 2017 是最後一屆，WebVision 競賽或接棒

相關推薦