清華&美圖開源大規模視頻分析數據集：含11827條視頻，共476小時

清華大學算法 GitHub 植物美食人工智能家用電器技術 YouTube 量子位 2019-04-18

安妮發自凹非寺

量子位出品 | 公眾號 QbitAI

不用再擔心視頻分析數據集視頻小、場景少和沒標註的問題了，一個大規模視頻分析數據集來了↓↓↓

現在，清華大學和美圖開源了教程類行為視頻數據集COIN（COmprehensive INstructional video analysis），內含11827條教程類視頻，涉及日常生活12個領域裡的180個任務的視頻內容。

所謂教程類視頻，一般都集中在美食、美妝和家裝DIY等領域。比如，美妝博主教你化妝、美食博主教你做披薩，都屬於教程類視頻的範疇。

美圖表示，COIN為業界規模最大、最多樣性的教程類視頻數據集。

以後，在複雜場景下視頻動作時序定位（temporal localization）、視頻行為分析與理解問題的研究中，不妨試試這套資源。

目前，論文COIN: A Large-scale Dataset for Comprehensive Instructional Video Analysis已經被CVPR 2019接收。

△ COIN數據集概覽

分層結構

論文介紹說，現有教程類行為視頻數據集在規模性和多樣性都存在較大的侷限性，難以應用於現實中的複雜場景，而COIN數據集就不會出現這種尷尬的情況。

據研究人員統計，COIN中的視頻均來自YouTube，共包含180個任務的11827個視頻片段，每段視頻平均長2.36分鐘，視頻總時長為476個小時。

除了數據集，研究人員還開發出配套的工具箱，給每一條視頻都加上了有效註釋，描述了視頻中涉及的動作和時間點。所以，不僅數據量大，對數據的註釋也不少，共有46354個帶註釋的視頻段。

如何去組織這麼多的數據？

研究人員表示，他們在COIN數據集中使用了“分層結構”。將整個數據集分為3個層次，即領域（domain）、任務（task）和步驟（step）。

△ COIN數據集的分層結構

在第一層（領域層）研究人員主要將數據集按照場景將數據粗略歸納為12個領域，即護工和護理、車輛、休閒生活、小機械、電器、家庭、科學和手工、植物與水果、零食與飲料、菜品、運動、家務。

第二層（任務層）中，上述各分類進一步細化，精細到具體的目的。比如“更換燈泡”與“安裝吊扇”的二級分類都歸屬與“電器”領域下。

到了第三層（步驟層），主要細化到了完成任務的具體動作步驟，舉個例子，“移除燈罩”、“取出舊燈泡”、“安裝新燈泡”與“安裝燈罩”等步驟都被劃分到“更換燈泡”任務下了。

一環連一環，數據集中的層次結構層層遞進、逐步深入。

作者團隊

論文的作者來自清華大學和美圖公司，一作為清華自動化系的博士四年級在讀生Yansong Tang，主攻計算機視覺方向，尤其是視頻動作分析。

△ 一作Yansong Tang

去年，Tang同學作為一作的論文Mining Semantics-Preserving Attention for Group Activity Recognition還被ACM MM18大會接收，被評為口頭報告論文。

清華大學自動化系的Yongming Rao、Yu Zheng、Danyang Zhang、魯繼文和周杰也參與了研究。

此外，論文二作丁大鈞來自美圖社交產品事業群視覺算法組。在平日的工作中，美圖視覺算法組通過深度學習算法，理解圖像和視頻內容中的語義信息，給社區中推薦、搜索、反作弊和垃圾過濾等功能提供技術支持。

傳送門

論文地址：

https://arxiv.org/abs/1903.02874

項目主頁：

https://coin-dataset.github.io/

GitHub地址：

https://github.com/coin-dataset

— 完 —

誠摯招聘

量子位正在招募編輯/記者，工作地點在北京中關村。期待有才氣、有熱情的同學加入我們！相關細節，請在量子位公眾號(QbitAI)對話界面，回覆“招聘”兩個字。

量子位 QbitAI · 頭條號簽約作者

վ'ᴗ' ի 追蹤AI技術和產品新動態

清華&amp;美圖開源大規模視頻分析數據集：含11827條視頻，共476小時