清華&美圖開源大規模視頻分析數據集:含11827條視頻,共476小時

安妮 發自 凹非寺

量子位 出品 | 公眾號 QbitAI

不用再擔心視頻分析數據集視頻小、場景少和沒標註的問題了,一個大規模視頻分析數據集來了↓↓↓

現在,清華大學和美圖開源了教程類行為視頻數據集COIN(COmprehensive INstructional video analysis),內含11827條教程類視頻,涉及日常生活12個領域裡的180個任務的視頻內容。

所謂教程類視頻,一般都集中在美食、美妝和家裝DIY等領域。比如,美妝博主教你化妝、美食博主教你做披薩,都屬於教程類視頻的範疇。

美圖表示,COIN為業界規模最大最多樣性的教程類視頻數據集。

以後,在複雜場景下視頻動作時序定位(temporal localization)、視頻行為分析與理解問題的研究中,不妨試試這套資源。

目前,論文COIN: A Large-scale Dataset for Comprehensive Instructional Video Analysis已經被CVPR 2019接收。


清華&美圖開源大規模視頻分析數據集:含11827條視頻,共476小時

△ COIN數據集概覽



分層結構

論文介紹說,現有教程類行為視頻數據集在規模性和多樣性都存在較大的侷限性,難以應用於現實中的複雜場景,而COIN數據集就不會出現這種尷尬的情況。

據研究人員統計,COIN中的視頻均來自YouTube,共包含180個任務的11827個視頻片段,每段視頻平均長2.36分鐘,視頻總時長為476個小時。

除了數據集,研究人員還開發出配套的工具箱,給每一條視頻都加上了有效註釋,描述了視頻中涉及的動作和時間點。所以,不僅數據量大,對數據的註釋也不少,共有46354個帶註釋的視頻段。

如何去組織這麼多的數據?

研究人員表示,他們在COIN數據集中使用了“分層結構”。將整個數據集分為3個層次,即領域(domain)、任務(task)和步驟(step)。


清華&美圖開源大規模視頻分析數據集:含11827條視頻,共476小時

△ COIN數據集的分層結構


在第一層(領域層)研究人員主要將數據集按照場景將數據粗略歸納為12個領域,即護工和護理、車輛、休閒生活、小機械、電器、家庭、科學和手工、植物與水果、零食與飲料、菜品、運動、家務。

第二層(任務層)中,上述各分類進一步細化,精細到具體的目的。比如“更換燈泡”與“安裝吊扇”的二級分類都歸屬與“電器”領域下。

到了第三層(步驟層),主要細化到了完成任務的具體動作步驟,舉個例子,“移除燈罩”、“取出舊燈泡”、“安裝新燈泡”與“安裝燈罩”等步驟都被劃分到“更換燈泡”任務下了。

一環連一環,數據集中的層次結構層層遞進、逐步深入。

作者團隊

論文的作者來自清華大學和美圖公司,一作為清華自動化系的博士四年級在讀生Yansong Tang,主攻計算機視覺方向,尤其是視頻動作分析。


清華&美圖開源大規模視頻分析數據集:含11827條視頻,共476小時

△ 一作Yansong Tang


去年,Tang同學作為一作的論文Mining Semantics-Preserving Attention for Group Activity Recognition還被ACM MM18大會接收,被評為口頭報告論文。

清華大學自動化系的Yongming Rao、Yu Zheng、Danyang Zhang、魯繼文和周杰也參與了研究。


清華&美圖開源大規模視頻分析數據集:含11827條視頻,共476小時


此外,論文二作丁大鈞來自美圖社交產品事業群視覺算法組。在平日的工作中,美圖視覺算法組通過深度學習算法,理解圖像和視頻內容中的語義信息,給社區中推薦、搜索、反作弊和垃圾過濾等功能提供技術支持。

傳送門

論文地址:

https://arxiv.org/abs/1903.02874

項目主頁:

https://coin-dataset.github.io/

GitHub地址:

https://github.com/coin-dataset

誠摯招聘

量子位正在招募編輯/記者,工作地點在北京中關村。期待有才氣、有熱情的同學加入我們!相關細節,請在量子位公眾號(QbitAI)對話界面,回覆“招聘”兩個字。

量子位 QbitAI · 頭條號簽約作者

վ'ᴗ' ի 追蹤AI技術和產品新動態

相關推薦

推薦中...