李飛飛團隊提出視頻事件描述新模型,附849小時數據集

人工智能 舞蹈 科技 量子位 2017-05-09

最近,斯坦福大學的李飛飛與與她的學生Ranjay Krishna、Kenji Hata、Frederic Ren,以及同事Juan Carlos Niebles向ICCV 2017提交論文,提出了一個新模型,可以識別視頻中的事件,同時用自然語言描述出來。

李飛飛團隊提出視頻事件描述新模型,附849小時數據集

大多數視頻都包含著大量事件。舉個例子吧,比如在一段鋼琴演奏的視頻中,可能不僅僅包含鋼琴演奏者,還可能包含著一群跳舞的人,或者一群鼓掌的觀眾,這些事件很可能是同時發生的。當一段視頻中包含檢測內容和描述內容時,我們稱它為“字幕密集型事件”。

李飛飛團隊提出視頻事件描述新模型,附849小時數據集

李飛飛團隊的模型,可以利用過去和未來的上下文內容信息,來識別視頻中這些事件之間的關係,並把所有事件描述出來。

李飛飛團隊提出視頻事件描述新模型,附849小時數據集

上面這張流程圖展現了新模型的運行原理。

同時,他們還發布了ActivityNet字幕數據集。這個數據集中包含了長達849小時的2萬個視頻,以及10萬條帶有開始和結束時間的描述信息,可以用來對字幕密集型事件進行基準測試。

相關資源

論文簡介:http://cs.stanford.edu/people/ranjaykrishna/densevid/

數據集下載:

http://cs.stanford.edu/people/ranjaykrishna/densevid/captions.zip

C3D Features:http://activity-net.org/challenges/2016/download.html#c3d

論文:https://arxiv.org/pdf/1705.00754.pdf

招聘

量子位正在招募編輯記者、運營、產品等崗位,工作地點在北京中關村。相關細節,請在公眾號對話界面,回覆:“招聘”。

One More Thing…

今天AI界還有哪些事值得關注?在量子位(QbitAI)公眾號會話界面回覆“今天”,看我們全網蒐羅的AI行業和研究動態。筆芯~

相關推薦

推薦中...