最近,斯坦福大學的李飛飛與與她的學生Ranjay Krishna、Kenji Hata、Frederic Ren,以及同事Juan Carlos Niebles向ICCV 2017提交論文,提出了一個新模型,可以識別視頻中的事件,同時用自然語言描述出來。
大多數視頻都包含著大量事件。舉個例子吧,比如在一段鋼琴演奏的視頻中,可能不僅僅包含鋼琴演奏者,還可能包含著一群跳舞的人,或者一群鼓掌的觀眾,這些事件很可能是同時發生的。當一段視頻中包含檢測內容和描述內容時,我們稱它為“字幕密集型事件”。
李飛飛團隊的模型,可以利用過去和未來的上下文內容信息,來識別視頻中這些事件之間的關係,並把所有事件描述出來。
上面這張流程圖展現了新模型的運行原理。
同時,他們還發布了ActivityNet字幕數據集。這個數據集中包含了長達849小時的2萬個視頻,以及10萬條帶有開始和結束時間的描述信息,可以用來對字幕密集型事件進行基準測試。
相關資源
論文簡介:http://cs.stanford.edu/people/ranjaykrishna/densevid/
數據集下載:
http://cs.stanford.edu/people/ranjaykrishna/densevid/captions.zip
C3D Features:http://activity-net.org/challenges/2016/download.html#c3d
論文:https://arxiv.org/pdf/1705.00754.pdf
招聘
量子位正在招募編輯記者、運營、產品等崗位,工作地點在北京中關村。相關細節,請在公眾號對話界面,回覆:“招聘”。
One More Thing…
今天AI界還有哪些事值得關注?在量子位(QbitAI)公眾號會話界面回覆“今天”,看我們全網蒐羅的AI行業和研究動態。筆芯~