ICCV｜深度三維殘差神經網絡：視頻理解新突破

機器學習微軟 Mosaic 微軟研究院微軟亞洲研究院微軟亞洲研究院 2017-10-28

編者按：隨著互聯網的不斷髮展，可處理視頻的深度神經網絡遠比普通神經網絡更難訓練，如何減輕訓練負擔成為了一項不可忽視的工作。來自微軟亞洲研究院多媒體搜索與挖掘組的研究成果“Learning Spatio-Temporal Representation with Pseudo-3D Residual Networks”，在正在舉辦的International Conference on Computer Vision （ICCV） 2017會議上發佈，它專注於如何利用大量視頻數據來訓練視頻專用的深度三維卷積神經網絡，提出一種基於偽三維卷積（Pseudo-3D Convolution）的深度神經網絡的設計思路，並實現了迄今為止最深的199層三維卷積神經網絡。通過該網絡學習到的視頻表達，在多個不同的視頻理解任務上取得了穩定的性能提升。

1993年9月，一款名為NCSA Mosaic的瀏覽器正式支持在網頁內嵌入圖片，這標誌著互聯網從純文本時代邁入了“無圖無真相”的多媒體時代。如今，隨著互聯網帶寬的提升和高速移動設備的普及，信息的獲取途徑和傳播途徑也在與日增加，視頻逐漸成為互聯網多媒體消費的重要組成部分。

從傳統的視頻分享網站到電視電影節目的網絡化，再到現在新興的視頻直播網站和小視頻分享網站，互聯網視頻已經進入了爆炸式發展的新階段。據統計，僅僅以視頻分享網站YouTube為例，平均每分鐘就有約300小時的視頻上傳到YouTube上，每天的視頻觀看次數更是高達50億次。數量如此巨大的視頻內容與觀看次數對視頻處理、分類、推薦等常見視頻相關技術提出了更高的要求，也提供了更廣闊的應用場景。

在視頻處理相關技術中，視頻特徵描述學習（Representation Learning）是一個最基本的問題。學習視頻的特徵表達是幾乎所有視頻處理和分析的基礎，其中包括視頻標註、動作識別、視頻監控、視頻檢索、視頻場景識別、視頻分割、視頻自然語言描述和基於視頻的人機交互等等。

然而目前視頻識別的相關研究多數使用的是基於圖像的卷積神經網絡（如微軟研究院在2015提出的殘差神經網絡ResNet）來學習視頻特徵，這種方法僅僅是對單幀圖像的CNN特徵進行融合，因此往往忽略了相鄰的連續視頻幀間的聯繫以及視頻中的動作信息。目前，視頻專用的深度神經網絡還很缺乏。

在正在舉行的International Conference on Computer Vision （ICCV）2017會議上，微軟亞洲研究院發佈了多媒體搜索與挖掘組最新的研究成果——Learning Spatio-Temporal Representation with Pseudo-3D Residual Networks[1]。這項工作主要集中在如何利用大量視頻數據來訓練視頻專用的深度三維卷積神經網絡，它提出了一種基於偽三維卷積（Pseudo-3D Convolution）的深度神經網絡的設計思路，並實現了迄今為止最深的199層三維卷積神經網絡。通過該網絡學習到的視頻表達，在多個不同的視頻理解任務上取得了穩定的性能提升。

基於三維卷積神經網絡的視頻特徵提取

為了使用深度神經網絡來提取視頻中時間和空間維度上的信息，一種直接的思路就是將用於圖像特徵學習的二維卷積拓展為三維卷積（3D Convolution），同時在時間和空間維度上進行卷積操作。如此一來，由三維卷積操作構成的三維卷積神經網絡可以在獲取每一幀視覺特徵的同時，也能表達相鄰幀隨時間推移的關聯與變化，如下圖所示。

然而這樣的設計在實踐中卻存在一定的困難。首先，時間維度的引入使得整個神經網絡的參數數量、運行時間和訓練所需的GPU內存都將大幅增長；其次，隨機初始化的三維卷積核需要大量精細標註的視頻數據來進行訓練。受困於以上兩點，近些年關於三維卷積神經網絡的發展十分緩慢，其中最著名的C3D[2] 網絡只有11層，模型大小卻達到321MB，甚至大於152層ResNet[3] 的235MB模型。

深度偽三維卷積神經網絡設計

為了解決以上的侷限性，我們提出了一系列基於偽三維卷積和殘差學習（Residual Learning）的神經網絡模塊，用以同時在時間和空間上進行卷積操作。其中，偽三維卷積是這個網絡結構的核心操作，基本思想是利用一個1*3*3的二維空間卷積和3*1*1的一維時域卷積來模擬常用的3*3*3三維卷積。通過簡化，偽三維卷積神經網絡相比於同樣深度的二維卷積神經網絡僅僅增添了一定數量的一維卷積，在參數數量、運行速度等方面並不會產生過度的增長。與此同時，由於其中的二維卷積核可以使用圖像數據進行預訓練，對於已標註視頻數據的需求也會大大減少。結合殘差學習的思想，該論文提出三種不同的偽三維卷積殘差單元（P3D-A，P3D-B，P3D-C）分別使用串行、並行和帶捷徑（shortcut）的串行三種方式來確定空間卷積和時域卷積之間的關係。

通過使用以上三種偽三維殘差單元替代152層ResNet中的二維殘差單元，該工作得到了目前最深的199層三維卷積網絡結構。最終經過ImageNet數據集中的圖片數據和Sports-1M(包含了487個類別的百萬級視頻片段)[4] 視頻數據的訓練，該網絡在視頻動作識別（Action Recognition）、視頻相似度分析（Video Similarity）和視頻場景識別（Scene Recognition）三個不同的視頻理解任務上均獲得了穩定的性能提升，並且在CVPR 2017的Activity Net Challenge的Dense-Captioning任務中獲得第一名。

除了利用偽三維卷積網絡提取特徵外，該網絡還可以作為其它方法的基本網絡結構，從而提升其它基於神經網絡方法的視頻識別性能。以雙流（Two-stream）方法為例，在UCF101的視頻動作識別任務上，如果使用偽三維卷積網絡作為基本網絡結構，實現的Two-stream框架無論是單個幀分支（Frame）與光流分支（Flow），或者是最終兩個分支合併的結果，都超過了其它網絡結構。

以上的實驗結果驗證了偽三維卷積殘差網絡可以有效學習來自大量圖像和視頻訓練數據中的類別信息。在與二維卷積殘差網絡和傳統三維卷積網絡的對比中，該結構成功地提升了在不同視頻識別任務上的性能。關於偽三維殘差網絡相關的代碼和模型詳見https://github.com/ZhaofanQiu/pseudo-3d-residual-networks。

神經專用神經網絡的發展方向

該工作基於偽三維卷積和殘差結構給出了訓練超深度三維卷積網絡的可能性，然而本文中提到的神經網絡目前主要針對視頻分類問題。面對紛繁複雜的視頻內容與視頻應用需求，單一的神經網絡很難滿足。針對不同的應用，視頻專用神經網絡有以下三個具有潛力的發展方向：

第一，視頻檢索（Video Search）專用神經網絡。視頻檢索、視頻推薦是大型視頻分享網站所要面對的首要問題，給予用戶良好的檢索體驗，並適當地推薦用戶需要的視頻內容，幫助用戶快速地找到自己感興趣的視頻。

第二，視頻分割（Semantic Video Segmentation）專用神經網絡。視頻分割的目標在於像素級別地分割出視頻中的人、車等常見物體。而隨著AR/VR技術的發展，像素級別的目標識別可以輔助許多不同的AR/VR相關應用，這也促進了視頻分割的發展。

第三，視頻生成（Video Generation）專用神經網絡。隨著用戶越來越容易地在不同設備上進行視頻拍攝，非專業用戶對視頻的自動/半自動編輯、美化也逐漸有了更多的需求。因此，視頻生成神經網絡便可以幫助用戶編輯創作自己的視頻作品。

隨著卷積神經網絡的發展，人工智能在很多圖像相關任務上的性能都產生了飛躍，也有大量相關技術從學術圈慢慢地走進了我們的生活。但是由於視頻包含信息太過複雜，大數據的獲取、存儲、處理均存在一定困難，導致視頻相關技術在很多方面仍然進步緩慢，相信隨著視頻專用卷積神經網絡的發展，這部分的不足也會逐漸被彌補。

無論是文本、圖像還是視頻，人工智能的發展在滿足互聯網用戶需求的同時也始終推動著用戶習慣的變遷。有了合理的算法對視頻進行分析、推薦，可以幫助互聯網用戶獲得更好的瀏覽體驗；有了用戶更好的反饋及更大的點擊量，可以讓視頻產業規模進一步擴大；更大規模的視頻數據會進一步對視頻相關算法提出更高的要求。在這樣的循環之下，視頻產業本身必將伴隨著視頻相關算法快速地發展，迎接更美好的未來。

參考文獻

[1] Z. Qiu, T. Yao, T. Mei.Learning Spatio-Temporal Representation with Pseudo-3D Residual Networks. InICCV, 2017.

[2] D. Tran, L. Bourdev, R. Fergus, L. Torresani, and M.Paluri. Learning spatiotemporal features with 3d convolutional networks. InICCV, 2015.

[3] K. He, X. Zhang, S. Ren, and J. Sun. Deep residual learning for image recognition. In CVPR, 2016.

[4] A. Karpathy, G. Toderici, S. Shetty, T. Leung, R.Sukthankar, and L. Fei-Fei. Large-scale video classification with convolutional neural networks. In CVPR, 2014.

作者介紹

邱釗凡，微軟亞洲研究院和中國科學技術大學聯合培養博士生，導師為梅濤研究員和田新梅副教授。主要研究方向包括視頻特徵學習、視頻動作識別和多媒體內容分析。他曾於2015年在中國科學技術大學獲得學士學位，並於2017年獲得微軟學者獎學金。

姚霆博士，微軟亞洲研究院多媒體搜索與挖掘組研究員，主要研究興趣為視頻理解、大規模多媒體搜索和深度學習。他帶領研究團隊在COCO圖像描述自動生成、2017年VISDA視覺領域自適應語義分割任務、2016&2017年ActivityNet視頻行為識別等多個國際級比賽中取得了世界領先的成績。他於2014年在香港城市大學獲得計算機科學博士學位並於2015年榮獲SIGMM Outstanding Ph.D. Thesis Award。

梅濤博士，微軟亞洲研究院資深研究員，主要研究興趣為多媒體分析、計算機視覺和機器學習。他的研究團隊目前致力於視頻和圖像的深度理解、分析和應用。他同時擔任IEEE 和 ACM 多媒體彙刊（IEEE TMM 和 ACM TOMM）以及模式識別（Pattern Recognition）等學術期刊的編委，並且是多個國際多媒體會議的大會主席和程序委員會主席。他是國際模式識別學會會士，美國計算機協會傑出科學家，中國科學技術大學和中山大學兼職教授。

你也許還想看：

感謝你關注“微軟研究院AI頭條”，我們期待你的留言和投稿，共建交流平臺。來稿請寄：[email protected]。

ICCV｜深度三維殘差神經網絡：視頻理解新突破

相關推薦