"


"


視頻不美不高清?廣告植入太辣眼?編輯師又要加班?AI來幫忙

全民視頻時代已經來臨,互聯網用戶的注意力已經從傳統的文字、圖片向視頻轉移。在線視頻的爆發使得提高視頻效果和提升編輯效率成為自然需求。人工智能和視頻分析技術從而被各大在線視頻平臺和視頻解決方案科技公司廣泛應用於視頻編輯的各種場景中。從優化視頻呈現效果,剪輯製作,廣告和互動應用植入到彈幕生成和視頻合成,人工智能的研究和應用已經較為豐富。同時人工智能視頻編輯帶來的負面影響的隱患將需要社會進行更多的討論來促進監管的跟進。

作者 | 言青佳、田辰

一、在線視頻市場規模

我國有著巨大的在線視頻的市場。根據CNNIC數據顯示,截至2018年6月,在線視頻用戶達到6.09億人,其中手機視頻用戶高達5.78億。同時用戶規模高速增長,據比達諮詢估計,2017年在線視頻市場規模高達593.8億元,同比大漲60%。其中,用戶付費市場規模達到140.8億元,同比增長16.7%。2018年9月,在線長視頻移動端總使用時長達到125.75億小時,佔全部移動互聯網使用時長的9.0%;短視頻則以8.8%的佔有率緊隨其後,使用時長達到122.79億小時。中國在線視頻領域呈現BAT三足鼎立的局面——2018年9月,以長視頻為主的愛奇藝(百度)、騰訊視頻(騰訊)、優酷視頻(阿里)三家在線視頻平臺月度活躍用戶(MAU)遙遙領先,均超過5億人。

"


視頻不美不高清?廣告植入太辣眼?編輯師又要加班?AI來幫忙

全民視頻時代已經來臨,互聯網用戶的注意力已經從傳統的文字、圖片向視頻轉移。在線視頻的爆發使得提高視頻效果和提升編輯效率成為自然需求。人工智能和視頻分析技術從而被各大在線視頻平臺和視頻解決方案科技公司廣泛應用於視頻編輯的各種場景中。從優化視頻呈現效果,剪輯製作,廣告和互動應用植入到彈幕生成和視頻合成,人工智能的研究和應用已經較為豐富。同時人工智能視頻編輯帶來的負面影響的隱患將需要社會進行更多的討論來促進監管的跟進。

作者 | 言青佳、田辰

一、在線視頻市場規模

我國有著巨大的在線視頻的市場。根據CNNIC數據顯示,截至2018年6月,在線視頻用戶達到6.09億人,其中手機視頻用戶高達5.78億。同時用戶規模高速增長,據比達諮詢估計,2017年在線視頻市場規模高達593.8億元,同比大漲60%。其中,用戶付費市場規模達到140.8億元,同比增長16.7%。2018年9月,在線長視頻移動端總使用時長達到125.75億小時,佔全部移動互聯網使用時長的9.0%;短視頻則以8.8%的佔有率緊隨其後,使用時長達到122.79億小時。中國在線視頻領域呈現BAT三足鼎立的局面——2018年9月,以長視頻為主的愛奇藝(百度)、騰訊視頻(騰訊)、優酷視頻(阿里)三家在線視頻平臺月度活躍用戶(MAU)遙遙領先,均超過5億人。

視頻不美不高清?廣告植入太辣眼?編輯師又要加班?AI來幫忙

在線視頻市場規模

二、智能視頻編輯的主要技術

AI視頻超分辨率:超分辨率(Super-Resolution)通過硬件或軟件方法提高原有圖像的分辨率,可以通過深度學習將低分辨率視頻重建成高分辨率視頻模糊圖像、視頻瞬間變高清。

視頻指紋:通過識別、提取、壓縮視頻產生的唯一的“指紋”來代表一個視頻文件。視頻指紋分析提取並存儲視頻流中的關鍵幀序列分析,色彩和運動的變化等特徵,從而可以通過比較提取的視頻指紋來識別視頻內容。

多模態學習:模態是指人接受信息的特定方式。多模態學習是通過機器學習的方法實現處理和理解多源模態信息。視頻中往往會同時存在視覺信息、文字信息和聽覺信息,多模態學習因此成為視頻內容分析與理解的主要手段。

計算機視覺:包括人臉/表情/情感/動作/手勢識別,語音/聲紋識別以及場景/鏡頭等識別。通過有監督機器學習識別視頻中的各項特徵,從而為視頻打標籤,以備下游任務如拆分、剪輯、入庫和添加字幕等用。

生成式對抗網絡模型:受博弈論思想啟發,該模型由生成器神經網絡和判別器神經網絡所組成,前者試圖產生更接近真實的數據,相應地,後者試圖更完美地分辨真實數據與生成數據。在視頻合成中,兩個網絡在對抗和進步中得到最終的合成視頻。

三、人工智能技術視頻編輯的應用分佈

"


視頻不美不高清?廣告植入太辣眼?編輯師又要加班?AI來幫忙

全民視頻時代已經來臨,互聯網用戶的注意力已經從傳統的文字、圖片向視頻轉移。在線視頻的爆發使得提高視頻效果和提升編輯效率成為自然需求。人工智能和視頻分析技術從而被各大在線視頻平臺和視頻解決方案科技公司廣泛應用於視頻編輯的各種場景中。從優化視頻呈現效果,剪輯製作,廣告和互動應用植入到彈幕生成和視頻合成,人工智能的研究和應用已經較為豐富。同時人工智能視頻編輯帶來的負面影響的隱患將需要社會進行更多的討論來促進監管的跟進。

作者 | 言青佳、田辰

一、在線視頻市場規模

我國有著巨大的在線視頻的市場。根據CNNIC數據顯示,截至2018年6月,在線視頻用戶達到6.09億人,其中手機視頻用戶高達5.78億。同時用戶規模高速增長,據比達諮詢估計,2017年在線視頻市場規模高達593.8億元,同比大漲60%。其中,用戶付費市場規模達到140.8億元,同比增長16.7%。2018年9月,在線長視頻移動端總使用時長達到125.75億小時,佔全部移動互聯網使用時長的9.0%;短視頻則以8.8%的佔有率緊隨其後,使用時長達到122.79億小時。中國在線視頻領域呈現BAT三足鼎立的局面——2018年9月,以長視頻為主的愛奇藝(百度)、騰訊視頻(騰訊)、優酷視頻(阿里)三家在線視頻平臺月度活躍用戶(MAU)遙遙領先,均超過5億人。

視頻不美不高清?廣告植入太辣眼?編輯師又要加班?AI來幫忙

在線視頻市場規模

二、智能視頻編輯的主要技術

AI視頻超分辨率:超分辨率(Super-Resolution)通過硬件或軟件方法提高原有圖像的分辨率,可以通過深度學習將低分辨率視頻重建成高分辨率視頻模糊圖像、視頻瞬間變高清。

視頻指紋:通過識別、提取、壓縮視頻產生的唯一的“指紋”來代表一個視頻文件。視頻指紋分析提取並存儲視頻流中的關鍵幀序列分析,色彩和運動的變化等特徵,從而可以通過比較提取的視頻指紋來識別視頻內容。

多模態學習:模態是指人接受信息的特定方式。多模態學習是通過機器學習的方法實現處理和理解多源模態信息。視頻中往往會同時存在視覺信息、文字信息和聽覺信息,多模態學習因此成為視頻內容分析與理解的主要手段。

計算機視覺:包括人臉/表情/情感/動作/手勢識別,語音/聲紋識別以及場景/鏡頭等識別。通過有監督機器學習識別視頻中的各項特徵,從而為視頻打標籤,以備下游任務如拆分、剪輯、入庫和添加字幕等用。

生成式對抗網絡模型:受博弈論思想啟發,該模型由生成器神經網絡和判別器神經網絡所組成,前者試圖產生更接近真實的數據,相應地,後者試圖更完美地分辨真實數據與生成數據。在視頻合成中,兩個網絡在對抗和進步中得到最終的合成視頻。

三、人工智能技術視頻編輯的應用分佈

視頻不美不高清?廣告植入太辣眼?編輯師又要加班?AI來幫忙

其他周邊場景:由於本報告主要關注應用相對成熟的落地案例,故併為囊括包括視頻還原、視頻錄製等熱門場景中人工智能技術的應用。

四、智能視頻剪輯落地案例簡述

網宿科技視頻優化:網宿科技作為主要提供CDN、雲計算等業務的計算服務提供商,提出了基於深度學習算法的視頻超分辨率技術落地應用。該應用依託於網宿智慧雲視頻平臺,對由於採集設備較差、網絡環境欠佳、拍攝時間久遠、畫面抖動等導致畫質損傷的片源,去除視頻中的毛刺、偽影、噪點、馬賽克等,從而提高人眼視覺清晰度感知。

阿里雲視頻剪輯:阿里雲依託阿里雲的計算能力和多媒體人工智能技術,有效提高封面生成、集錦製作和長視頻拆條等視頻編輯業務場景的生產效率。例如利用AI選出最優的關鍵幀或關鍵片段作為視頻封面圖;智能提取最具代表性的截圖組成GIF,自動生成人物集錦、體育賽事精彩瞬間、影視劇劇集片花等;而基於AI的視頻拆條則可加速新聞短視頻的發佈,也可把原始長段視頻拆成小片段進入素材庫。

愛奇藝視頻剪輯添加:愛奇藝開發了基於AI技術的大型節目製作系統,愛創媒資系統,解決從封面生成、集錦製作、視頻拆條到綜藝後期剪輯、動圖生成等多樣視頻編輯需求。愛奇藝在廣告和互動應用植入、蒙版彈幕等業務場景也有所建樹。其中蒙版彈幕使用了基於深度學習的語義分割技術,引入鏡頭類型識別算法,識別出當前幀的場景類型,在特寫等鏡頭中生成人體掩碼蒙版,避免彈幕覆蓋到主題。

騰訊體育+IBM Watson視頻錦集:騰訊體育與IBMwatson就人工智能視頻分析及剪輯開展合作,通過“多模態視覺理解技術”對視頻畫面進行跟蹤和識別並判斷運動關係的邏輯。在騰訊NBA直播賽事的同時,該平臺同步進行幀秒級視頻分析,選出最貼切主題的精彩視頻片段。2-3小時的實時比賽,經過IBMAIVision視覺大腦僅僅20秒鐘處理,即可輸出1分鐘成片。

video++廣告植入:video++極鏈科技自2012年起開發的videoAI系統是以視覺識別為基礎的視頻結構化數據平臺,高效處理海量非結構化的視頻圖像數據,實現對數據的快速檢索、智能識別和理解。在綜藝、影視作品等視頻中實時掃描理解視頻內容,匹配合適的廣告,並找出合適廣告點位與植入時間。智能植入廣告可以與視頻內容進行無縫結合,得到更多與品牌調性、用戶標籤相關聯與匹配的內容點。

Adobe:Adobe和Stanford大學合作研究針對對話場景的視頻的智能剪輯。該合作項目搭建了一個輔助剪輯系統,對多機位拍攝的對話場景視頻,給每個機位的片段自動打標籤,並對應臺詞。剪輯師可以通過拖拽和簡單輸入等操作,選擇不同的電影語言,系統便會自動挑選合適的片段組成完整視頻。

NVIDIA:NVIDIA與MIT CSAIL(計算機科學與人工智能實驗室)合作發表了一篇關於開源視頻到視頻合成模型的論文,使用生成對抗網絡學習框架,對輸入的分割掩模、草圖和動作等視頻自動生成高分辨率、時間相干的逼真視頻。這套技術未來可以用在諸多領域,例如可通過該技術模擬計算出中間幀的圖像提升畫面流暢性,提高MRI核磁共振圖像的清晰度,提升地圖、衛星地圖的信息密度等等。

五、人工智能技術在視頻剪輯的侷限性

  • 儘管AI剪輯已有研究和應用,但其僅在體育賽事、對話場景視頻中扮演輔助性角色。對於影視作品等藝術性較強的視頻而言,AI剪輯和優秀的剪輯師還有一段距離。
  • 視頻美化和特效為大眾帶來娛樂的同時也帶來潛在的危機。 技術的普及讓視頻造假成本降低,當失實視頻在互聯網上傳播,不僅為民眾獲取信息帶來困擾,更有可能對執法機關證據蒐集工作造成難度,同時也大大增加互聯網公司審查成本。其中視頻換臉技術更有可能造成肖像權的侵犯,甚至帶來黃色視頻合成的泛濫和麵部智能鎖安全性的顧慮。


六、人工智能技術在視頻剪輯的發展趨勢

  • 人工智能在視頻剪輯領域的應用極大地提高了新聞體育直播和影視綜藝後期製作地工作效率。隨著互聯網視頻公司和科技公司視頻AI平臺的成熟,將有更多剪輯師的重複勞動被人工智能代替。
  • 隨著視頻增強相關技術算法的發展,未來視頻降噪、智能插幀將更加成熟並出現更多落地應用,服務於醫療、地圖等領域。
  • 視頻編輯技術的應用範圍需要監管層面的跟進,尤其是合成和替換。越來越成熟和普及的視頻技術將引發更多技術自由和監管力度的討論。
"

相關推薦

推薦中...