阿里雲視頻技術專家柿蒂:視頻AI in傳媒九大業務場景解析

摘要: 人工智能視覺計算和視頻融合在一起能摩擦出怎樣的火花呢?柿蒂提到,如同下圖所示,人工智能視覺計算可以支持直播、短視頻、新聞、體育、影視等多種業務場景,可以實現目標檢測識別識、片段偵測、事件識別、鑑黃涉恐、OCR等多種應用層面的功能。

近日,BIRTV 視覺人工智能峰會在北京國際飯店隆重舉辦。阿里雲視頻技術專家柿蒂受邀參加,圍繞人工智能這一主題,在視覺計算與傳媒領域的應用進行深度分享。

阿里雲視頻技術專家柿蒂:視頻AI in傳媒九大業務場景解析

阿里雲視頻技術專家 柿蒂

人工智能在視頻領域的應用

阿里雲擁有強大的雲計算能力與大數據計算引擎,因此,人工智能也就擁有了飛速發展的沃土。那人工智能視覺計算和視頻融合在一起,又能摩擦出怎樣的火花呢?柿蒂提到,如同下圖所示,人工智能視覺計算可以支持直播、短視頻、新聞、體育、影視等多種業務場景,可以實現目標檢測識別識、片段偵測、事件識別、鑑黃涉恐、OCR等多種應用層面的功能。

阿里雲視頻技術專家柿蒂:視頻AI in傳媒九大業務場景解析

從技術角度來講,基於業界領先的人工智能技術,阿里雲可對視頻的內容、文字、語音、人臉、物體進行多維度分析理解,幫助視頻類、資訊類等客戶實現視頻分類和打標籤、視頻指紋、相似性計算、視頻安全審核、視頻質量計算、自動生成封面圖、視頻切片化等能力。從而幫助客戶提升用戶留存和體驗,同時提高數據處理能力,降低人工審核成本。

人工智能在視頻領域的應用至少包括以下四個大方面:

1、 視頻內容分析: 行業領先,基於阿里領先的人工智能技術,對視頻進行語音、文字、人臉、物體、場景多維度分析,輸出視頻泛標籤,提升搜索推薦效果。

2、 視頻封面選圖: 通過對視頻內容的理解,並結合畫面美學,選出最優的關鍵幀或關鍵片段作為視頻封面圖。

3、 視頻指紋: 提取視頻中的音頻、圖像及時序特徵,生成視頻指紋,通過視頻指紋的比對,實現重複視頻查找、視頻片段的源視頻查找等業務功能。可應用於視頻去重、侵權視頻過濾、原創視頻保護等領域。

4、 視頻內容審核: 基於深度學習技術和海量數據,智能識別色情、暴恐、廣告、涉政等視頻或圖片,極大節省人工審計成本,降低違規風險。

傳媒九大業務場景深入解讀

傳媒,是人工智能視覺計算的典型應用領域,下面,柿蒂選取了傳媒的九大熱門業務場景,分享了在每一個業務場景中的視覺計算是如何應用的。

阿里雲視頻技術專家柿蒂:視頻AI in傳媒九大業務場景解析

業務場景一:自動內容審核

採用基於深度學習的圖像分類方法,利用高召回+高精度的級聯結構,同時採用人臉識別、OCR、ASR等技術,對音視頻中的違禁內容進行審核。

側重:UGC視頻側重鑑黃、涉暴等;PGC及臺內存量視頻側重涉政。

阿里雲視頻技術專家柿蒂:視頻AI in傳媒九大業務場景解析

業務場景二:視頻摘要-自動關鍵幀

通過對視頻進行結構化分析,對關鍵幀、視頻鏡頭進行篩選和排序,選擇最優的關鍵幀、關鍵片段來作為視頻的展示。並採用關鍵幀提取+MMR優化+美學評分等方法,選擇視頻,用以形成視頻摘要,方便用戶瀏覽。

效果:人工評測原始與封面關鍵幀算法(僅評測可對比出優劣之分的數據):算法優,佔比超過70%

阿里雲視頻技術專家柿蒂:視頻AI in傳媒九大業務場景解析

業務場景三:自動拆條

多模態:視頻特徵、ASR、OCR、人臉、Motion等

可以應用在:

  • 新聞消息類節目的條目拆分(可播前進行,無須文稿)

  • 體育賽事的自動場記

  • 綜藝類節目的曲目裁剪及精彩段落生成

  • PGC直播的快速集錦

  • 節目內容熱點發現

業務場景四:語音處理

  • 語音轉文本:新聞資訊/會議/影視劇製作

  • 語音對齊:將已有的口播稿按稿件句子自動識別時碼,與稿件文本對齊

  • 實時字幕:直播或存量視頻中,將語音內容轉成文本並做實時字幕處理

  • 語音檢索:檢索節目或素材的語音內容

  • 新聞熱線電話/客服:智能質檢、智能問答

  • 自動拆條、視頻、內容審核等:與視頻相結合

  • 知名主持人、明星語音合成:增加互動體驗

阿里雲視頻技術專家柿蒂:視頻AI in傳媒九大業務場景解析

業務場景五:OCR

利用視頻結構化分析和圖片識別等技術關鍵點,進行OCR識別處理。

可以應用在:

  • 視頻文本摘要的參考:新聞類視頻

  • 臺詞提取及時碼對齊:電影電視劇(可結合語音處理)

  • 演職員表

業務場景六:視頻去重/檢測/關聯

利用視頻指紋技術,判斷兩個視頻是否是通過任意變換獲取的同源視頻,以及同源相似度。可以應用在:

  • UGC、PGC視頻的去重

  • 廣告檢測

  • 短視頻搜索

  • 基於視頻內容的關聯

阿里雲視頻技術專家柿蒂:視頻AI in傳媒九大業務場景解析

業務場景七:視頻分類、視頻標籤

視頻分類是通過內容理解的方法對視頻進行類目和標籤預測;視頻標籤則是通過對視頻中多模態信息進行分析,自動為視頻進行標籤標註,並利用圖像分類技術、視頻tagging技術、OCR、ASR、人臉識別、目標檢測、行為識別等多模態技術分析,對視頻進行自動標籤化。

阿里雲視頻技術專家柿蒂:視頻AI in傳媒九大業務場景解析

業務場景八:目標檢測

  • 直播互動:主播手勢交互、取代人工,由機器自動生成事件發生的時間點及事件類別

  • 物體動態錨點跟蹤:支持用戶對視頻內容中的物體進行標記並跟蹤。

  • 邊看邊買:在視頻中匹配和搜索同款/相似/相關商品,為視頻電商的邊看邊買提供自動選品技術,同時利用用戶在淘寶、天貓的用戶行為進行邊看邊買商品的個性化推薦。

阿里雲視頻技術專家柿蒂:視頻AI in傳媒九大業務場景解析

業務場景九:體育分析

  • 視頻打標:取代人工,由機器自動生成事件發生的時間點及事件類別

  • 集錦生成:根據打標信息自動生成比賽場景、球員集錦

  • 比賽轉播:自動完成鏡頭切換、遠近景切換,球員特寫

  • 球員數據信息獲取:跟蹤球員軌跡、獲取球員在全場比賽中的位置,跑動數據

在分享的最後,柿蒂將所有阿里雲AI+視頻的能力做了整體展示,他也表示,在未來,阿里雲持續探究AI+視頻技術,並且將更多優秀的能力開放給行業。

阿里雲視頻技術專家柿蒂:視頻AI in傳媒九大業務場景解析

相關推薦

推薦中...