若樸 發自 凹非寺
量子位 報道 | 公眾號 QbitAI
這句話你說過沒有?不承認?我給你看證據!
於是你就看到一段視頻,畫面中的你開口說了一段你不曾講過的話,口型自然、動作流暢。這是怎麼回事?
來自牛津大學工程科學系視覺幾何組的三位工程師,最近提出了一種生成聊天面部視頻的方法。這個方法需要兩個輸入信息:
一張靜止的面部圖像
一個語音片段
可以得到的輸出,是口型與語音片段同步且匹配的視頻。這個方法可以實時工作,並且在運行時,可以應用於未曾見過的面孔和未曾聽過的音頻,也就是說,不是訓練數據的情況下也能工作。
幹說不如來段視頻,一下就全明白了:
為了實現上述效果,牛津大學的團隊提出了一種編碼-解碼CNN模型,使用面部和音頻的聯合嵌入,來生成合成的面部聊天視頻幀。這個模型經過數十小時未標記視頻的訓練。
相關Paper在此:
https://arxiv.org/pdf/1705.02966.pdf
【完】
招聘
量子位正在招募編輯記者、運營、產品等崗位,工作地點在北京中關村。相關細節,請在公眾號對話界面,回覆:“招聘”。
One More Thing…
今天AI界還有哪些事值得關注?在量子位(QbitAI)公眾號對話界面回覆“今天”,看我們全網蒐羅的AI行業和研究動態。筆芯~
相關推薦
推薦中...