牛津大學最新研究:給我一張照片,就能讓你開口講話

牛津大學最新研究:給我一張照片,就能讓你開口講話

若樸 發自 凹非寺

量子位 報道 | 公眾號 QbitAI

這句話你說過沒有?不承認?我給你看證據!

於是你就看到一段視頻,畫面中的你開口說了一段你不曾講過的話,口型自然、動作流暢。這是怎麼回事?

來自牛津大學工程科學系視覺幾何組的三位工程師,最近提出了一種生成聊天面部視頻的方法。這個方法需要兩個輸入信息:

  • 一張靜止的面部圖像

  • 一個語音片段

可以得到的輸出,是口型與語音片段同步且匹配的視頻。這個方法可以實時工作,並且在運行時,可以應用於未曾見過的面孔和未曾聽過的音頻,也就是說,不是訓練數據的情況下也能工作。

幹說不如來段視頻,一下就全明白了:

牛津大學最新研究:給我一張照片,就能讓你開口講話

為了實現上述效果,牛津大學的團隊提出了一種編碼-解碼CNN模型,使用面部和音頻的聯合嵌入,來生成合成的面部聊天視頻幀。這個模型經過數十小時未標記視頻的訓練。

相關Paper在此:

https://arxiv.org/pdf/1705.02966.pdf

【完】

招聘

量子位正在招募編輯記者、運營、產品等崗位,工作地點在北京中關村。相關細節,請在公眾號對話界面,回覆:“招聘”。

One More Thing…

今天AI界還有哪些事值得關注?在量子位(QbitAI)公眾號對話界面回覆“今天”,看我們全網蒐羅的AI行業和研究動態。筆芯~

相關推薦

推薦中...