3D栗子 發自 凹非寺 量子位 出品 | 公眾號 QbitAI
當你站在空曠的屋子裡,眼神堅定地望向遠方。
有隻AI已經獲得了你的影像,併合成了一座3D全身像。
後來,你開始解放天性,自在舞動,卻驚訝地發現:
那個虛擬的自己,也在用同樣的姿勢起舞,並且幾乎和你同步。
一切彷彿與生俱來,像是你的靈魂注入了它的身體。
這是一項中選了CVPR 2019 Oral的研究,但不止是因為效果逼真:
更重要的是,它沒有用到3D形狀建模 (Explicit 3D Shape Modeling) ,而是依靠2D紋理映射 (2D Texture Map) ,來完成渲染的。
而在這樣的情況下,渲染依然逼真。就算是渲染沒見過的新姿勢,也不在話下。
到底是怎麼做到的?
優秀的腦回路
論文寫到,這是介於經典圖形學方法與深度學習方法之間的一條路。
其中,圖形學的思路就是,把幾何 (Geometry) 跟紋理 (Texture) 分開處理。
幾何是3D的,好比白色的人體雕塑,紋理是2D的,好比外面的皮膚。
而神經網絡的任務,只限於預測從紋理到輸出圖之間,需要怎樣的圖像形變/扭曲 (Warping) 。換句話說,把2D“皮膚”貼到3D人類的身上。
具體來講,那是一個全卷積網絡,角色是生成器 (上圖黃色部分) 。它要根據輸入的人類姿態,以及攝像頭參數,為人體的各個特徵點,生成2D紋理座標。
用這些紋理座標,可以預測出2D的RGB圖像。
反正,最終顯現的效果,也是一幀接一幀的2D圖。每一幀的角度有所不同,看去便是3D人像了:
就這樣,完美避開了3D形狀建模。
而訓練過程中,網絡會把每一次預測出的2D圖,和Ground Truth做對比,再把損失 (Losses) 反向傳播回到生成器裡,增強預測能力。模型是用多視角視頻數據來訓練的。
訓練完成後,就算你擺出AI沒見過的新姿勢,它也能做出成功的渲染。
團隊說那是因為,保留顯式的紋理表徵 (Explicit Texture Representation) ,有助於提升泛化能力。
當然,沒做3D形狀建模,也不代表全程都在2D中度過。
別忘了,和2D紋理搭配食用的,是3D人體幾何。也就是說,人類的姿態估計,是3D姿態估計。
這一部分,團隊從大前輩DensePose那裡,借用了精髓:把攝像頭拍下的2D圖中,人類的每個像素點,都映射到3D人體表面的特定位置上。
於是就有了3D姿態。還記得麼,上面的2D紋理預測網絡,輸入就是姿態。
不用3D形狀建模的3D人像合成方法,達成。
引用一句俗語:意料之外,情理之中。
來自俄羅斯
這個思路清新流暢的研究,來自莫斯科的三星AI中心,以及斯科爾科沃科技研究院。團隊成員有12人之多。
如果你想要更深刻地感受這個模型的魅力,請從傳送門前往觀賞。
論文傳送門:
https://arxiv.org/abs/1905.08776
主頁傳送門:
https://saic-violet.github.io/texturedavatar/
前輩DensePose傳送門:
http://densepose.org/
— 完 —
誠摯招聘
量子位正在招募編輯/記者,工作地點在北京中關村。期待有才氣、有熱情的同學加入我們!相關細節,請在量子位公眾號(QbitAI)對話界面,回覆“招聘”兩個字。
量子位 QbitAI · 頭條號簽約作者
վ'ᴗ' ի 追蹤AI技術和產品新動態