三星新研究：生成逼真3D人偶，不用3D形狀建模，還能學會你的舞步

人工智能三星集團量子位 2019-06-06

3D栗子發自凹非寺量子位出品 | 公眾號 QbitAI

當你站在空曠的屋子裡，眼神堅定地望向遠方。

有隻AI已經獲得了你的影像，併合成了一座3D全身像。

後來，你開始解放天性，自在舞動，卻驚訝地發現：

那個虛擬的自己，也在用同樣的姿勢起舞，並且幾乎和你同步。

一切彷彿與生俱來，像是你的靈魂注入了它的身體。

這是一項中選了CVPR 2019 Oral的研究，但不止是因為效果逼真：

更重要的是，它沒有用到3D形狀建模 (Explicit 3D Shape Modeling) ，而是依靠2D紋理映射 (2D Texture Map) ，來完成渲染的。

而在這樣的情況下，渲染依然逼真。就算是渲染沒見過的新姿勢，也不在話下。

到底是怎麼做到的？

優秀的腦回路

論文寫到，這是介於經典圖形學方法與深度學習方法之間的一條路。

其中，圖形學的思路就是，把幾何 (Geometry) 跟紋理 (Texture) 分開處理。

幾何是3D的，好比白色的人體雕塑，紋理是2D的，好比外面的皮膚。

而神經網絡的任務，只限於預測從紋理到輸出圖之間，需要怎樣的圖像形變/扭曲 (Warping) 。換句話說，把2D“皮膚”貼到3D人類的身上。

具體來講，那是一個全卷積網絡，角色是生成器 (上圖黃色部分) 。它要根據輸入的人類姿態，以及攝像頭參數，為人體的各個特徵點，生成2D紋理座標。

用這些紋理座標，可以預測出2D的RGB圖像。

反正，最終顯現的效果，也是一幀接一幀的2D圖。每一幀的角度有所不同，看去便是3D人像了：

就這樣，完美避開了3D形狀建模。

而訓練過程中，網絡會把每一次預測出的2D圖，和Ground Truth做對比，再把損失 (Losses) 反向傳播回到生成器裡，增強預測能力。模型是用多視角視頻數據來訓練的。

訓練完成後，就算你擺出AI沒見過的新姿勢，它也能做出成功的渲染。

團隊說那是因為，保留顯式的紋理表徵 (Explicit Texture Representation) ，有助於提升泛化能力。

當然，沒做3D形狀建模，也不代表全程都在2D中度過。

別忘了，和2D紋理搭配食用的，是3D人體幾何。也就是說，人類的姿態估計，是3D姿態估計。

這一部分，團隊從大前輩DensePose那裡，借用了精髓：把攝像頭拍下的2D圖中，人類的每個像素點，都映射到3D人體表面的特定位置上。

於是就有了3D姿態。還記得麼，上面的2D紋理預測網絡，輸入就是姿態。

不用3D形狀建模的3D人像合成方法，達成。

引用一句俗語：意料之外，情理之中。

來自俄羅斯

這個思路清新流暢的研究，來自莫斯科的三星AI中心，以及斯科爾科沃科技研究院。團隊成員有12人之多。

如果你想要更深刻地感受這個模型的魅力，請從傳送門前往觀賞。

論文傳送門：

https://arxiv.org/abs/1905.08776

主頁傳送門：

https://saic-violet.github.io/texturedavatar/

前輩DensePose傳送門：

http://densepose.org/

— 完 —

誠摯招聘

量子位正在招募編輯/記者，工作地點在北京中關村。期待有才氣、有熱情的同學加入我們！相關細節，請在量子位公眾號(QbitAI)對話界面，回覆“招聘”兩個字。

量子位 QbitAI · 頭條號簽約作者

վ'ᴗ' ի 追蹤AI技術和產品新動態