塗鴉一鍵變逼真照片,我被自己的繪畫技巧驚呆了 | CVPR新研究

安妮 發自 凹非寺

量子位 出品 | 公眾號 QbitAI

平靜的水面上,劇變突然出現。

塗鴉一鍵變逼真照片,我被自己的繪畫技巧驚呆了 | CVPR新研究

一條黑色弧線從半空延伸而下,劃過半個圈。繼而自己填滿,儼然一座巖山,就這樣落在水中間。

水面漾起波紋。揉揉眼睛,絕不是看花了眼:你看那巖山紋路崎嶇,倒影也是清晰可見。

第二座、第三座,也接踵而至。

透過現象看本質,控制這一切的,都是電腦前那個手握鼠標亂塗鴉的程序員。

塗鴉一鍵變逼真照片,我被自己的繪畫技巧驚呆了 | CVPR新研究

英偉達程序員の現實扭曲力場,發動!

塗鴉一鍵變逼真照片,我被自己的繪畫技巧驚呆了 | CVPR新研究

他手握的工具,名叫GauGAN,和印象派大師高更(Gauguin)不到一字之差,而繪畫的逼真程度又遠在其上。

除了憑空造山,還能秒加飛流直下的大瀑布:

塗鴉一鍵變逼真照片,我被自己的繪畫技巧驚呆了 | CVPR新研究

栽棵樹什麼的,就更是小菜一碟:

塗鴉一鍵變逼真照片,我被自己的繪畫技巧驚呆了 | CVPR新研究

照片裡該有什麼,全憑鼠標安排。

除了造出不存在的物體,GauGAN還能穿越日夜,扭曲季節:

塗鴉一鍵變逼真照片,我被自己的繪畫技巧驚呆了 | CVPR新研究

而且它造出來的景物,細緻到以前的算法都望塵莫及。


塗鴉一鍵變逼真照片,我被自己的繪畫技巧驚呆了 | CVPR新研究

那些對細節要求甚高的作品,比如運動場景、動物照片等等,它也都能根據一張塗鴉生成出來。

塗鴉一鍵變逼真照片,我被自己的繪畫技巧驚呆了 | CVPR新研究

有Twitter網友發出來自英偉達GTC展廳的驚呼:

媽呀我被自己的藝術能力驚呆了!


塗鴉一鍵變逼真照片,我被自己的繪畫技巧驚呆了 | CVPR新研究

神仙操作,大洋此岸的量子位自愧不如。

好了,正式介紹一下英偉達出品的GauGAN:你畫一幅塗鴉,用顏色區分每一塊對應著什麼物體,它就能照著你的大作,合成以假亂真的真實世界效果圖。在AI界,你的塗鴉有個學名,叫“語義佈局”。

要實現這種能力,GauGAN靠的是空間自適應歸一化合成法SPADE架構。這種算法的論文Semantic Image Synthesis with Spatially-Adaptive Normalization已經被CVPR 2019接收,而且還是口頭報告(oral)。

這篇論文的一作,照例還是實習生。另外幾位作者來自英偉達和MIT,CycleGAN的創造者華人小哥哥朱儁彥也在其中。

在基於語義合成圖像這個領域裡,這可是目前效果最強的方法。

神奇的空間適應

在論文中,研究人員揭開了SPADE的神祕面紗。

此前,在語義圖像合成領域有一套“流水線式”的加工流程:直接將語義佈局(Semantic Layout)作為深度神經網絡的輸入,然後通過卷積、歸一化和非線性層的處理,輸出合成圖像。

塗鴉一鍵變逼真照片,我被自己的繪畫技巧驚呆了 | CVPR新研究

推斷語義佈局合成圖像 | 圖片來自論文Inferring Semantic Layout for Hierarchical Text-to-Image Synthesis

但是,這種傳統神經網絡架構並不是最優解,其中的歸一化層通常會讓輸入語義蒙版中的信息流失,導致合成效果變差。

為了解決這個問題,研究人員提出了一種新的方法,空間適應標準化(SPatially-Adaptive (DE)normalization),簡稱SPADE。

這是一種條件歸一化層,它通過學習到的空間適應變換,用語義佈局調節激活函數,讓語義信息在整個網絡中有效傳播,避免語義信息流失。

SPADE與批標準化(Batch Normalization)類似,激活函數channel-wise是標準化的,但在很多標準化技術中,實際標準化操作後就應用到了學習過的仿射層(Affine Layer)。

塗鴉一鍵變逼真照片,我被自己的繪畫技巧驚呆了 | CVPR新研究

但在SPADE中,仿射層是從語義分割圖中學習的。這類似於條件標準化,不過所學習的仿射參數現在需要空間自適應,也就是對每個語義標籤使用不同的縮放和偏差。

塗鴉一鍵變逼真照片,我被自己的繪畫技巧驚呆了 | CVPR新研究

就這樣一個小小的改變,讓語義信號可以作用於所有層輸出,不會在生成圖像中丟失語義信息。

塗鴉一鍵變逼真照片,我被自己的繪畫技巧驚呆了 | CVPR新研究

SPACE生成器結構

此外,因為語義信息是通過SPADE層提供的,因此隨機向量成為神經網絡的輸入,所以,你還能隨心改變圖像的畫風。

效果+++

研究人員用COCO-Stuff、ADE20K和Cityscapes等數據集測試SPADE與前人的效果如何。

結果發現,這項新研究面前,此前CRN、pix2pixHD等明星語義圖像合成方法效果已經成為渣渣

此前的pix2pixHD和CRN算法只能分辨開天和海的顏色,而GauGAN卻遙遙領跑,連漸變的海水顏色和四散的浪花都合成出來了,甚至運動場的場地線:

塗鴉一鍵變逼真照片,我被自己的繪畫技巧驚呆了 | CVPR新研究

此外,研究人員用平均檢測評價函數(mIoU)、像素準確度(accu)和FID(Frechet Inception Distance)三個維度評估SPADE與其他語義合成模型的評分,SPADE均優於其他模型。

塗鴉一鍵變逼真照片,我被自己的繪畫技巧驚呆了 | CVPR新研究

作者介紹

這篇論文由英偉達的研究人員Taesung Park、Ming-Yu Liu、Ting-Chun Wang和Jun-Yan Zhu(朱儁彥)共同完成。

一作Taesung Park是一位韓國小哥,本科和碩士就讀於斯坦福,現在還在攻讀UC伯克利計算機專業的博士學位。Park哥的論文分別被ICCV 2017、ICML 2019和CVPR 2019三場頂會接收過。

塗鴉一鍵變逼真照片,我被自己的繪畫技巧驚呆了 | CVPR新研究

Taesung Park

目前,Park哥在英偉達實習,由研究員Ming-Yu Liu(劉洺堉)領導。

Ming-Yu Liu在參與過很多CV圈內耳熟能詳的項目,包括vid2vid、pix2pixHD、CoupledGAN、FastPhotoStyle、MoCoGAN、FastPhotoStyle等,他的研究在NeurIPS、CVPR、ECCV大會上頻頻現身。

塗鴉一鍵變逼真照片,我被自己的繪畫技巧驚呆了 | CVPR新研究

三作Ting-Chun Wang是Ming-Yu Liu的英偉達研究院同事,也是一作Park哥在UC伯克利的“嫡系”師兄。

塗鴉一鍵變逼真照片,我被自己的繪畫技巧驚呆了 | CVPR新研究

四作是一個熟悉的華人名字:朱儁彥。在計算機圈,朱儁彥是大神一樣的存在。

2012年清華大學計算機科學系的工學學士畢業後,朱儁彥在CMU和UC伯克利經過5年學習獲得UC伯克利電氣工程與計算機科學系的博士學位,也師從Alexei Efros。

塗鴉一鍵變逼真照片,我被自己的繪畫技巧驚呆了 | CVPR新研究

提出了經典的“馬變斑馬”的CycleGAN後,還其博士畢業畢業論文Learning to Generate Images,獲得了計算機圖形學頂會ACM SIGGRAPH 2018“傑出博士論文獎”。

博士畢業後,朱儁彥成為MIT計算機與人工智能實驗室(CSAIL)一名博士後研究員。

關於朱儁彥,這篇論文裡還有個值得注意的小細節:他為自己標註了兩家所屬機構:MIT和英偉達。他此前發表的論文中,即便沒少和英偉達合作,所屬機構也都是MIT或者之前讀博的UC伯克利。

塗鴉一鍵變逼真照片,我被自己的繪畫技巧驚呆了 | CVPR新研究

論文截圖

傳送門

目前,論文已經放出,研究人員表示代碼、訓練模型和所有圖像馬上就要來了。

在正在舉辦的英偉達GTC 19大會上,GauGAN已經亮相了。美國時間週三週五Ting-Chun Wang和Ming-Yu Liu還將進行相關演講。

論文地址:

https://arxiv.org/abs/1903.07291

GitHub地址(代碼即將上線):

https://github.com/NVlabs/SPADE

項目地址:

https://nvlabs.github.io/SPADE/

塗鴉一鍵變逼真照片,我被自己的繪畫技巧驚呆了 | CVPR新研究

誠摯招聘

量子位正在招募編輯/記者,工作地點在北京中關村。期待有才氣、有熱情的同學加入我們!相關細節,請在量子位公眾號(QbitAI)對話界面,回覆“招聘”兩個字。

量子位 QbitAI · 頭條號簽約作者

վ'ᴗ' ի 追蹤AI技術和產品新動態

相關推薦

推薦中...