塗鴉一鍵變逼真照片，我被自己的繪畫技巧驚呆了 | CVPR新研究

塗鴉算法人工智能英偉達韓國程序員技術藝術 Twitter 鼠標動物盜夢空間 UC瀏覽器電腦量子位 2019-06-19

安妮發自凹非寺

量子位出品 | 公眾號 QbitAI

平靜的水面上，劇變突然出現。

塗鴉一鍵變逼真照片，我被自己的繪畫技巧驚呆了 | CVPR新研究

一條黑色弧線從半空延伸而下，劃過半個圈。繼而自己填滿，儼然一座巖山，就這樣落在水中間。

水面漾起波紋。揉揉眼睛，絕不是看花了眼：你看那巖山紋路崎嶇，倒影也是清晰可見。

第二座、第三座，也接踵而至。

透過現象看本質，控制這一切的，都是電腦前那個手握鼠標亂塗鴉的程序員。

塗鴉一鍵變逼真照片，我被自己的繪畫技巧驚呆了 | CVPR新研究

英偉達程序員の現實扭曲力場，發動！

塗鴉一鍵變逼真照片，我被自己的繪畫技巧驚呆了 | CVPR新研究

他手握的工具，名叫GauGAN，和印象派大師高更(Gauguin)不到一字之差，而繪畫的逼真程度又遠在其上。

除了憑空造山，還能秒加飛流直下的大瀑布：

塗鴉一鍵變逼真照片，我被自己的繪畫技巧驚呆了 | CVPR新研究

栽棵樹什麼的，就更是小菜一碟：

塗鴉一鍵變逼真照片，我被自己的繪畫技巧驚呆了 | CVPR新研究

照片裡該有什麼，全憑鼠標安排。

除了造出不存在的物體，GauGAN還能穿越日夜，扭曲季節：

塗鴉一鍵變逼真照片，我被自己的繪畫技巧驚呆了 | CVPR新研究

而且它造出來的景物，細緻到以前的算法都望塵莫及。

塗鴉一鍵變逼真照片，我被自己的繪畫技巧驚呆了 | CVPR新研究

那些對細節要求甚高的作品，比如運動場景、動物照片等等，它也都能根據一張塗鴉生成出來。

塗鴉一鍵變逼真照片，我被自己的繪畫技巧驚呆了 | CVPR新研究

有Twitter網友發出來自英偉達GTC展廳的驚呼：

媽呀我被自己的藝術能力驚呆了！

塗鴉一鍵變逼真照片，我被自己的繪畫技巧驚呆了 | CVPR新研究

神仙操作，大洋此岸的量子位自愧不如。

好了，正式介紹一下英偉達出品的GauGAN：你畫一幅塗鴉，用顏色區分每一塊對應著什麼物體，它就能照著你的大作，合成以假亂真的真實世界效果圖。在AI界，你的塗鴉有個學名，叫“語義佈局”。

要實現這種能力，GauGAN靠的是空間自適應歸一化合成法SPADE架構。這種算法的論文Semantic Image Synthesis with Spatially-Adaptive Normalization已經被CVPR 2019接收，而且還是口頭報告（oral）。

這篇論文的一作，照例還是實習生。另外幾位作者來自英偉達和MIT，CycleGAN的創造者華人小哥哥朱儁彥也在其中。

在基於語義合成圖像這個領域裡，這可是目前效果最強的方法。

神奇的空間適應

在論文中，研究人員揭開了SPADE的神祕面紗。

此前，在語義圖像合成領域有一套“流水線式”的加工流程：直接將語義佈局（Semantic Layout）作為深度神經網絡的輸入，然後通過卷積、歸一化和非線性層的處理，輸出合成圖像。

塗鴉一鍵變逼真照片，我被自己的繪畫技巧驚呆了 | CVPR新研究

△ 推斷語義佈局合成圖像 | 圖片來自論文Inferring Semantic Layout for Hierarchical Text-to-Image Synthesis

但是，這種傳統神經網絡架構並不是最優解，其中的歸一化層通常會讓輸入語義蒙版中的信息流失，導致合成效果變差。

為了解決這個問題，研究人員提出了一種新的方法，空間適應標準化（SPatially-Adaptive (DE)normalization），簡稱SPADE。

這是一種條件歸一化層，它通過學習到的空間適應變換，用語義佈局調節激活函數，讓語義信息在整個網絡中有效傳播，避免語義信息流失。

SPADE與批標準化（Batch Normalization）類似，激活函數channel-wise是標準化的，但在很多標準化技術中，實際標準化操作後就應用到了學習過的仿射層（Affine Layer）。

塗鴉一鍵變逼真照片，我被自己的繪畫技巧驚呆了 | CVPR新研究

但在SPADE中，仿射層是從語義分割圖中學習的。這類似於條件標準化，不過所學習的仿射參數現在需要空間自適應，也就是對每個語義標籤使用不同的縮放和偏差。

塗鴉一鍵變逼真照片，我被自己的繪畫技巧驚呆了 | CVPR新研究

就這樣一個小小的改變，讓語義信號可以作用於所有層輸出，不會在生成圖像中丟失語義信息。

塗鴉一鍵變逼真照片，我被自己的繪畫技巧驚呆了 | CVPR新研究

△ SPACE生成器結構

此外，因為語義信息是通過SPADE層提供的，因此隨機向量成為神經網絡的輸入，所以，你還能隨心改變圖像的畫風。

效果+++

研究人員用COCO-Stuff、ADE20K和Cityscapes等數據集測試SPADE與前人的效果如何。

結果發現，這項新研究面前，此前CRN、pix2pixHD等明星語義圖像合成方法效果已經成為渣渣：

此前的pix2pixHD和CRN算法只能分辨開天和海的顏色，而GauGAN卻遙遙領跑，連漸變的海水顏色和四散的浪花都合成出來了，甚至運動場的場地線：

塗鴉一鍵變逼真照片，我被自己的繪畫技巧驚呆了 | CVPR新研究

此外，研究人員用平均檢測評價函數（mIoU）、像素準確度（accu）和FID（Frechet Inception Distance）三個維度評估SPADE與其他語義合成模型的評分，SPADE均優於其他模型。

塗鴉一鍵變逼真照片，我被自己的繪畫技巧驚呆了 | CVPR新研究

作者介紹

這篇論文由英偉達的研究人員Taesung Park、Ming-Yu Liu、Ting-Chun Wang和Jun-Yan Zhu（朱儁彥）共同完成。

一作Taesung Park是一位韓國小哥，本科和碩士就讀於斯坦福，現在還在攻讀UC伯克利計算機專業的博士學位。Park哥的論文分別被ICCV 2017、ICML 2019和CVPR 2019三場頂會接收過。

塗鴉一鍵變逼真照片，我被自己的繪畫技巧驚呆了 | CVPR新研究

△ Taesung Park

目前，Park哥在英偉達實習，由研究員Ming-Yu Liu（劉洺堉）領導。

Ming-Yu Liu在參與過很多CV圈內耳熟能詳的項目，包括vid2vid、pix2pixHD、CoupledGAN、FastPhotoStyle、MoCoGAN、FastPhotoStyle等，他的研究在NeurIPS、CVPR、ECCV大會上頻頻現身。

塗鴉一鍵變逼真照片，我被自己的繪畫技巧驚呆了 | CVPR新研究

三作Ting-Chun Wang是Ming-Yu Liu的英偉達研究院同事，也是一作Park哥在UC伯克利的“嫡系”師兄。

塗鴉一鍵變逼真照片，我被自己的繪畫技巧驚呆了 | CVPR新研究

四作是一個熟悉的華人名字：朱儁彥。在計算機圈，朱儁彥是大神一樣的存在。

2012年清華大學計算機科學系的工學學士畢業後，朱儁彥在CMU和UC伯克利經過5年學習獲得UC伯克利電氣工程與計算機科學系的博士學位，也師從Alexei Efros。

塗鴉一鍵變逼真照片，我被自己的繪畫技巧驚呆了 | CVPR新研究

提出了經典的“馬變斑馬”的CycleGAN後，還其博士畢業畢業論文Learning to Generate Images，獲得了計算機圖形學頂會ACM SIGGRAPH 2018“傑出博士論文獎”。

博士畢業後，朱儁彥成為MIT計算機與人工智能實驗室（CSAIL）一名博士後研究員。

關於朱儁彥，這篇論文裡還有個值得注意的小細節：他為自己標註了兩家所屬機構：MIT和英偉達。他此前發表的論文中，即便沒少和英偉達合作，所屬機構也都是MIT或者之前讀博的UC伯克利。

塗鴉一鍵變逼真照片，我被自己的繪畫技巧驚呆了 | CVPR新研究

△ 論文截圖

傳送門

目前，論文已經放出，研究人員表示代碼、訓練模型和所有圖像馬上就要來了。

在正在舉辦的英偉達GTC 19大會上，GauGAN已經亮相了。美國時間週三週五Ting-Chun Wang和Ming-Yu Liu還將進行相關演講。

論文地址：

https://arxiv.org/abs/1903.07291

GitHub地址（代碼即將上線）：

https://github.com/NVlabs/SPADE

項目地址：

https://nvlabs.github.io/SPADE/

塗鴉一鍵變逼真照片，我被自己的繪畫技巧驚呆了 | CVPR新研究

— 完 —

誠摯招聘

量子位正在招募編輯/記者，工作地點在北京中關村。期待有才氣、有熱情的同學加入我們！相關細節，請在量子位公眾號(QbitAI)對話界面，回覆“招聘”兩個字。

量子位 QbitAI · 頭條號簽約作者

վ'ᴗ' ի 追蹤AI技術和產品新動態

相關推薦

推薦中...