'GitHub熱榜第一：小姐姐自拍，變成二次元萌妹，效果遠勝CycleGAN'

GitHub 人工智能韓國算法設計文森特·梵高量子位 2019-08-11

如何能讓一個小姐姐屬於你？

把她變成二次元的人類，就可以解鎖一個老婆了。

韓國遊戲公司NCSOFT，最近開源了一隻技藝精湛的AI。

只要任意輸入小姐姐的自拍，就能得到她在二次元的樣子了：

如何能讓一個小姐姐屬於你？

把她變成二次元的人類，就可以解鎖一個老婆了。

韓國遊戲公司NCSOFT，最近開源了一隻技藝精湛的AI。

只要任意輸入小姐姐的自拍，就能得到她在二次元的樣子了：

對比原圖，感覺小姐姐還是那個小姐姐。

一個眼神，一個圍笑，都是三次元時的樣子沒變。

當然，如果你有喜歡的二次元老婆，想看她穿越到現實會是什麼樣子，也沒有問題。只要輸入一張她的頭像：

如何能讓一個小姐姐屬於你？

把她變成二次元的人類，就可以解鎖一個老婆了。

韓國遊戲公司NCSOFT，最近開源了一隻技藝精湛的AI。

只要任意輸入小姐姐的自拍，就能得到她在二次元的樣子了：

對比原圖，感覺小姐姐還是那個小姐姐。

一個眼神，一個圍笑，都是三次元時的樣子沒變。

當然，如果你有喜歡的二次元老婆，想看她穿越到現實會是什麼樣子，也沒有問題。只要輸入一張她的頭像：

就生成了逼真的小姐姐。

這個算法叫U-GAT-IT，名字也令人神往。重要的是，它是用無監督方法訓練的，連成對的數據都不需要。

現在，團隊已經把TensorFlow實現和PyTorch實現，都放上了GitHub。兩個項目一起登上了趨勢榜，且TF項目一度衝到第一。

在食用之前，不妨來看看究竟是怎樣的AI，能給你這般豐盛的福利：

這隻GAN的注意力，與眾不同

U-GAT-IT，是一個圖到圖翻譯算法，由兩隻GAN組成的。

一隻GAN，要把妹子的自拍，變成二次元小姐姐。這是從源領域到目標領域的翻譯。

另一隻GAN，要把二次元小姐姐，再變回三次元自拍。這是從目標領域到源領域的翻譯。

這樣，就有兩套生成器&判別器的組合。

生成器負責生成逼真的假圖，欺騙判別器；而判別器負責識破假圖。相生相長。

如何能讓一個小姐姐屬於你？

把她變成二次元的人類，就可以解鎖一個老婆了。

韓國遊戲公司NCSOFT，最近開源了一隻技藝精湛的AI。

只要任意輸入小姐姐的自拍，就能得到她在二次元的樣子了：

對比原圖，感覺小姐姐還是那個小姐姐。

一個眼神，一個圍笑，都是三次元時的樣子沒變。

當然，如果你有喜歡的二次元老婆，想看她穿越到現實會是什麼樣子，也沒有問題。只要輸入一張她的頭像：

就生成了逼真的小姐姐。

這個算法叫U-GAT-IT，名字也令人神往。重要的是，它是用無監督方法訓練的，連成對的數據都不需要。

現在，團隊已經把TensorFlow實現和PyTorch實現，都放上了GitHub。兩個項目一起登上了趨勢榜，且TF項目一度衝到第一。

在食用之前，不妨來看看究竟是怎樣的AI，能給你這般豐盛的福利：

這隻GAN的注意力，與眾不同

U-GAT-IT，是一個圖到圖翻譯算法，由兩隻GAN組成的。

一隻GAN，要把妹子的自拍，變成二次元小姐姐。這是從源領域到目標領域的翻譯。

另一隻GAN，要把二次元小姐姐，再變回三次元自拍。這是從目標領域到源領域的翻譯。

這樣，就有兩套生成器&判別器的組合。

生成器負責生成逼真的假圖，欺騙判別器；而判別器負責識破假圖。相生相長。

而為了生成更加逼真的圖像，團隊給這兩隻四個部件，加入了不同的注意力。

具體的方法，受到了周博磊團隊2016年CAM研究的啟發。

CAM，是類激活圖的簡稱。它能找出對於判斷一張圖的真假，最重要的區域，然後AI就能把注意力集中在那裡。

只不過在上採樣部分，CAM用的是全局平均池化。而U-GAT-IT為了更好的效果，結合了全局的平均池化和最大池化。

這裡，用第一隻GAN，就是生成二次元小姐姐的GAN來舉例。先看判別器：

如何能讓一個小姐姐屬於你？

把她變成二次元的人類，就可以解鎖一個老婆了。

韓國遊戲公司NCSOFT，最近開源了一隻技藝精湛的AI。

只要任意輸入小姐姐的自拍，就能得到她在二次元的樣子了：

對比原圖，感覺小姐姐還是那個小姐姐。

一個眼神，一個圍笑，都是三次元時的樣子沒變。

當然，如果你有喜歡的二次元老婆，想看她穿越到現實會是什麼樣子，也沒有問題。只要輸入一張她的頭像：

就生成了逼真的小姐姐。

這個算法叫U-GAT-IT，名字也令人神往。重要的是，它是用無監督方法訓練的，連成對的數據都不需要。

現在，團隊已經把TensorFlow實現和PyTorch實現，都放上了GitHub。兩個項目一起登上了趨勢榜，且TF項目一度衝到第一。

在食用之前，不妨來看看究竟是怎樣的AI，能給你這般豐盛的福利：

這隻GAN的注意力，與眾不同

U-GAT-IT，是一個圖到圖翻譯算法，由兩隻GAN組成的。

一隻GAN，要把妹子的自拍，變成二次元小姐姐。這是從源領域到目標領域的翻譯。

另一隻GAN，要把二次元小姐姐，再變回三次元自拍。這是從目標領域到源領域的翻譯。

這樣，就有兩套生成器&判別器的組合。

生成器負責生成逼真的假圖，欺騙判別器；而判別器負責識破假圖。相生相長。

而為了生成更加逼真的圖像，團隊給這兩隻四個部件，加入了不同的注意力。

具體的方法，受到了周博磊團隊2016年CAM研究的啟發。

CAM，是類激活圖的簡稱。它能找出對於判斷一張圖的真假，最重要的區域，然後AI就能把注意力集中在那裡。

只不過在上採樣部分，CAM用的是全局平均池化。而U-GAT-IT為了更好的效果，結合了全局的平均池化和最大池化。

這裡，用第一隻GAN，就是生成二次元小姐姐的GAN來舉例。先看判別器：

它要判斷一張圖片，是不是和數據集裡的二次元妹子屬於一個類別。假如不是同類，那生成器的作品。

判別器有一個輔助分類器 (CAM) ，會找出對類別判斷更重要的區域。

這也會引導生成器，把注意力集中在重要的區域。

再看生成器：

如何能讓一個小姐姐屬於你？

把她變成二次元的人類，就可以解鎖一個老婆了。

韓國遊戲公司NCSOFT，最近開源了一隻技藝精湛的AI。

只要任意輸入小姐姐的自拍，就能得到她在二次元的樣子了：

對比原圖，感覺小姐姐還是那個小姐姐。

一個眼神，一個圍笑，都是三次元時的樣子沒變。

當然，如果你有喜歡的二次元老婆，想看她穿越到現實會是什麼樣子，也沒有問題。只要輸入一張她的頭像：

就生成了逼真的小姐姐。

這個算法叫U-GAT-IT，名字也令人神往。重要的是，它是用無監督方法訓練的，連成對的數據都不需要。

現在，團隊已經把TensorFlow實現和PyTorch實現，都放上了GitHub。兩個項目一起登上了趨勢榜，且TF項目一度衝到第一。

在食用之前，不妨來看看究竟是怎樣的AI，能給你這般豐盛的福利：

這隻GAN的注意力，與眾不同

U-GAT-IT，是一個圖到圖翻譯算法，由兩隻GAN組成的。

一隻GAN，要把妹子的自拍，變成二次元小姐姐。這是從源領域到目標領域的翻譯。

另一隻GAN，要把二次元小姐姐，再變回三次元自拍。這是從目標領域到源領域的翻譯。

這樣，就有兩套生成器&判別器的組合。

生成器負責生成逼真的假圖，欺騙判別器；而判別器負責識破假圖。相生相長。

而為了生成更加逼真的圖像，團隊給這兩隻四個部件，加入了不同的注意力。

具體的方法，受到了周博磊團隊2016年CAM研究的啟發。

CAM，是類激活圖的簡稱。它能找出對於判斷一張圖的真假，最重要的區域，然後AI就能把注意力集中在那裡。

只不過在上採樣部分，CAM用的是全局平均池化。而U-GAT-IT為了更好的效果，結合了全局的平均池化和最大池化。

這裡，用第一隻GAN，就是生成二次元小姐姐的GAN來舉例。先看判別器：

它要判斷一張圖片，是不是和數據集裡的二次元妹子屬於一個類別。假如不是同類，那生成器的作品。

判別器有一個輔助分類器 (CAM) ，會找出對類別判斷更重要的區域。

這也會引導生成器，把注意力集中在重要的區域。

再看生成器：

它的輔助分類器，會找出屬於三次元妹子的重要區域。然後，把兩個領域的重要區域作比對，注意力模塊就知道，生成器的注意力該集中在哪了。

第二隻GAN，只是生成方向相反，道理也是一樣的。

而要把兩隻GAN結合在一起，損失函數也是精心設計過的：

損失函數有四部分

一是對抗損失，不多解釋，每隻GAN都有。

二是循環損失，這是為了避免生成器和判別器找到某種平衡之後相互和解、停滯不前 (Mode Collapse) 。

要保證為目標領域生成的圖像，還要能回到源領域被認可，就給生成器用了個循環一致性 (Cycle Consistency) 的約束。

如何能讓一個小姐姐屬於你？

把她變成二次元的人類，就可以解鎖一個老婆了。

韓國遊戲公司NCSOFT，最近開源了一隻技藝精湛的AI。

只要任意輸入小姐姐的自拍，就能得到她在二次元的樣子了：

對比原圖，感覺小姐姐還是那個小姐姐。

一個眼神，一個圍笑，都是三次元時的樣子沒變。

當然，如果你有喜歡的二次元老婆，想看她穿越到現實會是什麼樣子，也沒有問題。只要輸入一張她的頭像：

就生成了逼真的小姐姐。

這個算法叫U-GAT-IT，名字也令人神往。重要的是，它是用無監督方法訓練的，連成對的數據都不需要。

現在，團隊已經把TensorFlow實現和PyTorch實現，都放上了GitHub。兩個項目一起登上了趨勢榜，且TF項目一度衝到第一。

在食用之前，不妨來看看究竟是怎樣的AI，能給你這般豐盛的福利：

這隻GAN的注意力，與眾不同

U-GAT-IT，是一個圖到圖翻譯算法，由兩隻GAN組成的。

一隻GAN，要把妹子的自拍，變成二次元小姐姐。這是從源領域到目標領域的翻譯。

另一隻GAN，要把二次元小姐姐，再變回三次元自拍。這是從目標領域到源領域的翻譯。

這樣，就有兩套生成器&判別器的組合。

生成器負責生成逼真的假圖，欺騙判別器；而判別器負責識破假圖。相生相長。

而為了生成更加逼真的圖像，團隊給這兩隻四個部件，加入了不同的注意力。

具體的方法，受到了周博磊團隊2016年CAM研究的啟發。

CAM，是類激活圖的簡稱。它能找出對於判斷一張圖的真假，最重要的區域，然後AI就能把注意力集中在那裡。

只不過在上採樣部分，CAM用的是全局平均池化。而U-GAT-IT為了更好的效果，結合了全局的平均池化和最大池化。

這裡，用第一隻GAN，就是生成二次元小姐姐的GAN來舉例。先看判別器：

它要判斷一張圖片，是不是和數據集裡的二次元妹子屬於一個類別。假如不是同類，那生成器的作品。

判別器有一個輔助分類器 (CAM) ，會找出對類別判斷更重要的區域。

這也會引導生成器，把注意力集中在重要的區域。

再看生成器：

它的輔助分類器，會找出屬於三次元妹子的重要區域。然後，把兩個領域的重要區域作比對，注意力模塊就知道，生成器的注意力該集中在哪了。

第二隻GAN，只是生成方向相反，道理也是一樣的。

而要把兩隻GAN結合在一起，損失函數也是精心設計過的：

損失函數有四部分

一是對抗損失，不多解釋，每隻GAN都有。

二是循環損失，這是為了避免生成器和判別器找到某種平衡之後相互和解、停滯不前 (Mode Collapse) 。

要保證為目標領域生成的圖像，還要能回到源領域被認可，就給生成器用了個循環一致性 (Cycle Consistency) 的約束。

三是身份損失，為了保證輸入圖像和輸出圖像的色彩分佈類似，給生成器用了個身份一致性的約束。

具體說來，從目標領域挑一張圖，如果給它做一個從源領域到目標領域的翻譯，應該不發生任何變化才對。

四是CAM損失，給出一張圖激活圖，生成器和判別器會知道它們需要提升哪裡。或者說，知道兩個領域之間，當前最大的區別在哪裡。

除此之外，U-GAT-IT還有一個重要的貢獻：

AdaLIN可選歸一化方法

通常來說，Instance Normalization (IN) 是比較常用的方法，把圖像的特徵統計直接歸一化，就能消除風格變化 (Style Variation) 。

相比之下，批量歸一化 (BN) 和層歸一化 (LN**) 沒有那麼常用。

而給圖片做歸一化的時候，更多見的是自適應的IN，簡稱AdaIN。

但在這裡，團隊提出了AdaLIN，它可以在IN和LN之間動態選擇。

如何能讓一個小姐姐屬於你？

把她變成二次元的人類，就可以解鎖一個老婆了。

韓國遊戲公司NCSOFT，最近開源了一隻技藝精湛的AI。

只要任意輸入小姐姐的自拍，就能得到她在二次元的樣子了：

對比原圖，感覺小姐姐還是那個小姐姐。

一個眼神，一個圍笑，都是三次元時的樣子沒變。

當然，如果你有喜歡的二次元老婆，想看她穿越到現實會是什麼樣子，也沒有問題。只要輸入一張她的頭像：

就生成了逼真的小姐姐。

這個算法叫U-GAT-IT，名字也令人神往。重要的是，它是用無監督方法訓練的，連成對的數據都不需要。

現在，團隊已經把TensorFlow實現和PyTorch實現，都放上了GitHub。兩個項目一起登上了趨勢榜，且TF項目一度衝到第一。

在食用之前，不妨來看看究竟是怎樣的AI，能給你這般豐盛的福利：

這隻GAN的注意力，與眾不同

U-GAT-IT，是一個圖到圖翻譯算法，由兩隻GAN組成的。

一隻GAN，要把妹子的自拍，變成二次元小姐姐。這是從源領域到目標領域的翻譯。

另一隻GAN，要把二次元小姐姐，再變回三次元自拍。這是從目標領域到源領域的翻譯。

這樣，就有兩套生成器&判別器的組合。

生成器負責生成逼真的假圖，欺騙判別器；而判別器負責識破假圖。相生相長。

而為了生成更加逼真的圖像，團隊給這兩隻四個部件，加入了不同的注意力。

具體的方法，受到了周博磊團隊2016年CAM研究的啟發。

CAM，是類激活圖的簡稱。它能找出對於判斷一張圖的真假，最重要的區域，然後AI就能把注意力集中在那裡。

只不過在上採樣部分，CAM用的是全局平均池化。而U-GAT-IT為了更好的效果，結合了全局的平均池化和最大池化。

這裡，用第一隻GAN，就是生成二次元小姐姐的GAN來舉例。先看判別器：

它要判斷一張圖片，是不是和數據集裡的二次元妹子屬於一個類別。假如不是同類，那生成器的作品。

判別器有一個輔助分類器 (CAM) ，會找出對類別判斷更重要的區域。

這也會引導生成器，把注意力集中在重要的區域。

再看生成器：

它的輔助分類器，會找出屬於三次元妹子的重要區域。然後，把兩個領域的重要區域作比對，注意力模塊就知道，生成器的注意力該集中在哪了。

第二隻GAN，只是生成方向相反，道理也是一樣的。

而要把兩隻GAN結合在一起，損失函數也是精心設計過的：

損失函數有四部分

一是對抗損失，不多解釋，每隻GAN都有。

二是循環損失，這是為了避免生成器和判別器找到某種平衡之後相互和解、停滯不前 (Mode Collapse) 。

要保證為目標領域生成的圖像，還要能回到源領域被認可，就給生成器用了個循環一致性 (Cycle Consistency) 的約束。

三是身份損失，為了保證輸入圖像和輸出圖像的色彩分佈類似，給生成器用了個身份一致性的約束。

具體說來，從目標領域挑一張圖，如果給它做一個從源領域到目標領域的翻譯，應該不發生任何變化才對。

四是CAM損失，給出一張圖激活圖，生成器和判別器會知道它們需要提升哪裡。或者說，知道兩個領域之間，當前最大的區別在哪裡。

除此之外，U-GAT-IT還有一個重要的貢獻：

AdaLIN可選歸一化方法

通常來說，Instance Normalization (IN) 是比較常用的方法，把圖像的特徵統計直接歸一化，就能消除風格變化 (Style Variation) 。

相比之下，批量歸一化 (BN) 和層歸一化 (LN**) 沒有那麼常用。

而給圖片做歸一化的時候，更多見的是自適應的IN，簡稱AdaIN。

但在這裡，團隊提出了AdaLIN，它可以在IN和LN之間動態選擇。

有了它，AI就能靈活控制形狀與質地的變化多大了。

從前基於注意力的模型，沒辦法解決不同領域之間的幾何變化；

但U-GAT-IT，既可以做需要整體變化 (Holistic Changes) 的翻譯，也可以做需要大幅形狀變化 (Large Shape Changes. ) 的翻譯。

最後再來講一下數據集。

無監督，不成對

selfie2anime，有兩個數據集。

一個是自拍數據集，一個是二次元數據集，都是隻選了妹子。

如何能讓一個小姐姐屬於你？

把她變成二次元的人類，就可以解鎖一個老婆了。

韓國遊戲公司NCSOFT，最近開源了一隻技藝精湛的AI。

只要任意輸入小姐姐的自拍，就能得到她在二次元的樣子了：

對比原圖，感覺小姐姐還是那個小姐姐。

一個眼神，一個圍笑，都是三次元時的樣子沒變。

當然，如果你有喜歡的二次元老婆，想看她穿越到現實會是什麼樣子，也沒有問題。只要輸入一張她的頭像：

就生成了逼真的小姐姐。

這個算法叫U-GAT-IT，名字也令人神往。重要的是，它是用無監督方法訓練的，連成對的數據都不需要。

現在，團隊已經把TensorFlow實現和PyTorch實現，都放上了GitHub。兩個項目一起登上了趨勢榜，且TF項目一度衝到第一。

在食用之前，不妨來看看究竟是怎樣的AI，能給你這般豐盛的福利：

這隻GAN的注意力，與眾不同

U-GAT-IT，是一個圖到圖翻譯算法，由兩隻GAN組成的。

一隻GAN，要把妹子的自拍，變成二次元小姐姐。這是從源領域到目標領域的翻譯。

另一隻GAN，要把二次元小姐姐，再變回三次元自拍。這是從目標領域到源領域的翻譯。

這樣，就有兩套生成器&判別器的組合。

生成器負責生成逼真的假圖，欺騙判別器；而判別器負責識破假圖。相生相長。

而為了生成更加逼真的圖像，團隊給這兩隻四個部件，加入了不同的注意力。

具體的方法，受到了周博磊團隊2016年CAM研究的啟發。

CAM，是類激活圖的簡稱。它能找出對於判斷一張圖的真假，最重要的區域，然後AI就能把注意力集中在那裡。

只不過在上採樣部分，CAM用的是全局平均池化。而U-GAT-IT為了更好的效果，結合了全局的平均池化和最大池化。

這裡，用第一隻GAN，就是生成二次元小姐姐的GAN來舉例。先看判別器：

它要判斷一張圖片，是不是和數據集裡的二次元妹子屬於一個類別。假如不是同類，那生成器的作品。

判別器有一個輔助分類器 (CAM) ，會找出對類別判斷更重要的區域。

這也會引導生成器，把注意力集中在重要的區域。

再看生成器：

它的輔助分類器，會找出屬於三次元妹子的重要區域。然後，把兩個領域的重要區域作比對，注意力模塊就知道，生成器的注意力該集中在哪了。

第二隻GAN，只是生成方向相反，道理也是一樣的。

而要把兩隻GAN結合在一起，損失函數也是精心設計過的：

損失函數有四部分

一是對抗損失，不多解釋，每隻GAN都有。

二是循環損失，這是為了避免生成器和判別器找到某種平衡之後相互和解、停滯不前 (Mode Collapse) 。

要保證為目標領域生成的圖像，還要能回到源領域被認可，就給生成器用了個循環一致性 (Cycle Consistency) 的約束。

三是身份損失，為了保證輸入圖像和輸出圖像的色彩分佈類似，給生成器用了個身份一致性的約束。

具體說來，從目標領域挑一張圖，如果給它做一個從源領域到目標領域的翻譯，應該不發生任何變化才對。

四是CAM損失，給出一張圖激活圖，生成器和判別器會知道它們需要提升哪裡。或者說，知道兩個領域之間，當前最大的區別在哪裡。

除此之外，U-GAT-IT還有一個重要的貢獻：

AdaLIN可選歸一化方法

通常來說，Instance Normalization (IN) 是比較常用的方法，把圖像的特徵統計直接歸一化，就能消除風格變化 (Style Variation) 。

相比之下，批量歸一化 (BN) 和層歸一化 (LN**) 沒有那麼常用。

而給圖片做歸一化的時候，更多見的是自適應的IN，簡稱AdaIN。

但在這裡，團隊提出了AdaLIN，它可以在IN和LN之間動態選擇。

有了它，AI就能靈活控制形狀與質地的變化多大了。

從前基於注意力的模型，沒辦法解決不同領域之間的幾何變化；

但U-GAT-IT，既可以做需要整體變化 (Holistic Changes) 的翻譯，也可以做需要大幅形狀變化 (Large Shape Changes. ) 的翻譯。

最後再來講一下數據集。

無監督，不成對

selfie2anime，有兩個數據集。

一個是自拍數據集，一個是二次元數據集，都是隻選了妹子。

各自是訓練集裡3400張，測試集裡100張。沒有配對。

其實也不止這些，還有馬變斑馬，貓變狗，照片變梵高畫風等等，訓練了各種功能。

來看看成果如何：

效果遠勝前輩

U-GAT-IT (b) 和許多厲害的前輩比了一場，它們是：

CycleGAN (c) 、UNIT (d) 、MUNIT (e) 、DRIT (f) 。

如何能讓一個小姐姐屬於你？

把她變成二次元的人類，就可以解鎖一個老婆了。

韓國遊戲公司NCSOFT，最近開源了一隻技藝精湛的AI。

只要任意輸入小姐姐的自拍，就能得到她在二次元的樣子了：

對比原圖，感覺小姐姐還是那個小姐姐。

一個眼神，一個圍笑，都是三次元時的樣子沒變。

當然，如果你有喜歡的二次元老婆，想看她穿越到現實會是什麼樣子，也沒有問題。只要輸入一張她的頭像：

就生成了逼真的小姐姐。

這個算法叫U-GAT-IT，名字也令人神往。重要的是，它是用無監督方法訓練的，連成對的數據都不需要。

現在，團隊已經把TensorFlow實現和PyTorch實現，都放上了GitHub。兩個項目一起登上了趨勢榜，且TF項目一度衝到第一。

在食用之前，不妨來看看究竟是怎樣的AI，能給你這般豐盛的福利：

這隻GAN的注意力，與眾不同

U-GAT-IT，是一個圖到圖翻譯算法，由兩隻GAN組成的。

一隻GAN，要把妹子的自拍，變成二次元小姐姐。這是從源領域到目標領域的翻譯。

另一隻GAN，要把二次元小姐姐，再變回三次元自拍。這是從目標領域到源領域的翻譯。

這樣，就有兩套生成器&判別器的組合。

生成器負責生成逼真的假圖，欺騙判別器；而判別器負責識破假圖。相生相長。

而為了生成更加逼真的圖像，團隊給這兩隻四個部件，加入了不同的注意力。

具體的方法，受到了周博磊團隊2016年CAM研究的啟發。

CAM，是類激活圖的簡稱。它能找出對於判斷一張圖的真假，最重要的區域，然後AI就能把注意力集中在那裡。

只不過在上採樣部分，CAM用的是全局平均池化。而U-GAT-IT為了更好的效果，結合了全局的平均池化和最大池化。

這裡，用第一隻GAN，就是生成二次元小姐姐的GAN來舉例。先看判別器：

它要判斷一張圖片，是不是和數據集裡的二次元妹子屬於一個類別。假如不是同類，那生成器的作品。

判別器有一個輔助分類器 (CAM) ，會找出對類別判斷更重要的區域。

這也會引導生成器，把注意力集中在重要的區域。

再看生成器：

它的輔助分類器，會找出屬於三次元妹子的重要區域。然後，把兩個領域的重要區域作比對，注意力模塊就知道，生成器的注意力該集中在哪了。

第二隻GAN，只是生成方向相反，道理也是一樣的。

而要把兩隻GAN結合在一起，損失函數也是精心設計過的：

損失函數有四部分

一是對抗損失，不多解釋，每隻GAN都有。

二是循環損失，這是為了避免生成器和判別器找到某種平衡之後相互和解、停滯不前 (Mode Collapse) 。

要保證為目標領域生成的圖像，還要能回到源領域被認可，就給生成器用了個循環一致性 (Cycle Consistency) 的約束。

三是身份損失，為了保證輸入圖像和輸出圖像的色彩分佈類似，給生成器用了個身份一致性的約束。

具體說來，從目標領域挑一張圖，如果給它做一個從源領域到目標領域的翻譯，應該不發生任何變化才對。

四是CAM損失，給出一張圖激活圖，生成器和判別器會知道它們需要提升哪裡。或者說，知道兩個領域之間，當前最大的區別在哪裡。

除此之外，U-GAT-IT還有一個重要的貢獻：

AdaLIN可選歸一化方法

通常來說，Instance Normalization (IN) 是比較常用的方法，把圖像的特徵統計直接歸一化，就能消除風格變化 (Style Variation) 。

相比之下，批量歸一化 (BN) 和層歸一化 (LN**) 沒有那麼常用。

而給圖片做歸一化的時候，更多見的是自適應的IN，簡稱AdaIN。

但在這裡，團隊提出了AdaLIN，它可以在IN和LN之間動態選擇。

有了它，AI就能靈活控制形狀與質地的變化多大了。

從前基於注意力的模型，沒辦法解決不同領域之間的幾何變化；

但U-GAT-IT，既可以做需要整體變化 (Holistic Changes) 的翻譯，也可以做需要大幅形狀變化 (Large Shape Changes. ) 的翻譯。

最後再來講一下數據集。

無監督，不成對

selfie2anime，有兩個數據集。

一個是自拍數據集，一個是二次元數據集，都是隻選了妹子。

各自是訓練集裡3400張，測試集裡100張。沒有配對。

其實也不止這些，還有馬變斑馬，貓變狗，照片變梵高畫風等等，訓練了各種功能。

來看看成果如何：

效果遠勝前輩

U-GAT-IT (b) 和許多厲害的前輩比了一場，它們是：

CycleGAN (c) 、UNIT (d) 、MUNIT (e) 、DRIT (f) 。

△ 第四行，是照片變成肖像畫作；第五行是變梵高畫風

反向生成，比如二次元變三次，斑馬變馬之類，也都可以：

如何能讓一個小姐姐屬於你？

把她變成二次元的人類，就可以解鎖一個老婆了。

韓國遊戲公司NCSOFT，最近開源了一隻技藝精湛的AI。

只要任意輸入小姐姐的自拍，就能得到她在二次元的樣子了：

對比原圖，感覺小姐姐還是那個小姐姐。

一個眼神，一個圍笑，都是三次元時的樣子沒變。

當然，如果你有喜歡的二次元老婆，想看她穿越到現實會是什麼樣子，也沒有問題。只要輸入一張她的頭像：

就生成了逼真的小姐姐。

這個算法叫U-GAT-IT，名字也令人神往。重要的是，它是用無監督方法訓練的，連成對的數據都不需要。

現在，團隊已經把TensorFlow實現和PyTorch實現，都放上了GitHub。兩個項目一起登上了趨勢榜，且TF項目一度衝到第一。

在食用之前，不妨來看看究竟是怎樣的AI，能給你這般豐盛的福利：

這隻GAN的注意力，與眾不同

U-GAT-IT，是一個圖到圖翻譯算法，由兩隻GAN組成的。

一隻GAN，要把妹子的自拍，變成二次元小姐姐。這是從源領域到目標領域的翻譯。

另一隻GAN，要把二次元小姐姐，再變回三次元自拍。這是從目標領域到源領域的翻譯。

這樣，就有兩套生成器&判別器的組合。

生成器負責生成逼真的假圖，欺騙判別器；而判別器負責識破假圖。相生相長。

而為了生成更加逼真的圖像，團隊給這兩隻四個部件，加入了不同的注意力。

具體的方法，受到了周博磊團隊2016年CAM研究的啟發。

CAM，是類激活圖的簡稱。它能找出對於判斷一張圖的真假，最重要的區域，然後AI就能把注意力集中在那裡。

只不過在上採樣部分，CAM用的是全局平均池化。而U-GAT-IT為了更好的效果，結合了全局的平均池化和最大池化。

這裡，用第一隻GAN，就是生成二次元小姐姐的GAN來舉例。先看判別器：

它要判斷一張圖片，是不是和數據集裡的二次元妹子屬於一個類別。假如不是同類，那生成器的作品。

判別器有一個輔助分類器 (CAM) ，會找出對類別判斷更重要的區域。

這也會引導生成器，把注意力集中在重要的區域。

再看生成器：

它的輔助分類器，會找出屬於三次元妹子的重要區域。然後，把兩個領域的重要區域作比對，注意力模塊就知道，生成器的注意力該集中在哪了。

第二隻GAN，只是生成方向相反，道理也是一樣的。

而要把兩隻GAN結合在一起，損失函數也是精心設計過的：

損失函數有四部分

一是對抗損失，不多解釋，每隻GAN都有。

二是循環損失，這是為了避免生成器和判別器找到某種平衡之後相互和解、停滯不前 (Mode Collapse) 。

要保證為目標領域生成的圖像，還要能回到源領域被認可，就給生成器用了個循環一致性 (Cycle Consistency) 的約束。

三是身份損失，為了保證輸入圖像和輸出圖像的色彩分佈類似，給生成器用了個身份一致性的約束。

具體說來，從目標領域挑一張圖，如果給它做一個從源領域到目標領域的翻譯，應該不發生任何變化才對。

四是CAM損失，給出一張圖激活圖，生成器和判別器會知道它們需要提升哪裡。或者說，知道兩個領域之間，當前最大的區別在哪裡。

除此之外，U-GAT-IT還有一個重要的貢獻：

AdaLIN可選歸一化方法

通常來說，Instance Normalization (IN) 是比較常用的方法，把圖像的特徵統計直接歸一化，就能消除風格變化 (Style Variation) 。

相比之下，批量歸一化 (BN) 和層歸一化 (LN**) 沒有那麼常用。

而給圖片做歸一化的時候，更多見的是自適應的IN，簡稱AdaIN。

但在這裡，團隊提出了AdaLIN，它可以在IN和LN之間動態選擇。

有了它，AI就能靈活控制形狀與質地的變化多大了。

從前基於注意力的模型，沒辦法解決不同領域之間的幾何變化；

但U-GAT-IT，既可以做需要整體變化 (Holistic Changes) 的翻譯，也可以做需要大幅形狀變化 (Large Shape Changes. ) 的翻譯。

最後再來講一下數據集。

無監督，不成對

selfie2anime，有兩個數據集。

一個是自拍數據集，一個是二次元數據集，都是隻選了妹子。

各自是訓練集裡3400張，測試集裡100張。沒有配對。

其實也不止這些，還有馬變斑馬，貓變狗，照片變梵高畫風等等，訓練了各種功能。

來看看成果如何：

效果遠勝前輩

U-GAT-IT (b) 和許多厲害的前輩比了一場，它們是：

CycleGAN (c) 、UNIT (d) 、MUNIT (e) 、DRIT (f) 。

△ 第四行，是照片變成肖像畫作；第五行是變梵高畫風

反向生成，比如二次元變三次，斑馬變馬之類，也都可以：

(b) 列是本文主角，在穿越次元的任務上，表現明顯優於各路前輩。在其他任務上，生成效果也總體超過前輩。

然後，再來看一下注意力模塊 (CAM) 到底有沒有作用。

右邊兩列，差別盡顯。(e)是有注意力，(f)是沒有注意力：

如何能讓一個小姐姐屬於你？

把她變成二次元的人類，就可以解鎖一個老婆了。

韓國遊戲公司NCSOFT，最近開源了一隻技藝精湛的AI。

只要任意輸入小姐姐的自拍，就能得到她在二次元的樣子了：

對比原圖，感覺小姐姐還是那個小姐姐。

一個眼神，一個圍笑，都是三次元時的樣子沒變。

當然，如果你有喜歡的二次元老婆，想看她穿越到現實會是什麼樣子，也沒有問題。只要輸入一張她的頭像：

就生成了逼真的小姐姐。

這個算法叫U-GAT-IT，名字也令人神往。重要的是，它是用無監督方法訓練的，連成對的數據都不需要。

現在，團隊已經把TensorFlow實現和PyTorch實現，都放上了GitHub。兩個項目一起登上了趨勢榜，且TF項目一度衝到第一。

在食用之前，不妨來看看究竟是怎樣的AI，能給你這般豐盛的福利：

這隻GAN的注意力，與眾不同

U-GAT-IT，是一個圖到圖翻譯算法，由兩隻GAN組成的。

一隻GAN，要把妹子的自拍，變成二次元小姐姐。這是從源領域到目標領域的翻譯。

另一隻GAN，要把二次元小姐姐，再變回三次元自拍。這是從目標領域到源領域的翻譯。

這樣，就有兩套生成器&判別器的組合。

生成器負責生成逼真的假圖，欺騙判別器；而判別器負責識破假圖。相生相長。

而為了生成更加逼真的圖像，團隊給這兩隻四個部件，加入了不同的注意力。

具體的方法，受到了周博磊團隊2016年CAM研究的啟發。

CAM，是類激活圖的簡稱。它能找出對於判斷一張圖的真假，最重要的區域，然後AI就能把注意力集中在那裡。

只不過在上採樣部分，CAM用的是全局平均池化。而U-GAT-IT為了更好的效果，結合了全局的平均池化和最大池化。

這裡，用第一隻GAN，就是生成二次元小姐姐的GAN來舉例。先看判別器：

它要判斷一張圖片，是不是和數據集裡的二次元妹子屬於一個類別。假如不是同類，那生成器的作品。

判別器有一個輔助分類器 (CAM) ，會找出對類別判斷更重要的區域。

這也會引導生成器，把注意力集中在重要的區域。

再看生成器：

它的輔助分類器，會找出屬於三次元妹子的重要區域。然後，把兩個領域的重要區域作比對，注意力模塊就知道，生成器的注意力該集中在哪了。

第二隻GAN，只是生成方向相反，道理也是一樣的。

而要把兩隻GAN結合在一起，損失函數也是精心設計過的：

損失函數有四部分

一是對抗損失，不多解釋，每隻GAN都有。

二是循環損失，這是為了避免生成器和判別器找到某種平衡之後相互和解、停滯不前 (Mode Collapse) 。

要保證為目標領域生成的圖像，還要能回到源領域被認可，就給生成器用了個循環一致性 (Cycle Consistency) 的約束。

三是身份損失，為了保證輸入圖像和輸出圖像的色彩分佈類似，給生成器用了個身份一致性的約束。

具體說來，從目標領域挑一張圖，如果給它做一個從源領域到目標領域的翻譯，應該不發生任何變化才對。

四是CAM損失，給出一張圖激活圖，生成器和判別器會知道它們需要提升哪裡。或者說，知道兩個領域之間，當前最大的區別在哪裡。

除此之外，U-GAT-IT還有一個重要的貢獻：

AdaLIN可選歸一化方法

通常來說，Instance Normalization (IN) 是比較常用的方法，把圖像的特徵統計直接歸一化，就能消除風格變化 (Style Variation) 。

相比之下，批量歸一化 (BN) 和層歸一化 (LN**) 沒有那麼常用。

而給圖片做歸一化的時候，更多見的是自適應的IN，簡稱AdaIN。

但在這裡，團隊提出了AdaLIN，它可以在IN和LN之間動態選擇。

有了它，AI就能靈活控制形狀與質地的變化多大了。

從前基於注意力的模型，沒辦法解決不同領域之間的幾何變化；

但U-GAT-IT，既可以做需要整體變化 (Holistic Changes) 的翻譯，也可以做需要大幅形狀變化 (Large Shape Changes. ) 的翻譯。

最後再來講一下數據集。

無監督，不成對

selfie2anime，有兩個數據集。

一個是自拍數據集，一個是二次元數據集，都是隻選了妹子。

各自是訓練集裡3400張，測試集裡100張。沒有配對。

其實也不止這些，還有馬變斑馬，貓變狗，照片變梵高畫風等等，訓練了各種功能。

來看看成果如何：

效果遠勝前輩

U-GAT-IT (b) 和許多厲害的前輩比了一場，它們是：

CycleGAN (c) 、UNIT (d) 、MUNIT (e) 、DRIT (f) 。

△ 第四行，是照片變成肖像畫作；第五行是變梵高畫風

反向生成，比如二次元變三次，斑馬變馬之類，也都可以：

(b) 列是本文主角，在穿越次元的任務上，表現明顯優於各路前輩。在其他任務上，生成效果也總體超過前輩。

然後，再來看一下注意力模塊 (CAM) 到底有沒有作用。

右邊兩列，差別盡顯。(e)是有注意力，(f)是沒有注意力：

最後，觀察可以動態選擇歸一化方式的AdaLIN，比起無法選擇，效果如何。

(b)是AdaLIN，右邊四列是陪跑的歸一化方法 (以及各種歸一化的結合) ：

如何能讓一個小姐姐屬於你？

把她變成二次元的人類，就可以解鎖一個老婆了。

韓國遊戲公司NCSOFT，最近開源了一隻技藝精湛的AI。

只要任意輸入小姐姐的自拍，就能得到她在二次元的樣子了：

對比原圖，感覺小姐姐還是那個小姐姐。

一個眼神，一個圍笑，都是三次元時的樣子沒變。

當然，如果你有喜歡的二次元老婆，想看她穿越到現實會是什麼樣子，也沒有問題。只要輸入一張她的頭像：

就生成了逼真的小姐姐。

這個算法叫U-GAT-IT，名字也令人神往。重要的是，它是用無監督方法訓練的，連成對的數據都不需要。

現在，團隊已經把TensorFlow實現和PyTorch實現，都放上了GitHub。兩個項目一起登上了趨勢榜，且TF項目一度衝到第一。

在食用之前，不妨來看看究竟是怎樣的AI，能給你這般豐盛的福利：

這隻GAN的注意力，與眾不同

U-GAT-IT，是一個圖到圖翻譯算法，由兩隻GAN組成的。

一隻GAN，要把妹子的自拍，變成二次元小姐姐。這是從源領域到目標領域的翻譯。

另一隻GAN，要把二次元小姐姐，再變回三次元自拍。這是從目標領域到源領域的翻譯。

這樣，就有兩套生成器&判別器的組合。

生成器負責生成逼真的假圖，欺騙判別器；而判別器負責識破假圖。相生相長。

而為了生成更加逼真的圖像，團隊給這兩隻四個部件，加入了不同的注意力。

具體的方法，受到了周博磊團隊2016年CAM研究的啟發。

CAM，是類激活圖的簡稱。它能找出對於判斷一張圖的真假，最重要的區域，然後AI就能把注意力集中在那裡。

只不過在上採樣部分，CAM用的是全局平均池化。而U-GAT-IT為了更好的效果，結合了全局的平均池化和最大池化。

這裡，用第一隻GAN，就是生成二次元小姐姐的GAN來舉例。先看判別器：

它要判斷一張圖片，是不是和數據集裡的二次元妹子屬於一個類別。假如不是同類，那生成器的作品。

判別器有一個輔助分類器 (CAM) ，會找出對類別判斷更重要的區域。

這也會引導生成器，把注意力集中在重要的區域。

再看生成器：

它的輔助分類器，會找出屬於三次元妹子的重要區域。然後，把兩個領域的重要區域作比對，注意力模塊就知道，生成器的注意力該集中在哪了。

第二隻GAN，只是生成方向相反，道理也是一樣的。

而要把兩隻GAN結合在一起，損失函數也是精心設計過的：

損失函數有四部分

一是對抗損失，不多解釋，每隻GAN都有。

二是循環損失，這是為了避免生成器和判別器找到某種平衡之後相互和解、停滯不前 (Mode Collapse) 。

要保證為目標領域生成的圖像，還要能回到源領域被認可，就給生成器用了個循環一致性 (Cycle Consistency) 的約束。

三是身份損失，為了保證輸入圖像和輸出圖像的色彩分佈類似，給生成器用了個身份一致性的約束。

具體說來，從目標領域挑一張圖，如果給它做一個從源領域到目標領域的翻譯，應該不發生任何變化才對。

四是CAM損失，給出一張圖激活圖，生成器和判別器會知道它們需要提升哪裡。或者說，知道兩個領域之間，當前最大的區別在哪裡。

除此之外，U-GAT-IT還有一個重要的貢獻：

AdaLIN可選歸一化方法

通常來說，Instance Normalization (IN) 是比較常用的方法，把圖像的特徵統計直接歸一化，就能消除風格變化 (Style Variation) 。

相比之下，批量歸一化 (BN) 和層歸一化 (LN**) 沒有那麼常用。

而給圖片做歸一化的時候，更多見的是自適應的IN，簡稱AdaIN。

但在這裡，團隊提出了AdaLIN，它可以在IN和LN之間動態選擇。

有了它，AI就能靈活控制形狀與質地的變化多大了。

從前基於注意力的模型，沒辦法解決不同領域之間的幾何變化；

但U-GAT-IT，既可以做需要整體變化 (Holistic Changes) 的翻譯，也可以做需要大幅形狀變化 (Large Shape Changes. ) 的翻譯。

最後再來講一下數據集。

無監督，不成對

selfie2anime，有兩個數據集。

一個是自拍數據集，一個是二次元數據集，都是隻選了妹子。

各自是訓練集裡3400張，測試集裡100張。沒有配對。

其實也不止這些，還有馬變斑馬，貓變狗，照片變梵高畫風等等，訓練了各種功能。

來看看成果如何：

效果遠勝前輩

U-GAT-IT (b) 和許多厲害的前輩比了一場，它們是：

CycleGAN (c) 、UNIT (d) 、MUNIT (e) 、DRIT (f) 。

△ 第四行，是照片變成肖像畫作；第五行是變梵高畫風

反向生成，比如二次元變三次，斑馬變馬之類，也都可以：

(b) 列是本文主角，在穿越次元的任務上，表現明顯優於各路前輩。在其他任務上，生成效果也總體超過前輩。

然後，再來看一下注意力模塊 (CAM) 到底有沒有作用。

右邊兩列，差別盡顯。(e)是有注意力，(f)是沒有注意力：

最後，觀察可以動態選擇歸一化方式的AdaLIN，比起無法選擇，效果如何。

(b)是AdaLIN，右邊四列是陪跑的歸一化方法 (以及各種歸一化的結合) ：

AdaLIN的生成結果，更加完整，瑕疵比較少見。

如此一來，U-GAT-IT從各個角度看，都成功了。

令人內心一陣狂喜，快來領取開源代碼吧。

這是TensorFlow版本，曾經登上趨勢榜第一 (現在變成了第三)：

https://github.com/taki0112/UGATIT

這是PyTorch版本：

https://github.com/znxlwm/UGATIT-pytorch

這是論文：

https://arxiv.org/abs/1907.10830

— 完 —

誠摯招聘

量子位正在招募編輯/記者，工作地點在北京中關村。期待有才氣、有熱情的同學加入我們！相關細節，請在量子位公眾號(QbitAI)對話界面，回覆“招聘”兩個字。

量子位 QbitAI · 頭條號簽約作者

վ'ᴗ' ի 追蹤AI技術和產品新動態

'GitHub熱榜第一：小姐姐自拍，變成二次元萌妹，效果遠勝CycleGAN'

這隻GAN的注意力，與眾不同

這隻GAN的注意力，與眾不同

這隻GAN的注意力，與眾不同

這隻GAN的注意力，與眾不同

損失函數有四部分

這隻GAN的注意力，與眾不同

損失函數有四部分

AdaLIN可選歸一化方法

這隻GAN的注意力，與眾不同

損失函數有四部分

AdaLIN可選歸一化方法

這隻GAN的注意力，與眾不同

損失函數有四部分

AdaLIN可選歸一化方法

效果遠勝前輩

這隻GAN的注意力，與眾不同

損失函數有四部分

AdaLIN可選歸一化方法

效果遠勝前輩

這隻GAN的注意力，與眾不同

損失函數有四部分

AdaLIN可選歸一化方法

效果遠勝前輩

這隻GAN的注意力，與眾不同

損失函數有四部分

AdaLIN可選歸一化方法

效果遠勝前輩

這隻GAN的注意力，與眾不同

損失函數有四部分

AdaLIN可選歸一化方法

效果遠勝前輩

相關推薦