'GitHub熱榜第一:小姐姐自拍,變成二次元萌妹,效果遠勝CycleGAN'

"

栗子 發自 凹非寺

量子位 報道 | 公眾號 QbitAI

如何能讓一個小姐姐屬於你?

把她變成二次元的人類,就可以解鎖一個老婆了。

韓國遊戲公司NCSOFT,最近開源了一隻技藝精湛的AI。

只要任意輸入小姐姐的自拍,就能得到她在二次元的樣子了:

"

栗子 發自 凹非寺

量子位 報道 | 公眾號 QbitAI

如何能讓一個小姐姐屬於你?

把她變成二次元的人類,就可以解鎖一個老婆了。

韓國遊戲公司NCSOFT,最近開源了一隻技藝精湛的AI。

只要任意輸入小姐姐的自拍,就能得到她在二次元的樣子了:

GitHub熱榜第一:小姐姐自拍,變成二次元萌妹,效果遠勝CycleGAN

對比原圖,感覺小姐姐還是那個小姐姐。

一個眼神,一個圍笑,都是三次元時的樣子沒變。

當然,如果你有喜歡的二次元老婆,想看她穿越到現實會是什麼樣子,也沒有問題。只要輸入一張她的頭像:


"

栗子 發自 凹非寺

量子位 報道 | 公眾號 QbitAI

如何能讓一個小姐姐屬於你?

把她變成二次元的人類,就可以解鎖一個老婆了。

韓國遊戲公司NCSOFT,最近開源了一隻技藝精湛的AI。

只要任意輸入小姐姐的自拍,就能得到她在二次元的樣子了:

GitHub熱榜第一:小姐姐自拍,變成二次元萌妹,效果遠勝CycleGAN

對比原圖,感覺小姐姐還是那個小姐姐。

一個眼神,一個圍笑,都是三次元時的樣子沒變。

當然,如果你有喜歡的二次元老婆,想看她穿越到現實會是什麼樣子,也沒有問題。只要輸入一張她的頭像:


GitHub熱榜第一:小姐姐自拍,變成二次元萌妹,效果遠勝CycleGAN


就生成了逼真的小姐姐。

這個算法叫U-GAT-IT,名字也令人神往。重要的是,它是用無監督方法訓練的,連成對的數據都不需要。

現在,團隊已經把TensorFlow實現和PyTorch實現,都放上了GitHub。兩個項目一起登上了趨勢榜,且TF項目一度衝到第一

在食用之前,不妨來看看究竟是怎樣的AI,能給你這般豐盛的福利:

這隻GAN的注意力,與眾不同

U-GAT-IT,是一個圖到圖翻譯算法,由兩隻GAN組成的

一隻GAN,要把妹子的自拍,變成二次元小姐姐。這是從源領域到目標領域的翻譯。

另一隻GAN,要把二次元小姐姐,再變回三次元自拍。這是從目標領域到源領域的翻譯。

這樣,就有兩套生成器&判別器的組合。

生成器負責生成逼真的假圖,欺騙判別器;而判別器負責識破假圖。相生相長。


"

栗子 發自 凹非寺

量子位 報道 | 公眾號 QbitAI

如何能讓一個小姐姐屬於你?

把她變成二次元的人類,就可以解鎖一個老婆了。

韓國遊戲公司NCSOFT,最近開源了一隻技藝精湛的AI。

只要任意輸入小姐姐的自拍,就能得到她在二次元的樣子了:

GitHub熱榜第一:小姐姐自拍,變成二次元萌妹,效果遠勝CycleGAN

對比原圖,感覺小姐姐還是那個小姐姐。

一個眼神,一個圍笑,都是三次元時的樣子沒變。

當然,如果你有喜歡的二次元老婆,想看她穿越到現實會是什麼樣子,也沒有問題。只要輸入一張她的頭像:


GitHub熱榜第一:小姐姐自拍,變成二次元萌妹,效果遠勝CycleGAN


就生成了逼真的小姐姐。

這個算法叫U-GAT-IT,名字也令人神往。重要的是,它是用無監督方法訓練的,連成對的數據都不需要。

現在,團隊已經把TensorFlow實現和PyTorch實現,都放上了GitHub。兩個項目一起登上了趨勢榜,且TF項目一度衝到第一

在食用之前,不妨來看看究竟是怎樣的AI,能給你這般豐盛的福利:

這隻GAN的注意力,與眾不同

U-GAT-IT,是一個圖到圖翻譯算法,由兩隻GAN組成的

一隻GAN,要把妹子的自拍,變成二次元小姐姐。這是從源領域到目標領域的翻譯。

另一隻GAN,要把二次元小姐姐,再變回三次元自拍。這是從目標領域到源領域的翻譯。

這樣,就有兩套生成器&判別器的組合。

生成器負責生成逼真的假圖,欺騙判別器;而判別器負責識破假圖。相生相長。


GitHub熱榜第一:小姐姐自拍,變成二次元萌妹,效果遠勝CycleGAN


而為了生成更加逼真的圖像,團隊給這兩隻四個部件,加入了不同的注意力

具體的方法,受到了周博磊團隊2016年CAM研究的啟發。

CAM,是類激活圖的簡稱。它能找出對於判斷一張圖的真假,最重要的區域,然後AI就能把注意力集中在那裡。

只不過在上採樣部分,CAM用的是全局平均池化。而U-GAT-IT為了更好的效果,結合了全局的平均池化和最大池化。

這裡,用第一隻GAN,就是生成二次元小姐姐的GAN來舉例。先看判別器:


"

栗子 發自 凹非寺

量子位 報道 | 公眾號 QbitAI

如何能讓一個小姐姐屬於你?

把她變成二次元的人類,就可以解鎖一個老婆了。

韓國遊戲公司NCSOFT,最近開源了一隻技藝精湛的AI。

只要任意輸入小姐姐的自拍,就能得到她在二次元的樣子了:

GitHub熱榜第一:小姐姐自拍,變成二次元萌妹,效果遠勝CycleGAN

對比原圖,感覺小姐姐還是那個小姐姐。

一個眼神,一個圍笑,都是三次元時的樣子沒變。

當然,如果你有喜歡的二次元老婆,想看她穿越到現實會是什麼樣子,也沒有問題。只要輸入一張她的頭像:


GitHub熱榜第一:小姐姐自拍,變成二次元萌妹,效果遠勝CycleGAN


就生成了逼真的小姐姐。

這個算法叫U-GAT-IT,名字也令人神往。重要的是,它是用無監督方法訓練的,連成對的數據都不需要。

現在,團隊已經把TensorFlow實現和PyTorch實現,都放上了GitHub。兩個項目一起登上了趨勢榜,且TF項目一度衝到第一

在食用之前,不妨來看看究竟是怎樣的AI,能給你這般豐盛的福利:

這隻GAN的注意力,與眾不同

U-GAT-IT,是一個圖到圖翻譯算法,由兩隻GAN組成的

一隻GAN,要把妹子的自拍,變成二次元小姐姐。這是從源領域到目標領域的翻譯。

另一隻GAN,要把二次元小姐姐,再變回三次元自拍。這是從目標領域到源領域的翻譯。

這樣,就有兩套生成器&判別器的組合。

生成器負責生成逼真的假圖,欺騙判別器;而判別器負責識破假圖。相生相長。


GitHub熱榜第一:小姐姐自拍,變成二次元萌妹,效果遠勝CycleGAN


而為了生成更加逼真的圖像,團隊給這兩隻四個部件,加入了不同的注意力

具體的方法,受到了周博磊團隊2016年CAM研究的啟發。

CAM,是類激活圖的簡稱。它能找出對於判斷一張圖的真假,最重要的區域,然後AI就能把注意力集中在那裡。

只不過在上採樣部分,CAM用的是全局平均池化。而U-GAT-IT為了更好的效果,結合了全局的平均池化和最大池化。

這裡,用第一隻GAN,就是生成二次元小姐姐的GAN來舉例。先看判別器:


GitHub熱榜第一:小姐姐自拍,變成二次元萌妹,效果遠勝CycleGAN


它要判斷一張圖片,是不是和數據集裡的二次元妹子屬於一個類別。假如不是同類,那生成器的作品。

判別器有一個輔助分類器 (CAM) ,會找出對類別判斷更重要的區域。

這也會引導生成器,把注意力集中在重要的區域。

再看生成器:


"

栗子 發自 凹非寺

量子位 報道 | 公眾號 QbitAI

如何能讓一個小姐姐屬於你?

把她變成二次元的人類,就可以解鎖一個老婆了。

韓國遊戲公司NCSOFT,最近開源了一隻技藝精湛的AI。

只要任意輸入小姐姐的自拍,就能得到她在二次元的樣子了:

GitHub熱榜第一:小姐姐自拍,變成二次元萌妹,效果遠勝CycleGAN

對比原圖,感覺小姐姐還是那個小姐姐。

一個眼神,一個圍笑,都是三次元時的樣子沒變。

當然,如果你有喜歡的二次元老婆,想看她穿越到現實會是什麼樣子,也沒有問題。只要輸入一張她的頭像:


GitHub熱榜第一:小姐姐自拍,變成二次元萌妹,效果遠勝CycleGAN


就生成了逼真的小姐姐。

這個算法叫U-GAT-IT,名字也令人神往。重要的是,它是用無監督方法訓練的,連成對的數據都不需要。

現在,團隊已經把TensorFlow實現和PyTorch實現,都放上了GitHub。兩個項目一起登上了趨勢榜,且TF項目一度衝到第一

在食用之前,不妨來看看究竟是怎樣的AI,能給你這般豐盛的福利:

這隻GAN的注意力,與眾不同

U-GAT-IT,是一個圖到圖翻譯算法,由兩隻GAN組成的

一隻GAN,要把妹子的自拍,變成二次元小姐姐。這是從源領域到目標領域的翻譯。

另一隻GAN,要把二次元小姐姐,再變回三次元自拍。這是從目標領域到源領域的翻譯。

這樣,就有兩套生成器&判別器的組合。

生成器負責生成逼真的假圖,欺騙判別器;而判別器負責識破假圖。相生相長。


GitHub熱榜第一:小姐姐自拍,變成二次元萌妹,效果遠勝CycleGAN


而為了生成更加逼真的圖像,團隊給這兩隻四個部件,加入了不同的注意力

具體的方法,受到了周博磊團隊2016年CAM研究的啟發。

CAM,是類激活圖的簡稱。它能找出對於判斷一張圖的真假,最重要的區域,然後AI就能把注意力集中在那裡。

只不過在上採樣部分,CAM用的是全局平均池化。而U-GAT-IT為了更好的效果,結合了全局的平均池化和最大池化。

這裡,用第一隻GAN,就是生成二次元小姐姐的GAN來舉例。先看判別器:


GitHub熱榜第一:小姐姐自拍,變成二次元萌妹,效果遠勝CycleGAN


它要判斷一張圖片,是不是和數據集裡的二次元妹子屬於一個類別。假如不是同類,那生成器的作品。

判別器有一個輔助分類器 (CAM) ,會找出對類別判斷更重要的區域。

這也會引導生成器,把注意力集中在重要的區域。

再看生成器:


GitHub熱榜第一:小姐姐自拍,變成二次元萌妹,效果遠勝CycleGAN


它的輔助分類器,會找出屬於三次元妹子的重要區域。然後,把兩個領域的重要區域作比對,注意力模塊就知道,生成器的注意力該集中在哪了。

第二隻GAN,只是生成方向相反,道理也是一樣的。

而要把兩隻GAN結合在一起,損失函數也是精心設計過的:

損失函數有四部分

一是對抗損失,不多解釋,每隻GAN都有。

二是循環損失,這是為了避免生成器和判別器找到某種平衡之後相互和解、停滯不前 (Mode Collapse) 。

要保證為目標領域生成的圖像,還要能回到源領域被認可,就給生成器用了個循環一致性 (Cycle Consistency) 的約束。


"

栗子 發自 凹非寺

量子位 報道 | 公眾號 QbitAI

如何能讓一個小姐姐屬於你?

把她變成二次元的人類,就可以解鎖一個老婆了。

韓國遊戲公司NCSOFT,最近開源了一隻技藝精湛的AI。

只要任意輸入小姐姐的自拍,就能得到她在二次元的樣子了:

GitHub熱榜第一:小姐姐自拍,變成二次元萌妹,效果遠勝CycleGAN

對比原圖,感覺小姐姐還是那個小姐姐。

一個眼神,一個圍笑,都是三次元時的樣子沒變。

當然,如果你有喜歡的二次元老婆,想看她穿越到現實會是什麼樣子,也沒有問題。只要輸入一張她的頭像:


GitHub熱榜第一:小姐姐自拍,變成二次元萌妹,效果遠勝CycleGAN


就生成了逼真的小姐姐。

這個算法叫U-GAT-IT,名字也令人神往。重要的是,它是用無監督方法訓練的,連成對的數據都不需要。

現在,團隊已經把TensorFlow實現和PyTorch實現,都放上了GitHub。兩個項目一起登上了趨勢榜,且TF項目一度衝到第一

在食用之前,不妨來看看究竟是怎樣的AI,能給你這般豐盛的福利:

這隻GAN的注意力,與眾不同

U-GAT-IT,是一個圖到圖翻譯算法,由兩隻GAN組成的

一隻GAN,要把妹子的自拍,變成二次元小姐姐。這是從源領域到目標領域的翻譯。

另一隻GAN,要把二次元小姐姐,再變回三次元自拍。這是從目標領域到源領域的翻譯。

這樣,就有兩套生成器&判別器的組合。

生成器負責生成逼真的假圖,欺騙判別器;而判別器負責識破假圖。相生相長。


GitHub熱榜第一:小姐姐自拍,變成二次元萌妹,效果遠勝CycleGAN


而為了生成更加逼真的圖像,團隊給這兩隻四個部件,加入了不同的注意力

具體的方法,受到了周博磊團隊2016年CAM研究的啟發。

CAM,是類激活圖的簡稱。它能找出對於判斷一張圖的真假,最重要的區域,然後AI就能把注意力集中在那裡。

只不過在上採樣部分,CAM用的是全局平均池化。而U-GAT-IT為了更好的效果,結合了全局的平均池化和最大池化。

這裡,用第一隻GAN,就是生成二次元小姐姐的GAN來舉例。先看判別器:


GitHub熱榜第一:小姐姐自拍,變成二次元萌妹,效果遠勝CycleGAN


它要判斷一張圖片,是不是和數據集裡的二次元妹子屬於一個類別。假如不是同類,那生成器的作品。

判別器有一個輔助分類器 (CAM) ,會找出對類別判斷更重要的區域。

這也會引導生成器,把注意力集中在重要的區域。

再看生成器:


GitHub熱榜第一:小姐姐自拍,變成二次元萌妹,效果遠勝CycleGAN


它的輔助分類器,會找出屬於三次元妹子的重要區域。然後,把兩個領域的重要區域作比對,注意力模塊就知道,生成器的注意力該集中在哪了。

第二隻GAN,只是生成方向相反,道理也是一樣的。

而要把兩隻GAN結合在一起,損失函數也是精心設計過的:

損失函數有四部分

一是對抗損失,不多解釋,每隻GAN都有。

二是循環損失,這是為了避免生成器和判別器找到某種平衡之後相互和解、停滯不前 (Mode Collapse) 。

要保證為目標領域生成的圖像,還要能回到源領域被認可,就給生成器用了個循環一致性 (Cycle Consistency) 的約束。


GitHub熱榜第一:小姐姐自拍,變成二次元萌妹,效果遠勝CycleGAN


三是身份損失,為了保證輸入圖像和輸出圖像的色彩分佈類似,給生成器用了個身份一致性的約束。

具體說來,從目標領域挑一張圖,如果給它做一個從源領域到目標領域的翻譯,應該不發生任何變化才對。

四是CAM損失,給出一張圖激活圖,生成器和判別器會知道它們需要提升哪裡。或者說,知道兩個領域之間,當前最大的區別在哪裡。

除此之外,U-GAT-IT還有一個重要的貢獻:

AdaLIN可選歸一化方法

通常來說,Instance Normalization (IN) 是比較常用的方法,把圖像的特徵統計直接歸一化,就能消除風格變化 (Style Variation) 。

相比之下,批量歸一化 (BN) 和層歸一化 (LN**) 沒有那麼常用。

而給圖片做歸一化的時候,更多見的是自適應的IN,簡稱AdaIN

但在這裡,團隊提出了AdaLIN,它可以在IN和LN之間動態選擇。


"

栗子 發自 凹非寺

量子位 報道 | 公眾號 QbitAI

如何能讓一個小姐姐屬於你?

把她變成二次元的人類,就可以解鎖一個老婆了。

韓國遊戲公司NCSOFT,最近開源了一隻技藝精湛的AI。

只要任意輸入小姐姐的自拍,就能得到她在二次元的樣子了:

GitHub熱榜第一:小姐姐自拍,變成二次元萌妹,效果遠勝CycleGAN

對比原圖,感覺小姐姐還是那個小姐姐。

一個眼神,一個圍笑,都是三次元時的樣子沒變。

當然,如果你有喜歡的二次元老婆,想看她穿越到現實會是什麼樣子,也沒有問題。只要輸入一張她的頭像:


GitHub熱榜第一:小姐姐自拍,變成二次元萌妹,效果遠勝CycleGAN


就生成了逼真的小姐姐。

這個算法叫U-GAT-IT,名字也令人神往。重要的是,它是用無監督方法訓練的,連成對的數據都不需要。

現在,團隊已經把TensorFlow實現和PyTorch實現,都放上了GitHub。兩個項目一起登上了趨勢榜,且TF項目一度衝到第一

在食用之前,不妨來看看究竟是怎樣的AI,能給你這般豐盛的福利:

這隻GAN的注意力,與眾不同

U-GAT-IT,是一個圖到圖翻譯算法,由兩隻GAN組成的

一隻GAN,要把妹子的自拍,變成二次元小姐姐。這是從源領域到目標領域的翻譯。

另一隻GAN,要把二次元小姐姐,再變回三次元自拍。這是從目標領域到源領域的翻譯。

這樣,就有兩套生成器&判別器的組合。

生成器負責生成逼真的假圖,欺騙判別器;而判別器負責識破假圖。相生相長。


GitHub熱榜第一:小姐姐自拍,變成二次元萌妹,效果遠勝CycleGAN


而為了生成更加逼真的圖像,團隊給這兩隻四個部件,加入了不同的注意力

具體的方法,受到了周博磊團隊2016年CAM研究的啟發。

CAM,是類激活圖的簡稱。它能找出對於判斷一張圖的真假,最重要的區域,然後AI就能把注意力集中在那裡。

只不過在上採樣部分,CAM用的是全局平均池化。而U-GAT-IT為了更好的效果,結合了全局的平均池化和最大池化。

這裡,用第一隻GAN,就是生成二次元小姐姐的GAN來舉例。先看判別器:


GitHub熱榜第一:小姐姐自拍,變成二次元萌妹,效果遠勝CycleGAN


它要判斷一張圖片,是不是和數據集裡的二次元妹子屬於一個類別。假如不是同類,那生成器的作品。

判別器有一個輔助分類器 (CAM) ,會找出對類別判斷更重要的區域。

這也會引導生成器,把注意力集中在重要的區域。

再看生成器:


GitHub熱榜第一:小姐姐自拍,變成二次元萌妹,效果遠勝CycleGAN


它的輔助分類器,會找出屬於三次元妹子的重要區域。然後,把兩個領域的重要區域作比對,注意力模塊就知道,生成器的注意力該集中在哪了。

第二隻GAN,只是生成方向相反,道理也是一樣的。

而要把兩隻GAN結合在一起,損失函數也是精心設計過的:

損失函數有四部分

一是對抗損失,不多解釋,每隻GAN都有。

二是循環損失,這是為了避免生成器和判別器找到某種平衡之後相互和解、停滯不前 (Mode Collapse) 。

要保證為目標領域生成的圖像,還要能回到源領域被認可,就給生成器用了個循環一致性 (Cycle Consistency) 的約束。


GitHub熱榜第一:小姐姐自拍,變成二次元萌妹,效果遠勝CycleGAN


三是身份損失,為了保證輸入圖像和輸出圖像的色彩分佈類似,給生成器用了個身份一致性的約束。

具體說來,從目標領域挑一張圖,如果給它做一個從源領域到目標領域的翻譯,應該不發生任何變化才對。

四是CAM損失,給出一張圖激活圖,生成器和判別器會知道它們需要提升哪裡。或者說,知道兩個領域之間,當前最大的區別在哪裡。

除此之外,U-GAT-IT還有一個重要的貢獻:

AdaLIN可選歸一化方法

通常來說,Instance Normalization (IN) 是比較常用的方法,把圖像的特徵統計直接歸一化,就能消除風格變化 (Style Variation) 。

相比之下,批量歸一化 (BN) 和層歸一化 (LN**) 沒有那麼常用。

而給圖片做歸一化的時候,更多見的是自適應的IN,簡稱AdaIN

但在這裡,團隊提出了AdaLIN,它可以在IN和LN之間動態選擇。


GitHub熱榜第一:小姐姐自拍,變成二次元萌妹,效果遠勝CycleGAN


有了它,AI就能靈活控制形狀與質地的變化多大了。

從前基於注意力的模型,沒辦法解決不同領域之間的幾何變化;

但U-GAT-IT,既可以做需要整體變化 (Holistic Changes) 的翻譯,也可以做需要大幅形狀變化 (Large Shape Changes. ) 的翻譯。

最後再來講一下數據集。

無監督,不成對

selfie2anime,有兩個數據集。

一個是自拍數據集,一個是二次元數據集,都是隻選了妹子。


"

栗子 發自 凹非寺

量子位 報道 | 公眾號 QbitAI

如何能讓一個小姐姐屬於你?

把她變成二次元的人類,就可以解鎖一個老婆了。

韓國遊戲公司NCSOFT,最近開源了一隻技藝精湛的AI。

只要任意輸入小姐姐的自拍,就能得到她在二次元的樣子了:

GitHub熱榜第一:小姐姐自拍,變成二次元萌妹,效果遠勝CycleGAN

對比原圖,感覺小姐姐還是那個小姐姐。

一個眼神,一個圍笑,都是三次元時的樣子沒變。

當然,如果你有喜歡的二次元老婆,想看她穿越到現實會是什麼樣子,也沒有問題。只要輸入一張她的頭像:


GitHub熱榜第一:小姐姐自拍,變成二次元萌妹,效果遠勝CycleGAN


就生成了逼真的小姐姐。

這個算法叫U-GAT-IT,名字也令人神往。重要的是,它是用無監督方法訓練的,連成對的數據都不需要。

現在,團隊已經把TensorFlow實現和PyTorch實現,都放上了GitHub。兩個項目一起登上了趨勢榜,且TF項目一度衝到第一

在食用之前,不妨來看看究竟是怎樣的AI,能給你這般豐盛的福利:

這隻GAN的注意力,與眾不同

U-GAT-IT,是一個圖到圖翻譯算法,由兩隻GAN組成的

一隻GAN,要把妹子的自拍,變成二次元小姐姐。這是從源領域到目標領域的翻譯。

另一隻GAN,要把二次元小姐姐,再變回三次元自拍。這是從目標領域到源領域的翻譯。

這樣,就有兩套生成器&判別器的組合。

生成器負責生成逼真的假圖,欺騙判別器;而判別器負責識破假圖。相生相長。


GitHub熱榜第一:小姐姐自拍,變成二次元萌妹,效果遠勝CycleGAN


而為了生成更加逼真的圖像,團隊給這兩隻四個部件,加入了不同的注意力

具體的方法,受到了周博磊團隊2016年CAM研究的啟發。

CAM,是類激活圖的簡稱。它能找出對於判斷一張圖的真假,最重要的區域,然後AI就能把注意力集中在那裡。

只不過在上採樣部分,CAM用的是全局平均池化。而U-GAT-IT為了更好的效果,結合了全局的平均池化和最大池化。

這裡,用第一隻GAN,就是生成二次元小姐姐的GAN來舉例。先看判別器:


GitHub熱榜第一:小姐姐自拍,變成二次元萌妹,效果遠勝CycleGAN


它要判斷一張圖片,是不是和數據集裡的二次元妹子屬於一個類別。假如不是同類,那生成器的作品。

判別器有一個輔助分類器 (CAM) ,會找出對類別判斷更重要的區域。

這也會引導生成器,把注意力集中在重要的區域。

再看生成器:


GitHub熱榜第一:小姐姐自拍,變成二次元萌妹,效果遠勝CycleGAN


它的輔助分類器,會找出屬於三次元妹子的重要區域。然後,把兩個領域的重要區域作比對,注意力模塊就知道,生成器的注意力該集中在哪了。

第二隻GAN,只是生成方向相反,道理也是一樣的。

而要把兩隻GAN結合在一起,損失函數也是精心設計過的:

損失函數有四部分

一是對抗損失,不多解釋,每隻GAN都有。

二是循環損失,這是為了避免生成器和判別器找到某種平衡之後相互和解、停滯不前 (Mode Collapse) 。

要保證為目標領域生成的圖像,還要能回到源領域被認可,就給生成器用了個循環一致性 (Cycle Consistency) 的約束。


GitHub熱榜第一:小姐姐自拍,變成二次元萌妹,效果遠勝CycleGAN


三是身份損失,為了保證輸入圖像和輸出圖像的色彩分佈類似,給生成器用了個身份一致性的約束。

具體說來,從目標領域挑一張圖,如果給它做一個從源領域到目標領域的翻譯,應該不發生任何變化才對。

四是CAM損失,給出一張圖激活圖,生成器和判別器會知道它們需要提升哪裡。或者說,知道兩個領域之間,當前最大的區別在哪裡。

除此之外,U-GAT-IT還有一個重要的貢獻:

AdaLIN可選歸一化方法

通常來說,Instance Normalization (IN) 是比較常用的方法,把圖像的特徵統計直接歸一化,就能消除風格變化 (Style Variation) 。

相比之下,批量歸一化 (BN) 和層歸一化 (LN**) 沒有那麼常用。

而給圖片做歸一化的時候,更多見的是自適應的IN,簡稱AdaIN

但在這裡,團隊提出了AdaLIN,它可以在IN和LN之間動態選擇。


GitHub熱榜第一:小姐姐自拍,變成二次元萌妹,效果遠勝CycleGAN


有了它,AI就能靈活控制形狀與質地的變化多大了。

從前基於注意力的模型,沒辦法解決不同領域之間的幾何變化;

但U-GAT-IT,既可以做需要整體變化 (Holistic Changes) 的翻譯,也可以做需要大幅形狀變化 (Large Shape Changes. ) 的翻譯。

最後再來講一下數據集。

無監督,不成對

selfie2anime,有兩個數據集。

一個是自拍數據集,一個是二次元數據集,都是隻選了妹子。


GitHub熱榜第一:小姐姐自拍,變成二次元萌妹,效果遠勝CycleGAN


各自是訓練集裡3400張,測試集裡100張。沒有配對。

其實也不止這些,還有馬變斑馬,貓變狗,照片變梵高畫風等等,訓練了各種功能。

來看看成果如何:

效果遠勝前輩

U-GAT-IT (b) 和許多厲害的前輩比了一場,它們是:

CycleGAN (c) 、UNIT (d) 、MUNIT (e) 、DRIT (f) 。


"

栗子 發自 凹非寺

量子位 報道 | 公眾號 QbitAI

如何能讓一個小姐姐屬於你?

把她變成二次元的人類,就可以解鎖一個老婆了。

韓國遊戲公司NCSOFT,最近開源了一隻技藝精湛的AI。

只要任意輸入小姐姐的自拍,就能得到她在二次元的樣子了:

GitHub熱榜第一:小姐姐自拍,變成二次元萌妹,效果遠勝CycleGAN

對比原圖,感覺小姐姐還是那個小姐姐。

一個眼神,一個圍笑,都是三次元時的樣子沒變。

當然,如果你有喜歡的二次元老婆,想看她穿越到現實會是什麼樣子,也沒有問題。只要輸入一張她的頭像:


GitHub熱榜第一:小姐姐自拍,變成二次元萌妹,效果遠勝CycleGAN


就生成了逼真的小姐姐。

這個算法叫U-GAT-IT,名字也令人神往。重要的是,它是用無監督方法訓練的,連成對的數據都不需要。

現在,團隊已經把TensorFlow實現和PyTorch實現,都放上了GitHub。兩個項目一起登上了趨勢榜,且TF項目一度衝到第一

在食用之前,不妨來看看究竟是怎樣的AI,能給你這般豐盛的福利:

這隻GAN的注意力,與眾不同

U-GAT-IT,是一個圖到圖翻譯算法,由兩隻GAN組成的

一隻GAN,要把妹子的自拍,變成二次元小姐姐。這是從源領域到目標領域的翻譯。

另一隻GAN,要把二次元小姐姐,再變回三次元自拍。這是從目標領域到源領域的翻譯。

這樣,就有兩套生成器&判別器的組合。

生成器負責生成逼真的假圖,欺騙判別器;而判別器負責識破假圖。相生相長。


GitHub熱榜第一:小姐姐自拍,變成二次元萌妹,效果遠勝CycleGAN


而為了生成更加逼真的圖像,團隊給這兩隻四個部件,加入了不同的注意力

具體的方法,受到了周博磊團隊2016年CAM研究的啟發。

CAM,是類激活圖的簡稱。它能找出對於判斷一張圖的真假,最重要的區域,然後AI就能把注意力集中在那裡。

只不過在上採樣部分,CAM用的是全局平均池化。而U-GAT-IT為了更好的效果,結合了全局的平均池化和最大池化。

這裡,用第一隻GAN,就是生成二次元小姐姐的GAN來舉例。先看判別器:


GitHub熱榜第一:小姐姐自拍,變成二次元萌妹,效果遠勝CycleGAN


它要判斷一張圖片,是不是和數據集裡的二次元妹子屬於一個類別。假如不是同類,那生成器的作品。

判別器有一個輔助分類器 (CAM) ,會找出對類別判斷更重要的區域。

這也會引導生成器,把注意力集中在重要的區域。

再看生成器:


GitHub熱榜第一:小姐姐自拍,變成二次元萌妹,效果遠勝CycleGAN


它的輔助分類器,會找出屬於三次元妹子的重要區域。然後,把兩個領域的重要區域作比對,注意力模塊就知道,生成器的注意力該集中在哪了。

第二隻GAN,只是生成方向相反,道理也是一樣的。

而要把兩隻GAN結合在一起,損失函數也是精心設計過的:

損失函數有四部分

一是對抗損失,不多解釋,每隻GAN都有。

二是循環損失,這是為了避免生成器和判別器找到某種平衡之後相互和解、停滯不前 (Mode Collapse) 。

要保證為目標領域生成的圖像,還要能回到源領域被認可,就給生成器用了個循環一致性 (Cycle Consistency) 的約束。


GitHub熱榜第一:小姐姐自拍,變成二次元萌妹,效果遠勝CycleGAN


三是身份損失,為了保證輸入圖像和輸出圖像的色彩分佈類似,給生成器用了個身份一致性的約束。

具體說來,從目標領域挑一張圖,如果給它做一個從源領域到目標領域的翻譯,應該不發生任何變化才對。

四是CAM損失,給出一張圖激活圖,生成器和判別器會知道它們需要提升哪裡。或者說,知道兩個領域之間,當前最大的區別在哪裡。

除此之外,U-GAT-IT還有一個重要的貢獻:

AdaLIN可選歸一化方法

通常來說,Instance Normalization (IN) 是比較常用的方法,把圖像的特徵統計直接歸一化,就能消除風格變化 (Style Variation) 。

相比之下,批量歸一化 (BN) 和層歸一化 (LN**) 沒有那麼常用。

而給圖片做歸一化的時候,更多見的是自適應的IN,簡稱AdaIN

但在這裡,團隊提出了AdaLIN,它可以在IN和LN之間動態選擇。


GitHub熱榜第一:小姐姐自拍,變成二次元萌妹,效果遠勝CycleGAN


有了它,AI就能靈活控制形狀與質地的變化多大了。

從前基於注意力的模型,沒辦法解決不同領域之間的幾何變化;

但U-GAT-IT,既可以做需要整體變化 (Holistic Changes) 的翻譯,也可以做需要大幅形狀變化 (Large Shape Changes. ) 的翻譯。

最後再來講一下數據集。

無監督,不成對

selfie2anime,有兩個數據集。

一個是自拍數據集,一個是二次元數據集,都是隻選了妹子。


GitHub熱榜第一:小姐姐自拍,變成二次元萌妹,效果遠勝CycleGAN


各自是訓練集裡3400張,測試集裡100張。沒有配對。

其實也不止這些,還有馬變斑馬,貓變狗,照片變梵高畫風等等,訓練了各種功能。

來看看成果如何:

效果遠勝前輩

U-GAT-IT (b) 和許多厲害的前輩比了一場,它們是:

CycleGAN (c) 、UNIT (d) 、MUNIT (e) 、DRIT (f) 。


GitHub熱榜第一:小姐姐自拍,變成二次元萌妹,效果遠勝CycleGAN

△ 第四行,是照片變成肖像畫作;第五行是變梵高畫風


反向生成,比如二次元變三次,斑馬變馬之類,也都可以:


"

栗子 發自 凹非寺

量子位 報道 | 公眾號 QbitAI

如何能讓一個小姐姐屬於你?

把她變成二次元的人類,就可以解鎖一個老婆了。

韓國遊戲公司NCSOFT,最近開源了一隻技藝精湛的AI。

只要任意輸入小姐姐的自拍,就能得到她在二次元的樣子了:

GitHub熱榜第一:小姐姐自拍,變成二次元萌妹,效果遠勝CycleGAN

對比原圖,感覺小姐姐還是那個小姐姐。

一個眼神,一個圍笑,都是三次元時的樣子沒變。

當然,如果你有喜歡的二次元老婆,想看她穿越到現實會是什麼樣子,也沒有問題。只要輸入一張她的頭像:


GitHub熱榜第一:小姐姐自拍,變成二次元萌妹,效果遠勝CycleGAN


就生成了逼真的小姐姐。

這個算法叫U-GAT-IT,名字也令人神往。重要的是,它是用無監督方法訓練的,連成對的數據都不需要。

現在,團隊已經把TensorFlow實現和PyTorch實現,都放上了GitHub。兩個項目一起登上了趨勢榜,且TF項目一度衝到第一

在食用之前,不妨來看看究竟是怎樣的AI,能給你這般豐盛的福利:

這隻GAN的注意力,與眾不同

U-GAT-IT,是一個圖到圖翻譯算法,由兩隻GAN組成的

一隻GAN,要把妹子的自拍,變成二次元小姐姐。這是從源領域到目標領域的翻譯。

另一隻GAN,要把二次元小姐姐,再變回三次元自拍。這是從目標領域到源領域的翻譯。

這樣,就有兩套生成器&判別器的組合。

生成器負責生成逼真的假圖,欺騙判別器;而判別器負責識破假圖。相生相長。


GitHub熱榜第一:小姐姐自拍,變成二次元萌妹,效果遠勝CycleGAN


而為了生成更加逼真的圖像,團隊給這兩隻四個部件,加入了不同的注意力

具體的方法,受到了周博磊團隊2016年CAM研究的啟發。

CAM,是類激活圖的簡稱。它能找出對於判斷一張圖的真假,最重要的區域,然後AI就能把注意力集中在那裡。

只不過在上採樣部分,CAM用的是全局平均池化。而U-GAT-IT為了更好的效果,結合了全局的平均池化和最大池化。

這裡,用第一隻GAN,就是生成二次元小姐姐的GAN來舉例。先看判別器:


GitHub熱榜第一:小姐姐自拍,變成二次元萌妹,效果遠勝CycleGAN


它要判斷一張圖片,是不是和數據集裡的二次元妹子屬於一個類別。假如不是同類,那生成器的作品。

判別器有一個輔助分類器 (CAM) ,會找出對類別判斷更重要的區域。

這也會引導生成器,把注意力集中在重要的區域。

再看生成器:


GitHub熱榜第一:小姐姐自拍,變成二次元萌妹,效果遠勝CycleGAN


它的輔助分類器,會找出屬於三次元妹子的重要區域。然後,把兩個領域的重要區域作比對,注意力模塊就知道,生成器的注意力該集中在哪了。

第二隻GAN,只是生成方向相反,道理也是一樣的。

而要把兩隻GAN結合在一起,損失函數也是精心設計過的:

損失函數有四部分

一是對抗損失,不多解釋,每隻GAN都有。

二是循環損失,這是為了避免生成器和判別器找到某種平衡之後相互和解、停滯不前 (Mode Collapse) 。

要保證為目標領域生成的圖像,還要能回到源領域被認可,就給生成器用了個循環一致性 (Cycle Consistency) 的約束。


GitHub熱榜第一:小姐姐自拍,變成二次元萌妹,效果遠勝CycleGAN


三是身份損失,為了保證輸入圖像和輸出圖像的色彩分佈類似,給生成器用了個身份一致性的約束。

具體說來,從目標領域挑一張圖,如果給它做一個從源領域到目標領域的翻譯,應該不發生任何變化才對。

四是CAM損失,給出一張圖激活圖,生成器和判別器會知道它們需要提升哪裡。或者說,知道兩個領域之間,當前最大的區別在哪裡。

除此之外,U-GAT-IT還有一個重要的貢獻:

AdaLIN可選歸一化方法

通常來說,Instance Normalization (IN) 是比較常用的方法,把圖像的特徵統計直接歸一化,就能消除風格變化 (Style Variation) 。

相比之下,批量歸一化 (BN) 和層歸一化 (LN**) 沒有那麼常用。

而給圖片做歸一化的時候,更多見的是自適應的IN,簡稱AdaIN

但在這裡,團隊提出了AdaLIN,它可以在IN和LN之間動態選擇。


GitHub熱榜第一:小姐姐自拍,變成二次元萌妹,效果遠勝CycleGAN


有了它,AI就能靈活控制形狀與質地的變化多大了。

從前基於注意力的模型,沒辦法解決不同領域之間的幾何變化;

但U-GAT-IT,既可以做需要整體變化 (Holistic Changes) 的翻譯,也可以做需要大幅形狀變化 (Large Shape Changes. ) 的翻譯。

最後再來講一下數據集。

無監督,不成對

selfie2anime,有兩個數據集。

一個是自拍數據集,一個是二次元數據集,都是隻選了妹子。


GitHub熱榜第一:小姐姐自拍,變成二次元萌妹,效果遠勝CycleGAN


各自是訓練集裡3400張,測試集裡100張。沒有配對。

其實也不止這些,還有馬變斑馬,貓變狗,照片變梵高畫風等等,訓練了各種功能。

來看看成果如何:

效果遠勝前輩

U-GAT-IT (b) 和許多厲害的前輩比了一場,它們是:

CycleGAN (c) 、UNIT (d) 、MUNIT (e) 、DRIT (f) 。


GitHub熱榜第一:小姐姐自拍,變成二次元萌妹,效果遠勝CycleGAN

△ 第四行,是照片變成肖像畫作;第五行是變梵高畫風


反向生成,比如二次元變三次,斑馬變馬之類,也都可以:


GitHub熱榜第一:小姐姐自拍,變成二次元萌妹,效果遠勝CycleGAN


(b) 列是本文主角,在穿越次元的任務上,表現明顯優於各路前輩。在其他任務上,生成效果也總體超過前輩。

然後,再來看一下注意力模塊 (CAM) 到底有沒有作用。

右邊兩列,差別盡顯。(e)是有注意力,(f)是沒有注意力


"

栗子 發自 凹非寺

量子位 報道 | 公眾號 QbitAI

如何能讓一個小姐姐屬於你?

把她變成二次元的人類,就可以解鎖一個老婆了。

韓國遊戲公司NCSOFT,最近開源了一隻技藝精湛的AI。

只要任意輸入小姐姐的自拍,就能得到她在二次元的樣子了:

GitHub熱榜第一:小姐姐自拍,變成二次元萌妹,效果遠勝CycleGAN

對比原圖,感覺小姐姐還是那個小姐姐。

一個眼神,一個圍笑,都是三次元時的樣子沒變。

當然,如果你有喜歡的二次元老婆,想看她穿越到現實會是什麼樣子,也沒有問題。只要輸入一張她的頭像:


GitHub熱榜第一:小姐姐自拍,變成二次元萌妹,效果遠勝CycleGAN


就生成了逼真的小姐姐。

這個算法叫U-GAT-IT,名字也令人神往。重要的是,它是用無監督方法訓練的,連成對的數據都不需要。

現在,團隊已經把TensorFlow實現和PyTorch實現,都放上了GitHub。兩個項目一起登上了趨勢榜,且TF項目一度衝到第一

在食用之前,不妨來看看究竟是怎樣的AI,能給你這般豐盛的福利:

這隻GAN的注意力,與眾不同

U-GAT-IT,是一個圖到圖翻譯算法,由兩隻GAN組成的

一隻GAN,要把妹子的自拍,變成二次元小姐姐。這是從源領域到目標領域的翻譯。

另一隻GAN,要把二次元小姐姐,再變回三次元自拍。這是從目標領域到源領域的翻譯。

這樣,就有兩套生成器&判別器的組合。

生成器負責生成逼真的假圖,欺騙判別器;而判別器負責識破假圖。相生相長。


GitHub熱榜第一:小姐姐自拍,變成二次元萌妹,效果遠勝CycleGAN


而為了生成更加逼真的圖像,團隊給這兩隻四個部件,加入了不同的注意力

具體的方法,受到了周博磊團隊2016年CAM研究的啟發。

CAM,是類激活圖的簡稱。它能找出對於判斷一張圖的真假,最重要的區域,然後AI就能把注意力集中在那裡。

只不過在上採樣部分,CAM用的是全局平均池化。而U-GAT-IT為了更好的效果,結合了全局的平均池化和最大池化。

這裡,用第一隻GAN,就是生成二次元小姐姐的GAN來舉例。先看判別器:


GitHub熱榜第一:小姐姐自拍,變成二次元萌妹,效果遠勝CycleGAN


它要判斷一張圖片,是不是和數據集裡的二次元妹子屬於一個類別。假如不是同類,那生成器的作品。

判別器有一個輔助分類器 (CAM) ,會找出對類別判斷更重要的區域。

這也會引導生成器,把注意力集中在重要的區域。

再看生成器:


GitHub熱榜第一:小姐姐自拍,變成二次元萌妹,效果遠勝CycleGAN


它的輔助分類器,會找出屬於三次元妹子的重要區域。然後,把兩個領域的重要區域作比對,注意力模塊就知道,生成器的注意力該集中在哪了。

第二隻GAN,只是生成方向相反,道理也是一樣的。

而要把兩隻GAN結合在一起,損失函數也是精心設計過的:

損失函數有四部分

一是對抗損失,不多解釋,每隻GAN都有。

二是循環損失,這是為了避免生成器和判別器找到某種平衡之後相互和解、停滯不前 (Mode Collapse) 。

要保證為目標領域生成的圖像,還要能回到源領域被認可,就給生成器用了個循環一致性 (Cycle Consistency) 的約束。


GitHub熱榜第一:小姐姐自拍,變成二次元萌妹,效果遠勝CycleGAN


三是身份損失,為了保證輸入圖像和輸出圖像的色彩分佈類似,給生成器用了個身份一致性的約束。

具體說來,從目標領域挑一張圖,如果給它做一個從源領域到目標領域的翻譯,應該不發生任何變化才對。

四是CAM損失,給出一張圖激活圖,生成器和判別器會知道它們需要提升哪裡。或者說,知道兩個領域之間,當前最大的區別在哪裡。

除此之外,U-GAT-IT還有一個重要的貢獻:

AdaLIN可選歸一化方法

通常來說,Instance Normalization (IN) 是比較常用的方法,把圖像的特徵統計直接歸一化,就能消除風格變化 (Style Variation) 。

相比之下,批量歸一化 (BN) 和層歸一化 (LN**) 沒有那麼常用。

而給圖片做歸一化的時候,更多見的是自適應的IN,簡稱AdaIN

但在這裡,團隊提出了AdaLIN,它可以在IN和LN之間動態選擇。


GitHub熱榜第一:小姐姐自拍,變成二次元萌妹,效果遠勝CycleGAN


有了它,AI就能靈活控制形狀與質地的變化多大了。

從前基於注意力的模型,沒辦法解決不同領域之間的幾何變化;

但U-GAT-IT,既可以做需要整體變化 (Holistic Changes) 的翻譯,也可以做需要大幅形狀變化 (Large Shape Changes. ) 的翻譯。

最後再來講一下數據集。

無監督,不成對

selfie2anime,有兩個數據集。

一個是自拍數據集,一個是二次元數據集,都是隻選了妹子。


GitHub熱榜第一:小姐姐自拍,變成二次元萌妹,效果遠勝CycleGAN


各自是訓練集裡3400張,測試集裡100張。沒有配對。

其實也不止這些,還有馬變斑馬,貓變狗,照片變梵高畫風等等,訓練了各種功能。

來看看成果如何:

效果遠勝前輩

U-GAT-IT (b) 和許多厲害的前輩比了一場,它們是:

CycleGAN (c) 、UNIT (d) 、MUNIT (e) 、DRIT (f) 。


GitHub熱榜第一:小姐姐自拍,變成二次元萌妹,效果遠勝CycleGAN

△ 第四行,是照片變成肖像畫作;第五行是變梵高畫風


反向生成,比如二次元變三次,斑馬變馬之類,也都可以:


GitHub熱榜第一:小姐姐自拍,變成二次元萌妹,效果遠勝CycleGAN


(b) 列是本文主角,在穿越次元的任務上,表現明顯優於各路前輩。在其他任務上,生成效果也總體超過前輩。

然後,再來看一下注意力模塊 (CAM) 到底有沒有作用。

右邊兩列,差別盡顯。(e)是有注意力,(f)是沒有注意力


GitHub熱榜第一:小姐姐自拍,變成二次元萌妹,效果遠勝CycleGAN


最後,觀察可以動態選擇歸一化方式的AdaLIN,比起無法選擇,效果如何。

(b)是AdaLIN,右邊四列是陪跑的歸一化方法 (以及各種歸一化的結合) :


"

栗子 發自 凹非寺

量子位 報道 | 公眾號 QbitAI

如何能讓一個小姐姐屬於你?

把她變成二次元的人類,就可以解鎖一個老婆了。

韓國遊戲公司NCSOFT,最近開源了一隻技藝精湛的AI。

只要任意輸入小姐姐的自拍,就能得到她在二次元的樣子了:

GitHub熱榜第一:小姐姐自拍,變成二次元萌妹,效果遠勝CycleGAN

對比原圖,感覺小姐姐還是那個小姐姐。

一個眼神,一個圍笑,都是三次元時的樣子沒變。

當然,如果你有喜歡的二次元老婆,想看她穿越到現實會是什麼樣子,也沒有問題。只要輸入一張她的頭像:


GitHub熱榜第一:小姐姐自拍,變成二次元萌妹,效果遠勝CycleGAN


就生成了逼真的小姐姐。

這個算法叫U-GAT-IT,名字也令人神往。重要的是,它是用無監督方法訓練的,連成對的數據都不需要。

現在,團隊已經把TensorFlow實現和PyTorch實現,都放上了GitHub。兩個項目一起登上了趨勢榜,且TF項目一度衝到第一

在食用之前,不妨來看看究竟是怎樣的AI,能給你這般豐盛的福利:

這隻GAN的注意力,與眾不同

U-GAT-IT,是一個圖到圖翻譯算法,由兩隻GAN組成的

一隻GAN,要把妹子的自拍,變成二次元小姐姐。這是從源領域到目標領域的翻譯。

另一隻GAN,要把二次元小姐姐,再變回三次元自拍。這是從目標領域到源領域的翻譯。

這樣,就有兩套生成器&判別器的組合。

生成器負責生成逼真的假圖,欺騙判別器;而判別器負責識破假圖。相生相長。


GitHub熱榜第一:小姐姐自拍,變成二次元萌妹,效果遠勝CycleGAN


而為了生成更加逼真的圖像,團隊給這兩隻四個部件,加入了不同的注意力

具體的方法,受到了周博磊團隊2016年CAM研究的啟發。

CAM,是類激活圖的簡稱。它能找出對於判斷一張圖的真假,最重要的區域,然後AI就能把注意力集中在那裡。

只不過在上採樣部分,CAM用的是全局平均池化。而U-GAT-IT為了更好的效果,結合了全局的平均池化和最大池化。

這裡,用第一隻GAN,就是生成二次元小姐姐的GAN來舉例。先看判別器:


GitHub熱榜第一:小姐姐自拍,變成二次元萌妹,效果遠勝CycleGAN


它要判斷一張圖片,是不是和數據集裡的二次元妹子屬於一個類別。假如不是同類,那生成器的作品。

判別器有一個輔助分類器 (CAM) ,會找出對類別判斷更重要的區域。

這也會引導生成器,把注意力集中在重要的區域。

再看生成器:


GitHub熱榜第一:小姐姐自拍,變成二次元萌妹,效果遠勝CycleGAN


它的輔助分類器,會找出屬於三次元妹子的重要區域。然後,把兩個領域的重要區域作比對,注意力模塊就知道,生成器的注意力該集中在哪了。

第二隻GAN,只是生成方向相反,道理也是一樣的。

而要把兩隻GAN結合在一起,損失函數也是精心設計過的:

損失函數有四部分

一是對抗損失,不多解釋,每隻GAN都有。

二是循環損失,這是為了避免生成器和判別器找到某種平衡之後相互和解、停滯不前 (Mode Collapse) 。

要保證為目標領域生成的圖像,還要能回到源領域被認可,就給生成器用了個循環一致性 (Cycle Consistency) 的約束。


GitHub熱榜第一:小姐姐自拍,變成二次元萌妹,效果遠勝CycleGAN


三是身份損失,為了保證輸入圖像和輸出圖像的色彩分佈類似,給生成器用了個身份一致性的約束。

具體說來,從目標領域挑一張圖,如果給它做一個從源領域到目標領域的翻譯,應該不發生任何變化才對。

四是CAM損失,給出一張圖激活圖,生成器和判別器會知道它們需要提升哪裡。或者說,知道兩個領域之間,當前最大的區別在哪裡。

除此之外,U-GAT-IT還有一個重要的貢獻:

AdaLIN可選歸一化方法

通常來說,Instance Normalization (IN) 是比較常用的方法,把圖像的特徵統計直接歸一化,就能消除風格變化 (Style Variation) 。

相比之下,批量歸一化 (BN) 和層歸一化 (LN**) 沒有那麼常用。

而給圖片做歸一化的時候,更多見的是自適應的IN,簡稱AdaIN

但在這裡,團隊提出了AdaLIN,它可以在IN和LN之間動態選擇。


GitHub熱榜第一:小姐姐自拍,變成二次元萌妹,效果遠勝CycleGAN


有了它,AI就能靈活控制形狀與質地的變化多大了。

從前基於注意力的模型,沒辦法解決不同領域之間的幾何變化;

但U-GAT-IT,既可以做需要整體變化 (Holistic Changes) 的翻譯,也可以做需要大幅形狀變化 (Large Shape Changes. ) 的翻譯。

最後再來講一下數據集。

無監督,不成對

selfie2anime,有兩個數據集。

一個是自拍數據集,一個是二次元數據集,都是隻選了妹子。


GitHub熱榜第一:小姐姐自拍,變成二次元萌妹,效果遠勝CycleGAN


各自是訓練集裡3400張,測試集裡100張。沒有配對。

其實也不止這些,還有馬變斑馬,貓變狗,照片變梵高畫風等等,訓練了各種功能。

來看看成果如何:

效果遠勝前輩

U-GAT-IT (b) 和許多厲害的前輩比了一場,它們是:

CycleGAN (c) 、UNIT (d) 、MUNIT (e) 、DRIT (f) 。


GitHub熱榜第一:小姐姐自拍,變成二次元萌妹,效果遠勝CycleGAN

△ 第四行,是照片變成肖像畫作;第五行是變梵高畫風


反向生成,比如二次元變三次,斑馬變馬之類,也都可以:


GitHub熱榜第一:小姐姐自拍,變成二次元萌妹,效果遠勝CycleGAN


(b) 列是本文主角,在穿越次元的任務上,表現明顯優於各路前輩。在其他任務上,生成效果也總體超過前輩。

然後,再來看一下注意力模塊 (CAM) 到底有沒有作用。

右邊兩列,差別盡顯。(e)是有注意力,(f)是沒有注意力


GitHub熱榜第一:小姐姐自拍,變成二次元萌妹,效果遠勝CycleGAN


最後,觀察可以動態選擇歸一化方式的AdaLIN,比起無法選擇,效果如何。

(b)是AdaLIN,右邊四列是陪跑的歸一化方法 (以及各種歸一化的結合) :


GitHub熱榜第一:小姐姐自拍,變成二次元萌妹,效果遠勝CycleGAN


AdaLIN的生成結果,更加完整,瑕疵比較少見。

如此一來,U-GAT-IT從各個角度看,都成功了。

令人內心一陣狂喜,快來領取開源代碼吧。

這是TensorFlow版本,曾經登上趨勢榜第一 (現在變成了第三):

https://github.com/taki0112/UGATIT

這是PyTorch版本:

https://github.com/znxlwm/UGATIT-pytorch

這是論文:

https://arxiv.org/abs/1907.10830

— 完 —

誠摯招聘

量子位正在招募編輯/記者,工作地點在北京中關村。期待有才氣、有熱情的同學加入我們!相關細節,請在量子位公眾號(QbitAI)對話界面,回覆“招聘”兩個字。

量子位 QbitAI · 頭條號簽約作者

վ'ᴗ' ի 追蹤AI技術和產品新動態

"

相關推薦

推薦中...