栗子 發自 凹非寺
量子位 報道 | 公眾號 QbitAI
如何能讓一個小姐姐屬於你?
把她變成二次元的人類,就可以解鎖一個老婆了。
韓國遊戲公司NCSOFT,最近開源了一隻技藝精湛的AI。
只要任意輸入小姐姐的自拍,就能得到她在二次元的樣子了:
栗子 發自 凹非寺
量子位 報道 | 公眾號 QbitAI
如何能讓一個小姐姐屬於你?
把她變成二次元的人類,就可以解鎖一個老婆了。
韓國遊戲公司NCSOFT,最近開源了一隻技藝精湛的AI。
只要任意輸入小姐姐的自拍,就能得到她在二次元的樣子了:
對比原圖,感覺小姐姐還是那個小姐姐。
一個眼神,一個圍笑,都是三次元時的樣子沒變。
當然,如果你有喜歡的二次元老婆,想看她穿越到現實會是什麼樣子,也沒有問題。只要輸入一張她的頭像:
栗子 發自 凹非寺
量子位 報道 | 公眾號 QbitAI
如何能讓一個小姐姐屬於你?
把她變成二次元的人類,就可以解鎖一個老婆了。
韓國遊戲公司NCSOFT,最近開源了一隻技藝精湛的AI。
只要任意輸入小姐姐的自拍,就能得到她在二次元的樣子了:
對比原圖,感覺小姐姐還是那個小姐姐。
一個眼神,一個圍笑,都是三次元時的樣子沒變。
當然,如果你有喜歡的二次元老婆,想看她穿越到現實會是什麼樣子,也沒有問題。只要輸入一張她的頭像:
就生成了逼真的小姐姐。
這個算法叫U-GAT-IT,名字也令人神往。重要的是,它是用無監督方法訓練的,連成對的數據都不需要。
現在,團隊已經把TensorFlow實現和PyTorch實現,都放上了GitHub。兩個項目一起登上了趨勢榜,且TF項目一度衝到第一。
在食用之前,不妨來看看究竟是怎樣的AI,能給你這般豐盛的福利:
這隻GAN的注意力,與眾不同
U-GAT-IT,是一個圖到圖翻譯算法,由兩隻GAN組成的。
一隻GAN,要把妹子的自拍,變成二次元小姐姐。這是從源領域到目標領域的翻譯。
另一隻GAN,要把二次元小姐姐,再變回三次元自拍。這是從目標領域到源領域的翻譯。
這樣,就有兩套生成器&判別器的組合。
生成器負責生成逼真的假圖,欺騙判別器;而判別器負責識破假圖。相生相長。
栗子 發自 凹非寺
量子位 報道 | 公眾號 QbitAI
如何能讓一個小姐姐屬於你?
把她變成二次元的人類,就可以解鎖一個老婆了。
韓國遊戲公司NCSOFT,最近開源了一隻技藝精湛的AI。
只要任意輸入小姐姐的自拍,就能得到她在二次元的樣子了:
對比原圖,感覺小姐姐還是那個小姐姐。
一個眼神,一個圍笑,都是三次元時的樣子沒變。
當然,如果你有喜歡的二次元老婆,想看她穿越到現實會是什麼樣子,也沒有問題。只要輸入一張她的頭像:
就生成了逼真的小姐姐。
這個算法叫U-GAT-IT,名字也令人神往。重要的是,它是用無監督方法訓練的,連成對的數據都不需要。
現在,團隊已經把TensorFlow實現和PyTorch實現,都放上了GitHub。兩個項目一起登上了趨勢榜,且TF項目一度衝到第一。
在食用之前,不妨來看看究竟是怎樣的AI,能給你這般豐盛的福利:
這隻GAN的注意力,與眾不同
U-GAT-IT,是一個圖到圖翻譯算法,由兩隻GAN組成的。
一隻GAN,要把妹子的自拍,變成二次元小姐姐。這是從源領域到目標領域的翻譯。
另一隻GAN,要把二次元小姐姐,再變回三次元自拍。這是從目標領域到源領域的翻譯。
這樣,就有兩套生成器&判別器的組合。
生成器負責生成逼真的假圖,欺騙判別器;而判別器負責識破假圖。相生相長。
而為了生成更加逼真的圖像,團隊給這兩隻四個部件,加入了不同的注意力。
具體的方法,受到了周博磊團隊2016年CAM研究的啟發。
CAM,是類激活圖的簡稱。它能找出對於判斷一張圖的真假,最重要的區域,然後AI就能把注意力集中在那裡。
只不過在上採樣部分,CAM用的是全局平均池化。而U-GAT-IT為了更好的效果,結合了全局的平均池化和最大池化。
這裡,用第一隻GAN,就是生成二次元小姐姐的GAN來舉例。先看判別器:
栗子 發自 凹非寺
量子位 報道 | 公眾號 QbitAI
如何能讓一個小姐姐屬於你?
把她變成二次元的人類,就可以解鎖一個老婆了。
韓國遊戲公司NCSOFT,最近開源了一隻技藝精湛的AI。
只要任意輸入小姐姐的自拍,就能得到她在二次元的樣子了:
對比原圖,感覺小姐姐還是那個小姐姐。
一個眼神,一個圍笑,都是三次元時的樣子沒變。
當然,如果你有喜歡的二次元老婆,想看她穿越到現實會是什麼樣子,也沒有問題。只要輸入一張她的頭像:
就生成了逼真的小姐姐。
這個算法叫U-GAT-IT,名字也令人神往。重要的是,它是用無監督方法訓練的,連成對的數據都不需要。
現在,團隊已經把TensorFlow實現和PyTorch實現,都放上了GitHub。兩個項目一起登上了趨勢榜,且TF項目一度衝到第一。
在食用之前,不妨來看看究竟是怎樣的AI,能給你這般豐盛的福利:
這隻GAN的注意力,與眾不同
U-GAT-IT,是一個圖到圖翻譯算法,由兩隻GAN組成的。
一隻GAN,要把妹子的自拍,變成二次元小姐姐。這是從源領域到目標領域的翻譯。
另一隻GAN,要把二次元小姐姐,再變回三次元自拍。這是從目標領域到源領域的翻譯。
這樣,就有兩套生成器&判別器的組合。
生成器負責生成逼真的假圖,欺騙判別器;而判別器負責識破假圖。相生相長。
而為了生成更加逼真的圖像,團隊給這兩隻四個部件,加入了不同的注意力。
具體的方法,受到了周博磊團隊2016年CAM研究的啟發。
CAM,是類激活圖的簡稱。它能找出對於判斷一張圖的真假,最重要的區域,然後AI就能把注意力集中在那裡。
只不過在上採樣部分,CAM用的是全局平均池化。而U-GAT-IT為了更好的效果,結合了全局的平均池化和最大池化。
這裡,用第一隻GAN,就是生成二次元小姐姐的GAN來舉例。先看判別器:
它要判斷一張圖片,是不是和數據集裡的二次元妹子屬於一個類別。假如不是同類,那生成器的作品。
判別器有一個輔助分類器 (CAM) ,會找出對類別判斷更重要的區域。
這也會引導生成器,把注意力集中在重要的區域。
再看生成器:
栗子 發自 凹非寺
量子位 報道 | 公眾號 QbitAI
如何能讓一個小姐姐屬於你?
把她變成二次元的人類,就可以解鎖一個老婆了。
韓國遊戲公司NCSOFT,最近開源了一隻技藝精湛的AI。
只要任意輸入小姐姐的自拍,就能得到她在二次元的樣子了:
對比原圖,感覺小姐姐還是那個小姐姐。
一個眼神,一個圍笑,都是三次元時的樣子沒變。
當然,如果你有喜歡的二次元老婆,想看她穿越到現實會是什麼樣子,也沒有問題。只要輸入一張她的頭像:
就生成了逼真的小姐姐。
這個算法叫U-GAT-IT,名字也令人神往。重要的是,它是用無監督方法訓練的,連成對的數據都不需要。
現在,團隊已經把TensorFlow實現和PyTorch實現,都放上了GitHub。兩個項目一起登上了趨勢榜,且TF項目一度衝到第一。
在食用之前,不妨來看看究竟是怎樣的AI,能給你這般豐盛的福利:
這隻GAN的注意力,與眾不同
U-GAT-IT,是一個圖到圖翻譯算法,由兩隻GAN組成的。
一隻GAN,要把妹子的自拍,變成二次元小姐姐。這是從源領域到目標領域的翻譯。
另一隻GAN,要把二次元小姐姐,再變回三次元自拍。這是從目標領域到源領域的翻譯。
這樣,就有兩套生成器&判別器的組合。
生成器負責生成逼真的假圖,欺騙判別器;而判別器負責識破假圖。相生相長。
而為了生成更加逼真的圖像,團隊給這兩隻四個部件,加入了不同的注意力。
具體的方法,受到了周博磊團隊2016年CAM研究的啟發。
CAM,是類激活圖的簡稱。它能找出對於判斷一張圖的真假,最重要的區域,然後AI就能把注意力集中在那裡。
只不過在上採樣部分,CAM用的是全局平均池化。而U-GAT-IT為了更好的效果,結合了全局的平均池化和最大池化。
這裡,用第一隻GAN,就是生成二次元小姐姐的GAN來舉例。先看判別器:
它要判斷一張圖片,是不是和數據集裡的二次元妹子屬於一個類別。假如不是同類,那生成器的作品。
判別器有一個輔助分類器 (CAM) ,會找出對類別判斷更重要的區域。
這也會引導生成器,把注意力集中在重要的區域。
再看生成器:
它的輔助分類器,會找出屬於三次元妹子的重要區域。然後,把兩個領域的重要區域作比對,注意力模塊就知道,生成器的注意力該集中在哪了。
第二隻GAN,只是生成方向相反,道理也是一樣的。
而要把兩隻GAN結合在一起,損失函數也是精心設計過的:
損失函數有四部分
一是對抗損失,不多解釋,每隻GAN都有。
二是循環損失,這是為了避免生成器和判別器找到某種平衡之後相互和解、停滯不前 (Mode Collapse) 。
要保證為目標領域生成的圖像,還要能回到源領域被認可,就給生成器用了個循環一致性 (Cycle Consistency) 的約束。
栗子 發自 凹非寺
量子位 報道 | 公眾號 QbitAI
如何能讓一個小姐姐屬於你?
把她變成二次元的人類,就可以解鎖一個老婆了。
韓國遊戲公司NCSOFT,最近開源了一隻技藝精湛的AI。
只要任意輸入小姐姐的自拍,就能得到她在二次元的樣子了:
對比原圖,感覺小姐姐還是那個小姐姐。
一個眼神,一個圍笑,都是三次元時的樣子沒變。
當然,如果你有喜歡的二次元老婆,想看她穿越到現實會是什麼樣子,也沒有問題。只要輸入一張她的頭像:
就生成了逼真的小姐姐。
這個算法叫U-GAT-IT,名字也令人神往。重要的是,它是用無監督方法訓練的,連成對的數據都不需要。
現在,團隊已經把TensorFlow實現和PyTorch實現,都放上了GitHub。兩個項目一起登上了趨勢榜,且TF項目一度衝到第一。
在食用之前,不妨來看看究竟是怎樣的AI,能給你這般豐盛的福利:
這隻GAN的注意力,與眾不同
U-GAT-IT,是一個圖到圖翻譯算法,由兩隻GAN組成的。
一隻GAN,要把妹子的自拍,變成二次元小姐姐。這是從源領域到目標領域的翻譯。
另一隻GAN,要把二次元小姐姐,再變回三次元自拍。這是從目標領域到源領域的翻譯。
這樣,就有兩套生成器&判別器的組合。
生成器負責生成逼真的假圖,欺騙判別器;而判別器負責識破假圖。相生相長。
而為了生成更加逼真的圖像,團隊給這兩隻四個部件,加入了不同的注意力。
具體的方法,受到了周博磊團隊2016年CAM研究的啟發。
CAM,是類激活圖的簡稱。它能找出對於判斷一張圖的真假,最重要的區域,然後AI就能把注意力集中在那裡。
只不過在上採樣部分,CAM用的是全局平均池化。而U-GAT-IT為了更好的效果,結合了全局的平均池化和最大池化。
這裡,用第一隻GAN,就是生成二次元小姐姐的GAN來舉例。先看判別器:
它要判斷一張圖片,是不是和數據集裡的二次元妹子屬於一個類別。假如不是同類,那生成器的作品。
判別器有一個輔助分類器 (CAM) ,會找出對類別判斷更重要的區域。
這也會引導生成器,把注意力集中在重要的區域。
再看生成器:
它的輔助分類器,會找出屬於三次元妹子的重要區域。然後,把兩個領域的重要區域作比對,注意力模塊就知道,生成器的注意力該集中在哪了。
第二隻GAN,只是生成方向相反,道理也是一樣的。
而要把兩隻GAN結合在一起,損失函數也是精心設計過的:
損失函數有四部分
一是對抗損失,不多解釋,每隻GAN都有。
二是循環損失,這是為了避免生成器和判別器找到某種平衡之後相互和解、停滯不前 (Mode Collapse) 。
要保證為目標領域生成的圖像,還要能回到源領域被認可,就給生成器用了個循環一致性 (Cycle Consistency) 的約束。
三是身份損失,為了保證輸入圖像和輸出圖像的色彩分佈類似,給生成器用了個身份一致性的約束。
具體說來,從目標領域挑一張圖,如果給它做一個從源領域到目標領域的翻譯,應該不發生任何變化才對。
四是CAM損失,給出一張圖激活圖,生成器和判別器會知道它們需要提升哪裡。或者說,知道兩個領域之間,當前最大的區別在哪裡。
除此之外,U-GAT-IT還有一個重要的貢獻:
AdaLIN可選歸一化方法
通常來說,Instance Normalization (IN) 是比較常用的方法,把圖像的特徵統計直接歸一化,就能消除風格變化 (Style Variation) 。
相比之下,批量歸一化 (BN) 和層歸一化 (LN**) 沒有那麼常用。
而給圖片做歸一化的時候,更多見的是自適應的IN,簡稱AdaIN。
但在這裡,團隊提出了AdaLIN,它可以在IN和LN之間動態選擇。
栗子 發自 凹非寺
量子位 報道 | 公眾號 QbitAI
如何能讓一個小姐姐屬於你?
把她變成二次元的人類,就可以解鎖一個老婆了。
韓國遊戲公司NCSOFT,最近開源了一隻技藝精湛的AI。
只要任意輸入小姐姐的自拍,就能得到她在二次元的樣子了:
對比原圖,感覺小姐姐還是那個小姐姐。
一個眼神,一個圍笑,都是三次元時的樣子沒變。
當然,如果你有喜歡的二次元老婆,想看她穿越到現實會是什麼樣子,也沒有問題。只要輸入一張她的頭像:
就生成了逼真的小姐姐。
這個算法叫U-GAT-IT,名字也令人神往。重要的是,它是用無監督方法訓練的,連成對的數據都不需要。
現在,團隊已經把TensorFlow實現和PyTorch實現,都放上了GitHub。兩個項目一起登上了趨勢榜,且TF項目一度衝到第一。
在食用之前,不妨來看看究竟是怎樣的AI,能給你這般豐盛的福利:
這隻GAN的注意力,與眾不同
U-GAT-IT,是一個圖到圖翻譯算法,由兩隻GAN組成的。
一隻GAN,要把妹子的自拍,變成二次元小姐姐。這是從源領域到目標領域的翻譯。
另一隻GAN,要把二次元小姐姐,再變回三次元自拍。這是從目標領域到源領域的翻譯。
這樣,就有兩套生成器&判別器的組合。
生成器負責生成逼真的假圖,欺騙判別器;而判別器負責識破假圖。相生相長。
而為了生成更加逼真的圖像,團隊給這兩隻四個部件,加入了不同的注意力。
具體的方法,受到了周博磊團隊2016年CAM研究的啟發。
CAM,是類激活圖的簡稱。它能找出對於判斷一張圖的真假,最重要的區域,然後AI就能把注意力集中在那裡。
只不過在上採樣部分,CAM用的是全局平均池化。而U-GAT-IT為了更好的效果,結合了全局的平均池化和最大池化。
這裡,用第一隻GAN,就是生成二次元小姐姐的GAN來舉例。先看判別器:
它要判斷一張圖片,是不是和數據集裡的二次元妹子屬於一個類別。假如不是同類,那生成器的作品。
判別器有一個輔助分類器 (CAM) ,會找出對類別判斷更重要的區域。
這也會引導生成器,把注意力集中在重要的區域。
再看生成器:
它的輔助分類器,會找出屬於三次元妹子的重要區域。然後,把兩個領域的重要區域作比對,注意力模塊就知道,生成器的注意力該集中在哪了。
第二隻GAN,只是生成方向相反,道理也是一樣的。
而要把兩隻GAN結合在一起,損失函數也是精心設計過的:
損失函數有四部分
一是對抗損失,不多解釋,每隻GAN都有。
二是循環損失,這是為了避免生成器和判別器找到某種平衡之後相互和解、停滯不前 (Mode Collapse) 。
要保證為目標領域生成的圖像,還要能回到源領域被認可,就給生成器用了個循環一致性 (Cycle Consistency) 的約束。
三是身份損失,為了保證輸入圖像和輸出圖像的色彩分佈類似,給生成器用了個身份一致性的約束。
具體說來,從目標領域挑一張圖,如果給它做一個從源領域到目標領域的翻譯,應該不發生任何變化才對。
四是CAM損失,給出一張圖激活圖,生成器和判別器會知道它們需要提升哪裡。或者說,知道兩個領域之間,當前最大的區別在哪裡。
除此之外,U-GAT-IT還有一個重要的貢獻:
AdaLIN可選歸一化方法
通常來說,Instance Normalization (IN) 是比較常用的方法,把圖像的特徵統計直接歸一化,就能消除風格變化 (Style Variation) 。
相比之下,批量歸一化 (BN) 和層歸一化 (LN**) 沒有那麼常用。
而給圖片做歸一化的時候,更多見的是自適應的IN,簡稱AdaIN。
但在這裡,團隊提出了AdaLIN,它可以在IN和LN之間動態選擇。
有了它,AI就能靈活控制形狀與質地的變化多大了。
從前基於注意力的模型,沒辦法解決不同領域之間的幾何變化;
但U-GAT-IT,既可以做需要整體變化 (Holistic Changes) 的翻譯,也可以做需要大幅形狀變化 (Large Shape Changes. ) 的翻譯。
最後再來講一下數據集。
無監督,不成對
selfie2anime,有兩個數據集。
一個是自拍數據集,一個是二次元數據集,都是隻選了妹子。
栗子 發自 凹非寺
量子位 報道 | 公眾號 QbitAI
如何能讓一個小姐姐屬於你?
把她變成二次元的人類,就可以解鎖一個老婆了。
韓國遊戲公司NCSOFT,最近開源了一隻技藝精湛的AI。
只要任意輸入小姐姐的自拍,就能得到她在二次元的樣子了:
對比原圖,感覺小姐姐還是那個小姐姐。
一個眼神,一個圍笑,都是三次元時的樣子沒變。
當然,如果你有喜歡的二次元老婆,想看她穿越到現實會是什麼樣子,也沒有問題。只要輸入一張她的頭像:
就生成了逼真的小姐姐。
這個算法叫U-GAT-IT,名字也令人神往。重要的是,它是用無監督方法訓練的,連成對的數據都不需要。
現在,團隊已經把TensorFlow實現和PyTorch實現,都放上了GitHub。兩個項目一起登上了趨勢榜,且TF項目一度衝到第一。
在食用之前,不妨來看看究竟是怎樣的AI,能給你這般豐盛的福利:
這隻GAN的注意力,與眾不同
U-GAT-IT,是一個圖到圖翻譯算法,由兩隻GAN組成的。
一隻GAN,要把妹子的自拍,變成二次元小姐姐。這是從源領域到目標領域的翻譯。
另一隻GAN,要把二次元小姐姐,再變回三次元自拍。這是從目標領域到源領域的翻譯。
這樣,就有兩套生成器&判別器的組合。
生成器負責生成逼真的假圖,欺騙判別器;而判別器負責識破假圖。相生相長。
而為了生成更加逼真的圖像,團隊給這兩隻四個部件,加入了不同的注意力。
具體的方法,受到了周博磊團隊2016年CAM研究的啟發。
CAM,是類激活圖的簡稱。它能找出對於判斷一張圖的真假,最重要的區域,然後AI就能把注意力集中在那裡。
只不過在上採樣部分,CAM用的是全局平均池化。而U-GAT-IT為了更好的效果,結合了全局的平均池化和最大池化。
這裡,用第一隻GAN,就是生成二次元小姐姐的GAN來舉例。先看判別器:
它要判斷一張圖片,是不是和數據集裡的二次元妹子屬於一個類別。假如不是同類,那生成器的作品。
判別器有一個輔助分類器 (CAM) ,會找出對類別判斷更重要的區域。
這也會引導生成器,把注意力集中在重要的區域。
再看生成器:
它的輔助分類器,會找出屬於三次元妹子的重要區域。然後,把兩個領域的重要區域作比對,注意力模塊就知道,生成器的注意力該集中在哪了。
第二隻GAN,只是生成方向相反,道理也是一樣的。
而要把兩隻GAN結合在一起,損失函數也是精心設計過的:
損失函數有四部分
一是對抗損失,不多解釋,每隻GAN都有。
二是循環損失,這是為了避免生成器和判別器找到某種平衡之後相互和解、停滯不前 (Mode Collapse) 。
要保證為目標領域生成的圖像,還要能回到源領域被認可,就給生成器用了個循環一致性 (Cycle Consistency) 的約束。
三是身份損失,為了保證輸入圖像和輸出圖像的色彩分佈類似,給生成器用了個身份一致性的約束。
具體說來,從目標領域挑一張圖,如果給它做一個從源領域到目標領域的翻譯,應該不發生任何變化才對。
四是CAM損失,給出一張圖激活圖,生成器和判別器會知道它們需要提升哪裡。或者說,知道兩個領域之間,當前最大的區別在哪裡。
除此之外,U-GAT-IT還有一個重要的貢獻:
AdaLIN可選歸一化方法
通常來說,Instance Normalization (IN) 是比較常用的方法,把圖像的特徵統計直接歸一化,就能消除風格變化 (Style Variation) 。
相比之下,批量歸一化 (BN) 和層歸一化 (LN**) 沒有那麼常用。
而給圖片做歸一化的時候,更多見的是自適應的IN,簡稱AdaIN。
但在這裡,團隊提出了AdaLIN,它可以在IN和LN之間動態選擇。
有了它,AI就能靈活控制形狀與質地的變化多大了。
從前基於注意力的模型,沒辦法解決不同領域之間的幾何變化;
但U-GAT-IT,既可以做需要整體變化 (Holistic Changes) 的翻譯,也可以做需要大幅形狀變化 (Large Shape Changes. ) 的翻譯。
最後再來講一下數據集。
無監督,不成對
selfie2anime,有兩個數據集。
一個是自拍數據集,一個是二次元數據集,都是隻選了妹子。
各自是訓練集裡3400張,測試集裡100張。沒有配對。
其實也不止這些,還有馬變斑馬,貓變狗,照片變梵高畫風等等,訓練了各種功能。
來看看成果如何:
效果遠勝前輩
U-GAT-IT (b) 和許多厲害的前輩比了一場,它們是:
CycleGAN (c) 、UNIT (d) 、MUNIT (e) 、DRIT (f) 。
栗子 發自 凹非寺
量子位 報道 | 公眾號 QbitAI
如何能讓一個小姐姐屬於你?
把她變成二次元的人類,就可以解鎖一個老婆了。
韓國遊戲公司NCSOFT,最近開源了一隻技藝精湛的AI。
只要任意輸入小姐姐的自拍,就能得到她在二次元的樣子了:
對比原圖,感覺小姐姐還是那個小姐姐。
一個眼神,一個圍笑,都是三次元時的樣子沒變。
當然,如果你有喜歡的二次元老婆,想看她穿越到現實會是什麼樣子,也沒有問題。只要輸入一張她的頭像:
就生成了逼真的小姐姐。
這個算法叫U-GAT-IT,名字也令人神往。重要的是,它是用無監督方法訓練的,連成對的數據都不需要。
現在,團隊已經把TensorFlow實現和PyTorch實現,都放上了GitHub。兩個項目一起登上了趨勢榜,且TF項目一度衝到第一。
在食用之前,不妨來看看究竟是怎樣的AI,能給你這般豐盛的福利:
這隻GAN的注意力,與眾不同
U-GAT-IT,是一個圖到圖翻譯算法,由兩隻GAN組成的。
一隻GAN,要把妹子的自拍,變成二次元小姐姐。這是從源領域到目標領域的翻譯。
另一隻GAN,要把二次元小姐姐,再變回三次元自拍。這是從目標領域到源領域的翻譯。
這樣,就有兩套生成器&判別器的組合。
生成器負責生成逼真的假圖,欺騙判別器;而判別器負責識破假圖。相生相長。
而為了生成更加逼真的圖像,團隊給這兩隻四個部件,加入了不同的注意力。
具體的方法,受到了周博磊團隊2016年CAM研究的啟發。
CAM,是類激活圖的簡稱。它能找出對於判斷一張圖的真假,最重要的區域,然後AI就能把注意力集中在那裡。
只不過在上採樣部分,CAM用的是全局平均池化。而U-GAT-IT為了更好的效果,結合了全局的平均池化和最大池化。
這裡,用第一隻GAN,就是生成二次元小姐姐的GAN來舉例。先看判別器:
它要判斷一張圖片,是不是和數據集裡的二次元妹子屬於一個類別。假如不是同類,那生成器的作品。
判別器有一個輔助分類器 (CAM) ,會找出對類別判斷更重要的區域。
這也會引導生成器,把注意力集中在重要的區域。
再看生成器:
它的輔助分類器,會找出屬於三次元妹子的重要區域。然後,把兩個領域的重要區域作比對,注意力模塊就知道,生成器的注意力該集中在哪了。
第二隻GAN,只是生成方向相反,道理也是一樣的。
而要把兩隻GAN結合在一起,損失函數也是精心設計過的:
損失函數有四部分
一是對抗損失,不多解釋,每隻GAN都有。
二是循環損失,這是為了避免生成器和判別器找到某種平衡之後相互和解、停滯不前 (Mode Collapse) 。
要保證為目標領域生成的圖像,還要能回到源領域被認可,就給生成器用了個循環一致性 (Cycle Consistency) 的約束。
三是身份損失,為了保證輸入圖像和輸出圖像的色彩分佈類似,給生成器用了個身份一致性的約束。
具體說來,從目標領域挑一張圖,如果給它做一個從源領域到目標領域的翻譯,應該不發生任何變化才對。
四是CAM損失,給出一張圖激活圖,生成器和判別器會知道它們需要提升哪裡。或者說,知道兩個領域之間,當前最大的區別在哪裡。
除此之外,U-GAT-IT還有一個重要的貢獻:
AdaLIN可選歸一化方法
通常來說,Instance Normalization (IN) 是比較常用的方法,把圖像的特徵統計直接歸一化,就能消除風格變化 (Style Variation) 。
相比之下,批量歸一化 (BN) 和層歸一化 (LN**) 沒有那麼常用。
而給圖片做歸一化的時候,更多見的是自適應的IN,簡稱AdaIN。
但在這裡,團隊提出了AdaLIN,它可以在IN和LN之間動態選擇。
有了它,AI就能靈活控制形狀與質地的變化多大了。
從前基於注意力的模型,沒辦法解決不同領域之間的幾何變化;
但U-GAT-IT,既可以做需要整體變化 (Holistic Changes) 的翻譯,也可以做需要大幅形狀變化 (Large Shape Changes. ) 的翻譯。
最後再來講一下數據集。
無監督,不成對
selfie2anime,有兩個數據集。
一個是自拍數據集,一個是二次元數據集,都是隻選了妹子。
各自是訓練集裡3400張,測試集裡100張。沒有配對。
其實也不止這些,還有馬變斑馬,貓變狗,照片變梵高畫風等等,訓練了各種功能。
來看看成果如何:
效果遠勝前輩
U-GAT-IT (b) 和許多厲害的前輩比了一場,它們是:
CycleGAN (c) 、UNIT (d) 、MUNIT (e) 、DRIT (f) 。
反向生成,比如二次元變三次,斑馬變馬之類,也都可以:
栗子 發自 凹非寺
量子位 報道 | 公眾號 QbitAI
如何能讓一個小姐姐屬於你?
把她變成二次元的人類,就可以解鎖一個老婆了。
韓國遊戲公司NCSOFT,最近開源了一隻技藝精湛的AI。
只要任意輸入小姐姐的自拍,就能得到她在二次元的樣子了:
對比原圖,感覺小姐姐還是那個小姐姐。
一個眼神,一個圍笑,都是三次元時的樣子沒變。
當然,如果你有喜歡的二次元老婆,想看她穿越到現實會是什麼樣子,也沒有問題。只要輸入一張她的頭像:
就生成了逼真的小姐姐。
這個算法叫U-GAT-IT,名字也令人神往。重要的是,它是用無監督方法訓練的,連成對的數據都不需要。
現在,團隊已經把TensorFlow實現和PyTorch實現,都放上了GitHub。兩個項目一起登上了趨勢榜,且TF項目一度衝到第一。
在食用之前,不妨來看看究竟是怎樣的AI,能給你這般豐盛的福利:
這隻GAN的注意力,與眾不同
U-GAT-IT,是一個圖到圖翻譯算法,由兩隻GAN組成的。
一隻GAN,要把妹子的自拍,變成二次元小姐姐。這是從源領域到目標領域的翻譯。
另一隻GAN,要把二次元小姐姐,再變回三次元自拍。這是從目標領域到源領域的翻譯。
這樣,就有兩套生成器&判別器的組合。
生成器負責生成逼真的假圖,欺騙判別器;而判別器負責識破假圖。相生相長。
而為了生成更加逼真的圖像,團隊給這兩隻四個部件,加入了不同的注意力。
具體的方法,受到了周博磊團隊2016年CAM研究的啟發。
CAM,是類激活圖的簡稱。它能找出對於判斷一張圖的真假,最重要的區域,然後AI就能把注意力集中在那裡。
只不過在上採樣部分,CAM用的是全局平均池化。而U-GAT-IT為了更好的效果,結合了全局的平均池化和最大池化。
這裡,用第一隻GAN,就是生成二次元小姐姐的GAN來舉例。先看判別器:
它要判斷一張圖片,是不是和數據集裡的二次元妹子屬於一個類別。假如不是同類,那生成器的作品。
判別器有一個輔助分類器 (CAM) ,會找出對類別判斷更重要的區域。
這也會引導生成器,把注意力集中在重要的區域。
再看生成器:
它的輔助分類器,會找出屬於三次元妹子的重要區域。然後,把兩個領域的重要區域作比對,注意力模塊就知道,生成器的注意力該集中在哪了。
第二隻GAN,只是生成方向相反,道理也是一樣的。
而要把兩隻GAN結合在一起,損失函數也是精心設計過的:
損失函數有四部分
一是對抗損失,不多解釋,每隻GAN都有。
二是循環損失,這是為了避免生成器和判別器找到某種平衡之後相互和解、停滯不前 (Mode Collapse) 。
要保證為目標領域生成的圖像,還要能回到源領域被認可,就給生成器用了個循環一致性 (Cycle Consistency) 的約束。
三是身份損失,為了保證輸入圖像和輸出圖像的色彩分佈類似,給生成器用了個身份一致性的約束。
具體說來,從目標領域挑一張圖,如果給它做一個從源領域到目標領域的翻譯,應該不發生任何變化才對。
四是CAM損失,給出一張圖激活圖,生成器和判別器會知道它們需要提升哪裡。或者說,知道兩個領域之間,當前最大的區別在哪裡。
除此之外,U-GAT-IT還有一個重要的貢獻:
AdaLIN可選歸一化方法
通常來說,Instance Normalization (IN) 是比較常用的方法,把圖像的特徵統計直接歸一化,就能消除風格變化 (Style Variation) 。
相比之下,批量歸一化 (BN) 和層歸一化 (LN**) 沒有那麼常用。
而給圖片做歸一化的時候,更多見的是自適應的IN,簡稱AdaIN。
但在這裡,團隊提出了AdaLIN,它可以在IN和LN之間動態選擇。
有了它,AI就能靈活控制形狀與質地的變化多大了。
從前基於注意力的模型,沒辦法解決不同領域之間的幾何變化;
但U-GAT-IT,既可以做需要整體變化 (Holistic Changes) 的翻譯,也可以做需要大幅形狀變化 (Large Shape Changes. ) 的翻譯。
最後再來講一下數據集。
無監督,不成對
selfie2anime,有兩個數據集。
一個是自拍數據集,一個是二次元數據集,都是隻選了妹子。
各自是訓練集裡3400張,測試集裡100張。沒有配對。
其實也不止這些,還有馬變斑馬,貓變狗,照片變梵高畫風等等,訓練了各種功能。
來看看成果如何:
效果遠勝前輩
U-GAT-IT (b) 和許多厲害的前輩比了一場,它們是:
CycleGAN (c) 、UNIT (d) 、MUNIT (e) 、DRIT (f) 。
反向生成,比如二次元變三次,斑馬變馬之類,也都可以:
(b) 列是本文主角,在穿越次元的任務上,表現明顯優於各路前輩。在其他任務上,生成效果也總體超過前輩。
然後,再來看一下注意力模塊 (CAM) 到底有沒有作用。
右邊兩列,差別盡顯。(e)是有注意力,(f)是沒有注意力:
栗子 發自 凹非寺
量子位 報道 | 公眾號 QbitAI
如何能讓一個小姐姐屬於你?
把她變成二次元的人類,就可以解鎖一個老婆了。
韓國遊戲公司NCSOFT,最近開源了一隻技藝精湛的AI。
只要任意輸入小姐姐的自拍,就能得到她在二次元的樣子了:
對比原圖,感覺小姐姐還是那個小姐姐。
一個眼神,一個圍笑,都是三次元時的樣子沒變。
當然,如果你有喜歡的二次元老婆,想看她穿越到現實會是什麼樣子,也沒有問題。只要輸入一張她的頭像:
就生成了逼真的小姐姐。
這個算法叫U-GAT-IT,名字也令人神往。重要的是,它是用無監督方法訓練的,連成對的數據都不需要。
現在,團隊已經把TensorFlow實現和PyTorch實現,都放上了GitHub。兩個項目一起登上了趨勢榜,且TF項目一度衝到第一。
在食用之前,不妨來看看究竟是怎樣的AI,能給你這般豐盛的福利:
這隻GAN的注意力,與眾不同
U-GAT-IT,是一個圖到圖翻譯算法,由兩隻GAN組成的。
一隻GAN,要把妹子的自拍,變成二次元小姐姐。這是從源領域到目標領域的翻譯。
另一隻GAN,要把二次元小姐姐,再變回三次元自拍。這是從目標領域到源領域的翻譯。
這樣,就有兩套生成器&判別器的組合。
生成器負責生成逼真的假圖,欺騙判別器;而判別器負責識破假圖。相生相長。
而為了生成更加逼真的圖像,團隊給這兩隻四個部件,加入了不同的注意力。
具體的方法,受到了周博磊團隊2016年CAM研究的啟發。
CAM,是類激活圖的簡稱。它能找出對於判斷一張圖的真假,最重要的區域,然後AI就能把注意力集中在那裡。
只不過在上採樣部分,CAM用的是全局平均池化。而U-GAT-IT為了更好的效果,結合了全局的平均池化和最大池化。
這裡,用第一隻GAN,就是生成二次元小姐姐的GAN來舉例。先看判別器:
它要判斷一張圖片,是不是和數據集裡的二次元妹子屬於一個類別。假如不是同類,那生成器的作品。
判別器有一個輔助分類器 (CAM) ,會找出對類別判斷更重要的區域。
這也會引導生成器,把注意力集中在重要的區域。
再看生成器:
它的輔助分類器,會找出屬於三次元妹子的重要區域。然後,把兩個領域的重要區域作比對,注意力模塊就知道,生成器的注意力該集中在哪了。
第二隻GAN,只是生成方向相反,道理也是一樣的。
而要把兩隻GAN結合在一起,損失函數也是精心設計過的:
損失函數有四部分
一是對抗損失,不多解釋,每隻GAN都有。
二是循環損失,這是為了避免生成器和判別器找到某種平衡之後相互和解、停滯不前 (Mode Collapse) 。
要保證為目標領域生成的圖像,還要能回到源領域被認可,就給生成器用了個循環一致性 (Cycle Consistency) 的約束。
三是身份損失,為了保證輸入圖像和輸出圖像的色彩分佈類似,給生成器用了個身份一致性的約束。
具體說來,從目標領域挑一張圖,如果給它做一個從源領域到目標領域的翻譯,應該不發生任何變化才對。
四是CAM損失,給出一張圖激活圖,生成器和判別器會知道它們需要提升哪裡。或者說,知道兩個領域之間,當前最大的區別在哪裡。
除此之外,U-GAT-IT還有一個重要的貢獻:
AdaLIN可選歸一化方法
通常來說,Instance Normalization (IN) 是比較常用的方法,把圖像的特徵統計直接歸一化,就能消除風格變化 (Style Variation) 。
相比之下,批量歸一化 (BN) 和層歸一化 (LN**) 沒有那麼常用。
而給圖片做歸一化的時候,更多見的是自適應的IN,簡稱AdaIN。
但在這裡,團隊提出了AdaLIN,它可以在IN和LN之間動態選擇。
有了它,AI就能靈活控制形狀與質地的變化多大了。
從前基於注意力的模型,沒辦法解決不同領域之間的幾何變化;
但U-GAT-IT,既可以做需要整體變化 (Holistic Changes) 的翻譯,也可以做需要大幅形狀變化 (Large Shape Changes. ) 的翻譯。
最後再來講一下數據集。
無監督,不成對
selfie2anime,有兩個數據集。
一個是自拍數據集,一個是二次元數據集,都是隻選了妹子。
各自是訓練集裡3400張,測試集裡100張。沒有配對。
其實也不止這些,還有馬變斑馬,貓變狗,照片變梵高畫風等等,訓練了各種功能。
來看看成果如何:
效果遠勝前輩
U-GAT-IT (b) 和許多厲害的前輩比了一場,它們是:
CycleGAN (c) 、UNIT (d) 、MUNIT (e) 、DRIT (f) 。
反向生成,比如二次元變三次,斑馬變馬之類,也都可以:
(b) 列是本文主角,在穿越次元的任務上,表現明顯優於各路前輩。在其他任務上,生成效果也總體超過前輩。
然後,再來看一下注意力模塊 (CAM) 到底有沒有作用。
右邊兩列,差別盡顯。(e)是有注意力,(f)是沒有注意力:
最後,觀察可以動態選擇歸一化方式的AdaLIN,比起無法選擇,效果如何。
(b)是AdaLIN,右邊四列是陪跑的歸一化方法 (以及各種歸一化的結合) :
栗子 發自 凹非寺
量子位 報道 | 公眾號 QbitAI
如何能讓一個小姐姐屬於你?
把她變成二次元的人類,就可以解鎖一個老婆了。
韓國遊戲公司NCSOFT,最近開源了一隻技藝精湛的AI。
只要任意輸入小姐姐的自拍,就能得到她在二次元的樣子了:
對比原圖,感覺小姐姐還是那個小姐姐。
一個眼神,一個圍笑,都是三次元時的樣子沒變。
當然,如果你有喜歡的二次元老婆,想看她穿越到現實會是什麼樣子,也沒有問題。只要輸入一張她的頭像:
就生成了逼真的小姐姐。
這個算法叫U-GAT-IT,名字也令人神往。重要的是,它是用無監督方法訓練的,連成對的數據都不需要。
現在,團隊已經把TensorFlow實現和PyTorch實現,都放上了GitHub。兩個項目一起登上了趨勢榜,且TF項目一度衝到第一。
在食用之前,不妨來看看究竟是怎樣的AI,能給你這般豐盛的福利:
這隻GAN的注意力,與眾不同
U-GAT-IT,是一個圖到圖翻譯算法,由兩隻GAN組成的。
一隻GAN,要把妹子的自拍,變成二次元小姐姐。這是從源領域到目標領域的翻譯。
另一隻GAN,要把二次元小姐姐,再變回三次元自拍。這是從目標領域到源領域的翻譯。
這樣,就有兩套生成器&判別器的組合。
生成器負責生成逼真的假圖,欺騙判別器;而判別器負責識破假圖。相生相長。
而為了生成更加逼真的圖像,團隊給這兩隻四個部件,加入了不同的注意力。
具體的方法,受到了周博磊團隊2016年CAM研究的啟發。
CAM,是類激活圖的簡稱。它能找出對於判斷一張圖的真假,最重要的區域,然後AI就能把注意力集中在那裡。
只不過在上採樣部分,CAM用的是全局平均池化。而U-GAT-IT為了更好的效果,結合了全局的平均池化和最大池化。
這裡,用第一隻GAN,就是生成二次元小姐姐的GAN來舉例。先看判別器:
它要判斷一張圖片,是不是和數據集裡的二次元妹子屬於一個類別。假如不是同類,那生成器的作品。
判別器有一個輔助分類器 (CAM) ,會找出對類別判斷更重要的區域。
這也會引導生成器,把注意力集中在重要的區域。
再看生成器:
它的輔助分類器,會找出屬於三次元妹子的重要區域。然後,把兩個領域的重要區域作比對,注意力模塊就知道,生成器的注意力該集中在哪了。
第二隻GAN,只是生成方向相反,道理也是一樣的。
而要把兩隻GAN結合在一起,損失函數也是精心設計過的:
損失函數有四部分
一是對抗損失,不多解釋,每隻GAN都有。
二是循環損失,這是為了避免生成器和判別器找到某種平衡之後相互和解、停滯不前 (Mode Collapse) 。
要保證為目標領域生成的圖像,還要能回到源領域被認可,就給生成器用了個循環一致性 (Cycle Consistency) 的約束。
三是身份損失,為了保證輸入圖像和輸出圖像的色彩分佈類似,給生成器用了個身份一致性的約束。
具體說來,從目標領域挑一張圖,如果給它做一個從源領域到目標領域的翻譯,應該不發生任何變化才對。
四是CAM損失,給出一張圖激活圖,生成器和判別器會知道它們需要提升哪裡。或者說,知道兩個領域之間,當前最大的區別在哪裡。
除此之外,U-GAT-IT還有一個重要的貢獻:
AdaLIN可選歸一化方法
通常來說,Instance Normalization (IN) 是比較常用的方法,把圖像的特徵統計直接歸一化,就能消除風格變化 (Style Variation) 。
相比之下,批量歸一化 (BN) 和層歸一化 (LN**) 沒有那麼常用。
而給圖片做歸一化的時候,更多見的是自適應的IN,簡稱AdaIN。
但在這裡,團隊提出了AdaLIN,它可以在IN和LN之間動態選擇。
有了它,AI就能靈活控制形狀與質地的變化多大了。
從前基於注意力的模型,沒辦法解決不同領域之間的幾何變化;
但U-GAT-IT,既可以做需要整體變化 (Holistic Changes) 的翻譯,也可以做需要大幅形狀變化 (Large Shape Changes. ) 的翻譯。
最後再來講一下數據集。
無監督,不成對
selfie2anime,有兩個數據集。
一個是自拍數據集,一個是二次元數據集,都是隻選了妹子。
各自是訓練集裡3400張,測試集裡100張。沒有配對。
其實也不止這些,還有馬變斑馬,貓變狗,照片變梵高畫風等等,訓練了各種功能。
來看看成果如何:
效果遠勝前輩
U-GAT-IT (b) 和許多厲害的前輩比了一場,它們是:
CycleGAN (c) 、UNIT (d) 、MUNIT (e) 、DRIT (f) 。
反向生成,比如二次元變三次,斑馬變馬之類,也都可以:
(b) 列是本文主角,在穿越次元的任務上,表現明顯優於各路前輩。在其他任務上,生成效果也總體超過前輩。
然後,再來看一下注意力模塊 (CAM) 到底有沒有作用。
右邊兩列,差別盡顯。(e)是有注意力,(f)是沒有注意力:
最後,觀察可以動態選擇歸一化方式的AdaLIN,比起無法選擇,效果如何。
(b)是AdaLIN,右邊四列是陪跑的歸一化方法 (以及各種歸一化的結合) :
AdaLIN的生成結果,更加完整,瑕疵比較少見。
如此一來,U-GAT-IT從各個角度看,都成功了。
令人內心一陣狂喜,快來領取開源代碼吧。
這是TensorFlow版本,曾經登上趨勢榜第一 (現在變成了第三):
https://github.com/taki0112/UGATIT
這是PyTorch版本:
https://github.com/znxlwm/UGATIT-pytorch
這是論文:
https://arxiv.org/abs/1907.10830
— 完 —
誠摯招聘
量子位正在招募編輯/記者,工作地點在北京中關村。期待有才氣、有熱情的同學加入我們!相關細節,請在量子位公眾號(QbitAI)對話界面,回覆“招聘”兩個字。
量子位 QbitAI · 頭條號簽約作者
վ'ᴗ' ի 追蹤AI技術和產品新動態