'「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個'

人工智能 設計 數學 技術 文章 有三AI 2019-08-02
"

大家好,歡迎來到《知識星球》專欄,這個專欄專欄剖析有三AI知識星球的內容生態,今天的內容屬於網絡結構1000變板塊。

作者&編輯 | 言有三

你大概已經見慣了基本的卷積結構,對殘差網絡也瞭如指掌,對分組卷積也爛熟於心,也知道模型壓縮的一些技巧,不過今天這裡要說的,大部分同學可未必知道噢。

大眾的模型結構咱們不講,今天從卷積方式,通道變化,拓撲結構等各方面給大家介紹幾個模型,立志於在這個方向發文章的同學,可要看仔細了。

1 漸變的寬度-金字塔結構

這是一個通道數的變化方式相關的網絡結構。

"

大家好,歡迎來到《知識星球》專欄,這個專欄專欄剖析有三AI知識星球的內容生態,今天的內容屬於網絡結構1000變板塊。

作者&編輯 | 言有三

你大概已經見慣了基本的卷積結構,對殘差網絡也瞭如指掌,對分組卷積也爛熟於心,也知道模型壓縮的一些技巧,不過今天這裡要說的,大部分同學可未必知道噢。

大眾的模型結構咱們不講,今天從卷積方式,通道變化,拓撲結構等各方面給大家介紹幾個模型,立志於在這個方向發文章的同學,可要看仔細了。

1 漸變的寬度-金字塔結構

這是一個通道數的變化方式相關的網絡結構。

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

Pyramidal Residual Networks

通常來說,網絡結構的通道數量變化是突變的,那有沒有網絡的增加是緩慢變化的呢?這就是金字塔結構了,名為Pyramidal Residual Networks。

大家都知道,CNN等結構在特徵圖尺度減小的時候,通常會隨之增加特徵圖的通道數目來增加高層的表達能力,這是模型性能的保證,大部分的模型其特徵圖通道數的增加是跳變的,比如從128增加到256。

之前我們講述過隨機刪減深度的殘差網絡證明了深度殘差網絡的深度其實沒有想象中那麼深,在文章“Residual networks behave like ensembles of relatively shallow networks[C]”中的研究也表明刪除掉一些block並不會顯著降低性能,但是降採樣的網絡層除外。

本篇文章基於這個現象,認為要降低降採樣的敏感性,必須要讓通道的變化是緩慢的,即隨著層數增加,每一層都慢慢增加寬度,命名為金字塔結構,如下。

"

大家好,歡迎來到《知識星球》專欄,這個專欄專欄剖析有三AI知識星球的內容生態,今天的內容屬於網絡結構1000變板塊。

作者&編輯 | 言有三

你大概已經見慣了基本的卷積結構,對殘差網絡也瞭如指掌,對分組卷積也爛熟於心,也知道模型壓縮的一些技巧,不過今天這裡要說的,大部分同學可未必知道噢。

大眾的模型結構咱們不講,今天從卷積方式,通道變化,拓撲結構等各方面給大家介紹幾個模型,立志於在這個方向發文章的同學,可要看仔細了。

1 漸變的寬度-金字塔結構

這是一個通道數的變化方式相關的網絡結構。

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

Pyramidal Residual Networks

通常來說,網絡結構的通道數量變化是突變的,那有沒有網絡的增加是緩慢變化的呢?這就是金字塔結構了,名為Pyramidal Residual Networks。

大家都知道,CNN等結構在特徵圖尺度減小的時候,通常會隨之增加特徵圖的通道數目來增加高層的表達能力,這是模型性能的保證,大部分的模型其特徵圖通道數的增加是跳變的,比如從128增加到256。

之前我們講述過隨機刪減深度的殘差網絡證明了深度殘差網絡的深度其實沒有想象中那麼深,在文章“Residual networks behave like ensembles of relatively shallow networks[C]”中的研究也表明刪除掉一些block並不會顯著降低性能,但是降採樣的網絡層除外。

本篇文章基於這個現象,認為要降低降採樣的敏感性,必須要讓通道的變化是緩慢的,即隨著層數增加,每一層都慢慢增加寬度,命名為金字塔結構,如下。

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

這裡a圖是線性增加,b圖是指數級增加。

那麼到底性能如何呢?首先看下訓練曲線對比:

"

大家好,歡迎來到《知識星球》專欄,這個專欄專欄剖析有三AI知識星球的內容生態,今天的內容屬於網絡結構1000變板塊。

作者&編輯 | 言有三

你大概已經見慣了基本的卷積結構,對殘差網絡也瞭如指掌,對分組卷積也爛熟於心,也知道模型壓縮的一些技巧,不過今天這裡要說的,大部分同學可未必知道噢。

大眾的模型結構咱們不講,今天從卷積方式,通道變化,拓撲結構等各方面給大家介紹幾個模型,立志於在這個方向發文章的同學,可要看仔細了。

1 漸變的寬度-金字塔結構

這是一個通道數的變化方式相關的網絡結構。

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

Pyramidal Residual Networks

通常來說,網絡結構的通道數量變化是突變的,那有沒有網絡的增加是緩慢變化的呢?這就是金字塔結構了,名為Pyramidal Residual Networks。

大家都知道,CNN等結構在特徵圖尺度減小的時候,通常會隨之增加特徵圖的通道數目來增加高層的表達能力,這是模型性能的保證,大部分的模型其特徵圖通道數的增加是跳變的,比如從128增加到256。

之前我們講述過隨機刪減深度的殘差網絡證明了深度殘差網絡的深度其實沒有想象中那麼深,在文章“Residual networks behave like ensembles of relatively shallow networks[C]”中的研究也表明刪除掉一些block並不會顯著降低性能,但是降採樣的網絡層除外。

本篇文章基於這個現象,認為要降低降採樣的敏感性,必須要讓通道的變化是緩慢的,即隨著層數增加,每一層都慢慢增加寬度,命名為金字塔結構,如下。

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

這裡a圖是線性增加,b圖是指數級增加。

那麼到底性能如何呢?首先看下訓練曲線對比:

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

這裡兩個網絡的參數差不多,都是1.7M左右,從曲線上看,性能也相當。

另一個要關注的問題是,金字塔ResNet有沒有實現它的初衷,即改善降低分辨率的網絡層被刪除時帶來的性能下降,結果如下:

"

大家好,歡迎來到《知識星球》專欄,這個專欄專欄剖析有三AI知識星球的內容生態,今天的內容屬於網絡結構1000變板塊。

作者&編輯 | 言有三

你大概已經見慣了基本的卷積結構,對殘差網絡也瞭如指掌,對分組卷積也爛熟於心,也知道模型壓縮的一些技巧,不過今天這裡要說的,大部分同學可未必知道噢。

大眾的模型結構咱們不講,今天從卷積方式,通道變化,拓撲結構等各方面給大家介紹幾個模型,立志於在這個方向發文章的同學,可要看仔細了。

1 漸變的寬度-金字塔結構

這是一個通道數的變化方式相關的網絡結構。

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

Pyramidal Residual Networks

通常來說,網絡結構的通道數量變化是突變的,那有沒有網絡的增加是緩慢變化的呢?這就是金字塔結構了,名為Pyramidal Residual Networks。

大家都知道,CNN等結構在特徵圖尺度減小的時候,通常會隨之增加特徵圖的通道數目來增加高層的表達能力,這是模型性能的保證,大部分的模型其特徵圖通道數的增加是跳變的,比如從128增加到256。

之前我們講述過隨機刪減深度的殘差網絡證明了深度殘差網絡的深度其實沒有想象中那麼深,在文章“Residual networks behave like ensembles of relatively shallow networks[C]”中的研究也表明刪除掉一些block並不會顯著降低性能,但是降採樣的網絡層除外。

本篇文章基於這個現象,認為要降低降採樣的敏感性,必須要讓通道的變化是緩慢的,即隨著層數增加,每一層都慢慢增加寬度,命名為金字塔結構,如下。

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

這裡a圖是線性增加,b圖是指數級增加。

那麼到底性能如何呢?首先看下訓練曲線對比:

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

這裡兩個網絡的參數差不多,都是1.7M左右,從曲線上看,性能也相當。

另一個要關注的問題是,金字塔ResNet有沒有實現它的初衷,即改善降低分辨率的網絡層被刪除時帶來的性能下降,結果如下:

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

從結果看來,錯誤率確實降低了。更加具體的實驗結果,大家自己去看論文吧。

[1] Han D, Kim J, Kim J. Deep pyramidal residual networks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2017: 5927-5935.

2 分支眾多-分形結構

這是一個多分支結構相關的網絡結構。

"

大家好,歡迎來到《知識星球》專欄,這個專欄專欄剖析有三AI知識星球的內容生態,今天的內容屬於網絡結構1000變板塊。

作者&編輯 | 言有三

你大概已經見慣了基本的卷積結構,對殘差網絡也瞭如指掌,對分組卷積也爛熟於心,也知道模型壓縮的一些技巧,不過今天這裡要說的,大部分同學可未必知道噢。

大眾的模型結構咱們不講,今天從卷積方式,通道變化,拓撲結構等各方面給大家介紹幾個模型,立志於在這個方向發文章的同學,可要看仔細了。

1 漸變的寬度-金字塔結構

這是一個通道數的變化方式相關的網絡結構。

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

Pyramidal Residual Networks

通常來說,網絡結構的通道數量變化是突變的,那有沒有網絡的增加是緩慢變化的呢?這就是金字塔結構了,名為Pyramidal Residual Networks。

大家都知道,CNN等結構在特徵圖尺度減小的時候,通常會隨之增加特徵圖的通道數目來增加高層的表達能力,這是模型性能的保證,大部分的模型其特徵圖通道數的增加是跳變的,比如從128增加到256。

之前我們講述過隨機刪減深度的殘差網絡證明了深度殘差網絡的深度其實沒有想象中那麼深,在文章“Residual networks behave like ensembles of relatively shallow networks[C]”中的研究也表明刪除掉一些block並不會顯著降低性能,但是降採樣的網絡層除外。

本篇文章基於這個現象,認為要降低降採樣的敏感性,必須要讓通道的變化是緩慢的,即隨著層數增加,每一層都慢慢增加寬度,命名為金字塔結構,如下。

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

這裡a圖是線性增加,b圖是指數級增加。

那麼到底性能如何呢?首先看下訓練曲線對比:

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

這裡兩個網絡的參數差不多,都是1.7M左右,從曲線上看,性能也相當。

另一個要關注的問題是,金字塔ResNet有沒有實現它的初衷,即改善降低分辨率的網絡層被刪除時帶來的性能下降,結果如下:

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

從結果看來,錯誤率確實降低了。更加具體的實驗結果,大家自己去看論文吧。

[1] Han D, Kim J, Kim J. Deep pyramidal residual networks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2017: 5927-5935.

2 分支眾多-分形結構

這是一個多分支結構相關的網絡結構。

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

FractalNet

殘差網絡可以使得上千層的網絡結構設計成為可能,但並不是只有殘差網絡可以做到,FractalNet(分形網絡)便是如此。

分形是一個數學概念,指的是具有以非整數維形式填充空間的形態特徵,也就是說它的有效維度不是整數。不過我們這裡可以不用關注它的數學定義,而是關注它的,分形幾何結構的一部分具有和整體相似的結構,即自相似,如下圖形:

"

大家好,歡迎來到《知識星球》專欄,這個專欄專欄剖析有三AI知識星球的內容生態,今天的內容屬於網絡結構1000變板塊。

作者&編輯 | 言有三

你大概已經見慣了基本的卷積結構,對殘差網絡也瞭如指掌,對分組卷積也爛熟於心,也知道模型壓縮的一些技巧,不過今天這裡要說的,大部分同學可未必知道噢。

大眾的模型結構咱們不講,今天從卷積方式,通道變化,拓撲結構等各方面給大家介紹幾個模型,立志於在這個方向發文章的同學,可要看仔細了。

1 漸變的寬度-金字塔結構

這是一個通道數的變化方式相關的網絡結構。

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

Pyramidal Residual Networks

通常來說,網絡結構的通道數量變化是突變的,那有沒有網絡的增加是緩慢變化的呢?這就是金字塔結構了,名為Pyramidal Residual Networks。

大家都知道,CNN等結構在特徵圖尺度減小的時候,通常會隨之增加特徵圖的通道數目來增加高層的表達能力,這是模型性能的保證,大部分的模型其特徵圖通道數的增加是跳變的,比如從128增加到256。

之前我們講述過隨機刪減深度的殘差網絡證明了深度殘差網絡的深度其實沒有想象中那麼深,在文章“Residual networks behave like ensembles of relatively shallow networks[C]”中的研究也表明刪除掉一些block並不會顯著降低性能,但是降採樣的網絡層除外。

本篇文章基於這個現象,認為要降低降採樣的敏感性,必須要讓通道的變化是緩慢的,即隨著層數增加,每一層都慢慢增加寬度,命名為金字塔結構,如下。

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

這裡a圖是線性增加,b圖是指數級增加。

那麼到底性能如何呢?首先看下訓練曲線對比:

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

這裡兩個網絡的參數差不多,都是1.7M左右,從曲線上看,性能也相當。

另一個要關注的問題是,金字塔ResNet有沒有實現它的初衷,即改善降低分辨率的網絡層被刪除時帶來的性能下降,結果如下:

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

從結果看來,錯誤率確實降低了。更加具體的實驗結果,大家自己去看論文吧。

[1] Han D, Kim J, Kim J. Deep pyramidal residual networks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2017: 5927-5935.

2 分支眾多-分形結構

這是一個多分支結構相關的網絡結構。

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

FractalNet

殘差網絡可以使得上千層的網絡結構設計成為可能,但並不是只有殘差網絡可以做到,FractalNet(分形網絡)便是如此。

分形是一個數學概念,指的是具有以非整數維形式填充空間的形態特徵,也就是說它的有效維度不是整數。不過我們這裡可以不用關注它的數學定義,而是關注它的,分形幾何結構的一部分具有和整體相似的結構,即自相似,如下圖形:

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

分形網絡,顧名思義也是這樣的特點了,局部的結構和全局相似,如下圖:

"

大家好,歡迎來到《知識星球》專欄,這個專欄專欄剖析有三AI知識星球的內容生態,今天的內容屬於網絡結構1000變板塊。

作者&編輯 | 言有三

你大概已經見慣了基本的卷積結構,對殘差網絡也瞭如指掌,對分組卷積也爛熟於心,也知道模型壓縮的一些技巧,不過今天這裡要說的,大部分同學可未必知道噢。

大眾的模型結構咱們不講,今天從卷積方式,通道變化,拓撲結構等各方面給大家介紹幾個模型,立志於在這個方向發文章的同學,可要看仔細了。

1 漸變的寬度-金字塔結構

這是一個通道數的變化方式相關的網絡結構。

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

Pyramidal Residual Networks

通常來說,網絡結構的通道數量變化是突變的,那有沒有網絡的增加是緩慢變化的呢?這就是金字塔結構了,名為Pyramidal Residual Networks。

大家都知道,CNN等結構在特徵圖尺度減小的時候,通常會隨之增加特徵圖的通道數目來增加高層的表達能力,這是模型性能的保證,大部分的模型其特徵圖通道數的增加是跳變的,比如從128增加到256。

之前我們講述過隨機刪減深度的殘差網絡證明了深度殘差網絡的深度其實沒有想象中那麼深,在文章“Residual networks behave like ensembles of relatively shallow networks[C]”中的研究也表明刪除掉一些block並不會顯著降低性能,但是降採樣的網絡層除外。

本篇文章基於這個現象,認為要降低降採樣的敏感性,必須要讓通道的變化是緩慢的,即隨著層數增加,每一層都慢慢增加寬度,命名為金字塔結構,如下。

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

這裡a圖是線性增加,b圖是指數級增加。

那麼到底性能如何呢?首先看下訓練曲線對比:

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

這裡兩個網絡的參數差不多,都是1.7M左右,從曲線上看,性能也相當。

另一個要關注的問題是,金字塔ResNet有沒有實現它的初衷,即改善降低分辨率的網絡層被刪除時帶來的性能下降,結果如下:

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

從結果看來,錯誤率確實降低了。更加具體的實驗結果,大家自己去看論文吧。

[1] Han D, Kim J, Kim J. Deep pyramidal residual networks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2017: 5927-5935.

2 分支眾多-分形結構

這是一個多分支結構相關的網絡結構。

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

FractalNet

殘差網絡可以使得上千層的網絡結構設計成為可能,但並不是只有殘差網絡可以做到,FractalNet(分形網絡)便是如此。

分形是一個數學概念,指的是具有以非整數維形式填充空間的形態特徵,也就是說它的有效維度不是整數。不過我們這裡可以不用關注它的數學定義,而是關注它的,分形幾何結構的一部分具有和整體相似的結構,即自相似,如下圖形:

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

分形網絡,顧名思義也是這樣的特點了,局部的結構和全局相似,如下圖:

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

可以看到包含了各種長度不同的子路徑,從左到右:

第一列路徑只有一條,長度l。

第二列路徑兩條,長度l/2。

第三列路徑四條,長度l/4。

第二列路徑八條,長度l/8。

它與殘差網絡的不同之處在於,綠色模塊表示的非線性變換,即下一層不可能直接得到上一層的信號,而是經過了變換。

這樣的一種包含了不同深度的子網絡,與之前提過的stochastic depth有異曲同工之妙,它也可以被看作是不同深度的網絡的ensemble。

作者們通過隨機丟棄某些深度的方法也做了實驗,丟棄的樣例如下:

"

大家好,歡迎來到《知識星球》專欄,這個專欄專欄剖析有三AI知識星球的內容生態,今天的內容屬於網絡結構1000變板塊。

作者&編輯 | 言有三

你大概已經見慣了基本的卷積結構,對殘差網絡也瞭如指掌,對分組卷積也爛熟於心,也知道模型壓縮的一些技巧,不過今天這裡要說的,大部分同學可未必知道噢。

大眾的模型結構咱們不講,今天從卷積方式,通道變化,拓撲結構等各方面給大家介紹幾個模型,立志於在這個方向發文章的同學,可要看仔細了。

1 漸變的寬度-金字塔結構

這是一個通道數的變化方式相關的網絡結構。

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

Pyramidal Residual Networks

通常來說,網絡結構的通道數量變化是突變的,那有沒有網絡的增加是緩慢變化的呢?這就是金字塔結構了,名為Pyramidal Residual Networks。

大家都知道,CNN等結構在特徵圖尺度減小的時候,通常會隨之增加特徵圖的通道數目來增加高層的表達能力,這是模型性能的保證,大部分的模型其特徵圖通道數的增加是跳變的,比如從128增加到256。

之前我們講述過隨機刪減深度的殘差網絡證明了深度殘差網絡的深度其實沒有想象中那麼深,在文章“Residual networks behave like ensembles of relatively shallow networks[C]”中的研究也表明刪除掉一些block並不會顯著降低性能,但是降採樣的網絡層除外。

本篇文章基於這個現象,認為要降低降採樣的敏感性,必須要讓通道的變化是緩慢的,即隨著層數增加,每一層都慢慢增加寬度,命名為金字塔結構,如下。

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

這裡a圖是線性增加,b圖是指數級增加。

那麼到底性能如何呢?首先看下訓練曲線對比:

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

這裡兩個網絡的參數差不多,都是1.7M左右,從曲線上看,性能也相當。

另一個要關注的問題是,金字塔ResNet有沒有實現它的初衷,即改善降低分辨率的網絡層被刪除時帶來的性能下降,結果如下:

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

從結果看來,錯誤率確實降低了。更加具體的實驗結果,大家自己去看論文吧。

[1] Han D, Kim J, Kim J. Deep pyramidal residual networks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2017: 5927-5935.

2 分支眾多-分形結構

這是一個多分支結構相關的網絡結構。

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

FractalNet

殘差網絡可以使得上千層的網絡結構設計成為可能,但並不是只有殘差網絡可以做到,FractalNet(分形網絡)便是如此。

分形是一個數學概念,指的是具有以非整數維形式填充空間的形態特徵,也就是說它的有效維度不是整數。不過我們這裡可以不用關注它的數學定義,而是關注它的,分形幾何結構的一部分具有和整體相似的結構,即自相似,如下圖形:

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

分形網絡,顧名思義也是這樣的特點了,局部的結構和全局相似,如下圖:

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

可以看到包含了各種長度不同的子路徑,從左到右:

第一列路徑只有一條,長度l。

第二列路徑兩條,長度l/2。

第三列路徑四條,長度l/4。

第二列路徑八條,長度l/8。

它與殘差網絡的不同之處在於,綠色模塊表示的非線性變換,即下一層不可能直接得到上一層的信號,而是經過了變換。

這樣的一種包含了不同深度的子網絡,與之前提過的stochastic depth有異曲同工之妙,它也可以被看作是不同深度的網絡的ensemble。

作者們通過隨機丟棄某些深度的方法也做了實驗,丟棄的樣例如下:

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

上面展示了兩種路徑,訓練時混合使用。

Global: 只選擇一條路徑,且是同一列,這條路徑就是獨立的強預測路徑。

Local:包含多個路徑,但是保證每一層至少要有一個輸入。

那麼結果如何呢?

"

大家好,歡迎來到《知識星球》專欄,這個專欄專欄剖析有三AI知識星球的內容生態,今天的內容屬於網絡結構1000變板塊。

作者&編輯 | 言有三

你大概已經見慣了基本的卷積結構,對殘差網絡也瞭如指掌,對分組卷積也爛熟於心,也知道模型壓縮的一些技巧,不過今天這裡要說的,大部分同學可未必知道噢。

大眾的模型結構咱們不講,今天從卷積方式,通道變化,拓撲結構等各方面給大家介紹幾個模型,立志於在這個方向發文章的同學,可要看仔細了。

1 漸變的寬度-金字塔結構

這是一個通道數的變化方式相關的網絡結構。

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

Pyramidal Residual Networks

通常來說,網絡結構的通道數量變化是突變的,那有沒有網絡的增加是緩慢變化的呢?這就是金字塔結構了,名為Pyramidal Residual Networks。

大家都知道,CNN等結構在特徵圖尺度減小的時候,通常會隨之增加特徵圖的通道數目來增加高層的表達能力,這是模型性能的保證,大部分的模型其特徵圖通道數的增加是跳變的,比如從128增加到256。

之前我們講述過隨機刪減深度的殘差網絡證明了深度殘差網絡的深度其實沒有想象中那麼深,在文章“Residual networks behave like ensembles of relatively shallow networks[C]”中的研究也表明刪除掉一些block並不會顯著降低性能,但是降採樣的網絡層除外。

本篇文章基於這個現象,認為要降低降採樣的敏感性,必須要讓通道的變化是緩慢的,即隨著層數增加,每一層都慢慢增加寬度,命名為金字塔結構,如下。

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

這裡a圖是線性增加,b圖是指數級增加。

那麼到底性能如何呢?首先看下訓練曲線對比:

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

這裡兩個網絡的參數差不多,都是1.7M左右,從曲線上看,性能也相當。

另一個要關注的問題是,金字塔ResNet有沒有實現它的初衷,即改善降低分辨率的網絡層被刪除時帶來的性能下降,結果如下:

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

從結果看來,錯誤率確實降低了。更加具體的實驗結果,大家自己去看論文吧。

[1] Han D, Kim J, Kim J. Deep pyramidal residual networks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2017: 5927-5935.

2 分支眾多-分形結構

這是一個多分支結構相關的網絡結構。

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

FractalNet

殘差網絡可以使得上千層的網絡結構設計成為可能,但並不是只有殘差網絡可以做到,FractalNet(分形網絡)便是如此。

分形是一個數學概念,指的是具有以非整數維形式填充空間的形態特徵,也就是說它的有效維度不是整數。不過我們這裡可以不用關注它的數學定義,而是關注它的,分形幾何結構的一部分具有和整體相似的結構,即自相似,如下圖形:

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

分形網絡,顧名思義也是這樣的特點了,局部的結構和全局相似,如下圖:

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

可以看到包含了各種長度不同的子路徑,從左到右:

第一列路徑只有一條,長度l。

第二列路徑兩條,長度l/2。

第三列路徑四條,長度l/4。

第二列路徑八條,長度l/8。

它與殘差網絡的不同之處在於,綠色模塊表示的非線性變換,即下一層不可能直接得到上一層的信號,而是經過了變換。

這樣的一種包含了不同深度的子網絡,與之前提過的stochastic depth有異曲同工之妙,它也可以被看作是不同深度的網絡的ensemble。

作者們通過隨機丟棄某些深度的方法也做了實驗,丟棄的樣例如下:

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

上面展示了兩種路徑,訓練時混合使用。

Global: 只選擇一條路徑,且是同一列,這條路徑就是獨立的強預測路徑。

Local:包含多個路徑,但是保證每一層至少要有一個輸入。

那麼結果如何呢?

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

如上,與各種網絡進行了對比,性能很好。在添加了drop-path技術後,還有極大提升,並且單獨只拿出其中最深的一條路徑所得的網絡,都有接近最好的模型的性能。

與殘差網絡的相關研究一樣,分形網絡的研究也表明路徑的有效長度才是訓練深度網絡的真正影響因素,不論是分形網絡,還是殘差網絡,都擁有更短的有效的梯度傳播路徑,從而使得深層網絡訓練更不容易過擬合。

[1] Larsson G, Maire M, Shakhnarovich G. Fractalnet: Ultra-deep neural networks without residuals[J]. arXiv preprint arXiv:1605.07648, 2016.

3 一切可連-環形網絡

這是一個基於跳層的複雜拓撲網絡結構。

"

大家好,歡迎來到《知識星球》專欄,這個專欄專欄剖析有三AI知識星球的內容生態,今天的內容屬於網絡結構1000變板塊。

作者&編輯 | 言有三

你大概已經見慣了基本的卷積結構,對殘差網絡也瞭如指掌,對分組卷積也爛熟於心,也知道模型壓縮的一些技巧,不過今天這裡要說的,大部分同學可未必知道噢。

大眾的模型結構咱們不講,今天從卷積方式,通道變化,拓撲結構等各方面給大家介紹幾個模型,立志於在這個方向發文章的同學,可要看仔細了。

1 漸變的寬度-金字塔結構

這是一個通道數的變化方式相關的網絡結構。

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

Pyramidal Residual Networks

通常來說,網絡結構的通道數量變化是突變的,那有沒有網絡的增加是緩慢變化的呢?這就是金字塔結構了,名為Pyramidal Residual Networks。

大家都知道,CNN等結構在特徵圖尺度減小的時候,通常會隨之增加特徵圖的通道數目來增加高層的表達能力,這是模型性能的保證,大部分的模型其特徵圖通道數的增加是跳變的,比如從128增加到256。

之前我們講述過隨機刪減深度的殘差網絡證明了深度殘差網絡的深度其實沒有想象中那麼深,在文章“Residual networks behave like ensembles of relatively shallow networks[C]”中的研究也表明刪除掉一些block並不會顯著降低性能,但是降採樣的網絡層除外。

本篇文章基於這個現象,認為要降低降採樣的敏感性,必須要讓通道的變化是緩慢的,即隨著層數增加,每一層都慢慢增加寬度,命名為金字塔結構,如下。

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

這裡a圖是線性增加,b圖是指數級增加。

那麼到底性能如何呢?首先看下訓練曲線對比:

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

這裡兩個網絡的參數差不多,都是1.7M左右,從曲線上看,性能也相當。

另一個要關注的問題是,金字塔ResNet有沒有實現它的初衷,即改善降低分辨率的網絡層被刪除時帶來的性能下降,結果如下:

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

從結果看來,錯誤率確實降低了。更加具體的實驗結果,大家自己去看論文吧。

[1] Han D, Kim J, Kim J. Deep pyramidal residual networks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2017: 5927-5935.

2 分支眾多-分形結構

這是一個多分支結構相關的網絡結構。

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

FractalNet

殘差網絡可以使得上千層的網絡結構設計成為可能,但並不是只有殘差網絡可以做到,FractalNet(分形網絡)便是如此。

分形是一個數學概念,指的是具有以非整數維形式填充空間的形態特徵,也就是說它的有效維度不是整數。不過我們這裡可以不用關注它的數學定義,而是關注它的,分形幾何結構的一部分具有和整體相似的結構,即自相似,如下圖形:

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

分形網絡,顧名思義也是這樣的特點了,局部的結構和全局相似,如下圖:

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

可以看到包含了各種長度不同的子路徑,從左到右:

第一列路徑只有一條,長度l。

第二列路徑兩條,長度l/2。

第三列路徑四條,長度l/4。

第二列路徑八條,長度l/8。

它與殘差網絡的不同之處在於,綠色模塊表示的非線性變換,即下一層不可能直接得到上一層的信號,而是經過了變換。

這樣的一種包含了不同深度的子網絡,與之前提過的stochastic depth有異曲同工之妙,它也可以被看作是不同深度的網絡的ensemble。

作者們通過隨機丟棄某些深度的方法也做了實驗,丟棄的樣例如下:

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

上面展示了兩種路徑,訓練時混合使用。

Global: 只選擇一條路徑,且是同一列,這條路徑就是獨立的強預測路徑。

Local:包含多個路徑,但是保證每一層至少要有一個輸入。

那麼結果如何呢?

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

如上,與各種網絡進行了對比,性能很好。在添加了drop-path技術後,還有極大提升,並且單獨只拿出其中最深的一條路徑所得的網絡,都有接近最好的模型的性能。

與殘差網絡的相關研究一樣,分形網絡的研究也表明路徑的有效長度才是訓練深度網絡的真正影響因素,不論是分形網絡,還是殘差網絡,都擁有更短的有效的梯度傳播路徑,從而使得深層網絡訓練更不容易過擬合。

[1] Larsson G, Maire M, Shakhnarovich G. Fractalnet: Ultra-deep neural networks without residuals[J]. arXiv preprint arXiv:1605.07648, 2016.

3 一切可連-環形網絡

這是一個基於跳層的複雜拓撲網絡結構。

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

CliqueNet

DenseNet通過複用不同層級的特徵圖,提高了通道的利用率,不過它的連接是前向的,即信息只能從淺層向深層傳遞,而CliqueNet則更進一步,信息的傳遞是雙向的。

結構如上圖所示,CliqueNet不僅有前傳的部分,還有後傳,這種網絡架構同時受到了RNN等循環網絡和注意力機制的啟發,使得特徵圖重複使用而且更加精煉。

CliqueNet的訓練包含兩個階段。第一個階段與 DenseNet 相同,即圖中的Stage-1,此時淺層特徵向深層進行傳遞,這可以視為初始化過程。

第二個階段中每一層不僅接受前面所有層的特徵圖,也接受後面層級的特徵圖反饋。可以看出這是一種循環的反饋結構,可以利用更高級視覺信息來精煉前面層級的特徵,實現空間注意力的效果。實驗結果表明,它有效地抑制了背景和噪聲的激活。

"

大家好,歡迎來到《知識星球》專欄,這個專欄專欄剖析有三AI知識星球的內容生態,今天的內容屬於網絡結構1000變板塊。

作者&編輯 | 言有三

你大概已經見慣了基本的卷積結構,對殘差網絡也瞭如指掌,對分組卷積也爛熟於心,也知道模型壓縮的一些技巧,不過今天這裡要說的,大部分同學可未必知道噢。

大眾的模型結構咱們不講,今天從卷積方式,通道變化,拓撲結構等各方面給大家介紹幾個模型,立志於在這個方向發文章的同學,可要看仔細了。

1 漸變的寬度-金字塔結構

這是一個通道數的變化方式相關的網絡結構。

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

Pyramidal Residual Networks

通常來說,網絡結構的通道數量變化是突變的,那有沒有網絡的增加是緩慢變化的呢?這就是金字塔結構了,名為Pyramidal Residual Networks。

大家都知道,CNN等結構在特徵圖尺度減小的時候,通常會隨之增加特徵圖的通道數目來增加高層的表達能力,這是模型性能的保證,大部分的模型其特徵圖通道數的增加是跳變的,比如從128增加到256。

之前我們講述過隨機刪減深度的殘差網絡證明了深度殘差網絡的深度其實沒有想象中那麼深,在文章“Residual networks behave like ensembles of relatively shallow networks[C]”中的研究也表明刪除掉一些block並不會顯著降低性能,但是降採樣的網絡層除外。

本篇文章基於這個現象,認為要降低降採樣的敏感性,必須要讓通道的變化是緩慢的,即隨著層數增加,每一層都慢慢增加寬度,命名為金字塔結構,如下。

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

這裡a圖是線性增加,b圖是指數級增加。

那麼到底性能如何呢?首先看下訓練曲線對比:

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

這裡兩個網絡的參數差不多,都是1.7M左右,從曲線上看,性能也相當。

另一個要關注的問題是,金字塔ResNet有沒有實現它的初衷,即改善降低分辨率的網絡層被刪除時帶來的性能下降,結果如下:

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

從結果看來,錯誤率確實降低了。更加具體的實驗結果,大家自己去看論文吧。

[1] Han D, Kim J, Kim J. Deep pyramidal residual networks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2017: 5927-5935.

2 分支眾多-分形結構

這是一個多分支結構相關的網絡結構。

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

FractalNet

殘差網絡可以使得上千層的網絡結構設計成為可能,但並不是只有殘差網絡可以做到,FractalNet(分形網絡)便是如此。

分形是一個數學概念,指的是具有以非整數維形式填充空間的形態特徵,也就是說它的有效維度不是整數。不過我們這裡可以不用關注它的數學定義,而是關注它的,分形幾何結構的一部分具有和整體相似的結構,即自相似,如下圖形:

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

分形網絡,顧名思義也是這樣的特點了,局部的結構和全局相似,如下圖:

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

可以看到包含了各種長度不同的子路徑,從左到右:

第一列路徑只有一條,長度l。

第二列路徑兩條,長度l/2。

第三列路徑四條,長度l/4。

第二列路徑八條,長度l/8。

它與殘差網絡的不同之處在於,綠色模塊表示的非線性變換,即下一層不可能直接得到上一層的信號,而是經過了變換。

這樣的一種包含了不同深度的子網絡,與之前提過的stochastic depth有異曲同工之妙,它也可以被看作是不同深度的網絡的ensemble。

作者們通過隨機丟棄某些深度的方法也做了實驗,丟棄的樣例如下:

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

上面展示了兩種路徑,訓練時混合使用。

Global: 只選擇一條路徑,且是同一列,這條路徑就是獨立的強預測路徑。

Local:包含多個路徑,但是保證每一層至少要有一個輸入。

那麼結果如何呢?

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

如上,與各種網絡進行了對比,性能很好。在添加了drop-path技術後,還有極大提升,並且單獨只拿出其中最深的一條路徑所得的網絡,都有接近最好的模型的性能。

與殘差網絡的相關研究一樣,分形網絡的研究也表明路徑的有效長度才是訓練深度網絡的真正影響因素,不論是分形網絡,還是殘差網絡,都擁有更短的有效的梯度傳播路徑,從而使得深層網絡訓練更不容易過擬合。

[1] Larsson G, Maire M, Shakhnarovich G. Fractalnet: Ultra-deep neural networks without residuals[J]. arXiv preprint arXiv:1605.07648, 2016.

3 一切可連-環形網絡

這是一個基於跳層的複雜拓撲網絡結構。

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

CliqueNet

DenseNet通過複用不同層級的特徵圖,提高了通道的利用率,不過它的連接是前向的,即信息只能從淺層向深層傳遞,而CliqueNet則更進一步,信息的傳遞是雙向的。

結構如上圖所示,CliqueNet不僅有前傳的部分,還有後傳,這種網絡架構同時受到了RNN等循環網絡和注意力機制的啟發,使得特徵圖重複使用而且更加精煉。

CliqueNet的訓練包含兩個階段。第一個階段與 DenseNet 相同,即圖中的Stage-1,此時淺層特徵向深層進行傳遞,這可以視為初始化過程。

第二個階段中每一層不僅接受前面所有層的特徵圖,也接受後面層級的特徵圖反饋。可以看出這是一種循環的反饋結構,可以利用更高級視覺信息來精煉前面層級的特徵,實現空間注意力的效果。實驗結果表明,它有效地抑制了背景和噪聲的激活。

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

整體的網絡架構如上:網絡由很多的block組成,每一個block的stage II的特徵通過global pool串接生成最終的特徵。與DenseNet的不同之處在於,隨著網絡架構,每一個block的輸入輸出特徵圖不需要增加,從而更加高效,結果如下:

"

大家好,歡迎來到《知識星球》專欄,這個專欄專欄剖析有三AI知識星球的內容生態,今天的內容屬於網絡結構1000變板塊。

作者&編輯 | 言有三

你大概已經見慣了基本的卷積結構,對殘差網絡也瞭如指掌,對分組卷積也爛熟於心,也知道模型壓縮的一些技巧,不過今天這裡要說的,大部分同學可未必知道噢。

大眾的模型結構咱們不講,今天從卷積方式,通道變化,拓撲結構等各方面給大家介紹幾個模型,立志於在這個方向發文章的同學,可要看仔細了。

1 漸變的寬度-金字塔結構

這是一個通道數的變化方式相關的網絡結構。

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

Pyramidal Residual Networks

通常來說,網絡結構的通道數量變化是突變的,那有沒有網絡的增加是緩慢變化的呢?這就是金字塔結構了,名為Pyramidal Residual Networks。

大家都知道,CNN等結構在特徵圖尺度減小的時候,通常會隨之增加特徵圖的通道數目來增加高層的表達能力,這是模型性能的保證,大部分的模型其特徵圖通道數的增加是跳變的,比如從128增加到256。

之前我們講述過隨機刪減深度的殘差網絡證明了深度殘差網絡的深度其實沒有想象中那麼深,在文章“Residual networks behave like ensembles of relatively shallow networks[C]”中的研究也表明刪除掉一些block並不會顯著降低性能,但是降採樣的網絡層除外。

本篇文章基於這個現象,認為要降低降採樣的敏感性,必須要讓通道的變化是緩慢的,即隨著層數增加,每一層都慢慢增加寬度,命名為金字塔結構,如下。

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

這裡a圖是線性增加,b圖是指數級增加。

那麼到底性能如何呢?首先看下訓練曲線對比:

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

這裡兩個網絡的參數差不多,都是1.7M左右,從曲線上看,性能也相當。

另一個要關注的問題是,金字塔ResNet有沒有實現它的初衷,即改善降低分辨率的網絡層被刪除時帶來的性能下降,結果如下:

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

從結果看來,錯誤率確實降低了。更加具體的實驗結果,大家自己去看論文吧。

[1] Han D, Kim J, Kim J. Deep pyramidal residual networks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2017: 5927-5935.

2 分支眾多-分形結構

這是一個多分支結構相關的網絡結構。

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

FractalNet

殘差網絡可以使得上千層的網絡結構設計成為可能,但並不是只有殘差網絡可以做到,FractalNet(分形網絡)便是如此。

分形是一個數學概念,指的是具有以非整數維形式填充空間的形態特徵,也就是說它的有效維度不是整數。不過我們這裡可以不用關注它的數學定義,而是關注它的,分形幾何結構的一部分具有和整體相似的結構,即自相似,如下圖形:

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

分形網絡,顧名思義也是這樣的特點了,局部的結構和全局相似,如下圖:

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

可以看到包含了各種長度不同的子路徑,從左到右:

第一列路徑只有一條,長度l。

第二列路徑兩條,長度l/2。

第三列路徑四條,長度l/4。

第二列路徑八條,長度l/8。

它與殘差網絡的不同之處在於,綠色模塊表示的非線性變換,即下一層不可能直接得到上一層的信號,而是經過了變換。

這樣的一種包含了不同深度的子網絡,與之前提過的stochastic depth有異曲同工之妙,它也可以被看作是不同深度的網絡的ensemble。

作者們通過隨機丟棄某些深度的方法也做了實驗,丟棄的樣例如下:

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

上面展示了兩種路徑,訓練時混合使用。

Global: 只選擇一條路徑,且是同一列,這條路徑就是獨立的強預測路徑。

Local:包含多個路徑,但是保證每一層至少要有一個輸入。

那麼結果如何呢?

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

如上,與各種網絡進行了對比,性能很好。在添加了drop-path技術後,還有極大提升,並且單獨只拿出其中最深的一條路徑所得的網絡,都有接近最好的模型的性能。

與殘差網絡的相關研究一樣,分形網絡的研究也表明路徑的有效長度才是訓練深度網絡的真正影響因素,不論是分形網絡,還是殘差網絡,都擁有更短的有效的梯度傳播路徑,從而使得深層網絡訓練更不容易過擬合。

[1] Larsson G, Maire M, Shakhnarovich G. Fractalnet: Ultra-deep neural networks without residuals[J]. arXiv preprint arXiv:1605.07648, 2016.

3 一切可連-環形網絡

這是一個基於跳層的複雜拓撲網絡結構。

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

CliqueNet

DenseNet通過複用不同層級的特徵圖,提高了通道的利用率,不過它的連接是前向的,即信息只能從淺層向深層傳遞,而CliqueNet則更進一步,信息的傳遞是雙向的。

結構如上圖所示,CliqueNet不僅有前傳的部分,還有後傳,這種網絡架構同時受到了RNN等循環網絡和注意力機制的啟發,使得特徵圖重複使用而且更加精煉。

CliqueNet的訓練包含兩個階段。第一個階段與 DenseNet 相同,即圖中的Stage-1,此時淺層特徵向深層進行傳遞,這可以視為初始化過程。

第二個階段中每一層不僅接受前面所有層的特徵圖,也接受後面層級的特徵圖反饋。可以看出這是一種循環的反饋結構,可以利用更高級視覺信息來精煉前面層級的特徵,實現空間注意力的效果。實驗結果表明,它有效地抑制了背景和噪聲的激活。

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

整體的網絡架構如上:網絡由很多的block組成,每一個block的stage II的特徵通過global pool串接生成最終的特徵。與DenseNet的不同之處在於,隨著網絡架構,每一個block的輸入輸出特徵圖不需要增加,從而更加高效,結果如下:

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

從上表可以看出,參數量和精度是非常具有優勢的。

[1] Yang Y, Zhong Z, Shen T, et al. Convolutional neural networks with alternately updated clique[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018: 2413-2422.

4 不規則的卷積核-可變形網絡

這是一個卷積核的形狀相關的網絡結構。

"

大家好,歡迎來到《知識星球》專欄,這個專欄專欄剖析有三AI知識星球的內容生態,今天的內容屬於網絡結構1000變板塊。

作者&編輯 | 言有三

你大概已經見慣了基本的卷積結構,對殘差網絡也瞭如指掌,對分組卷積也爛熟於心,也知道模型壓縮的一些技巧,不過今天這裡要說的,大部分同學可未必知道噢。

大眾的模型結構咱們不講,今天從卷積方式,通道變化,拓撲結構等各方面給大家介紹幾個模型,立志於在這個方向發文章的同學,可要看仔細了。

1 漸變的寬度-金字塔結構

這是一個通道數的變化方式相關的網絡結構。

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

Pyramidal Residual Networks

通常來說,網絡結構的通道數量變化是突變的,那有沒有網絡的增加是緩慢變化的呢?這就是金字塔結構了,名為Pyramidal Residual Networks。

大家都知道,CNN等結構在特徵圖尺度減小的時候,通常會隨之增加特徵圖的通道數目來增加高層的表達能力,這是模型性能的保證,大部分的模型其特徵圖通道數的增加是跳變的,比如從128增加到256。

之前我們講述過隨機刪減深度的殘差網絡證明了深度殘差網絡的深度其實沒有想象中那麼深,在文章“Residual networks behave like ensembles of relatively shallow networks[C]”中的研究也表明刪除掉一些block並不會顯著降低性能,但是降採樣的網絡層除外。

本篇文章基於這個現象,認為要降低降採樣的敏感性,必須要讓通道的變化是緩慢的,即隨著層數增加,每一層都慢慢增加寬度,命名為金字塔結構,如下。

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

這裡a圖是線性增加,b圖是指數級增加。

那麼到底性能如何呢?首先看下訓練曲線對比:

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

這裡兩個網絡的參數差不多,都是1.7M左右,從曲線上看,性能也相當。

另一個要關注的問題是,金字塔ResNet有沒有實現它的初衷,即改善降低分辨率的網絡層被刪除時帶來的性能下降,結果如下:

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

從結果看來,錯誤率確實降低了。更加具體的實驗結果,大家自己去看論文吧。

[1] Han D, Kim J, Kim J. Deep pyramidal residual networks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2017: 5927-5935.

2 分支眾多-分形結構

這是一個多分支結構相關的網絡結構。

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

FractalNet

殘差網絡可以使得上千層的網絡結構設計成為可能,但並不是只有殘差網絡可以做到,FractalNet(分形網絡)便是如此。

分形是一個數學概念,指的是具有以非整數維形式填充空間的形態特徵,也就是說它的有效維度不是整數。不過我們這裡可以不用關注它的數學定義,而是關注它的,分形幾何結構的一部分具有和整體相似的結構,即自相似,如下圖形:

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

分形網絡,顧名思義也是這樣的特點了,局部的結構和全局相似,如下圖:

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

可以看到包含了各種長度不同的子路徑,從左到右:

第一列路徑只有一條,長度l。

第二列路徑兩條,長度l/2。

第三列路徑四條,長度l/4。

第二列路徑八條,長度l/8。

它與殘差網絡的不同之處在於,綠色模塊表示的非線性變換,即下一層不可能直接得到上一層的信號,而是經過了變換。

這樣的一種包含了不同深度的子網絡,與之前提過的stochastic depth有異曲同工之妙,它也可以被看作是不同深度的網絡的ensemble。

作者們通過隨機丟棄某些深度的方法也做了實驗,丟棄的樣例如下:

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

上面展示了兩種路徑,訓練時混合使用。

Global: 只選擇一條路徑,且是同一列,這條路徑就是獨立的強預測路徑。

Local:包含多個路徑,但是保證每一層至少要有一個輸入。

那麼結果如何呢?

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

如上,與各種網絡進行了對比,性能很好。在添加了drop-path技術後,還有極大提升,並且單獨只拿出其中最深的一條路徑所得的網絡,都有接近最好的模型的性能。

與殘差網絡的相關研究一樣,分形網絡的研究也表明路徑的有效長度才是訓練深度網絡的真正影響因素,不論是分形網絡,還是殘差網絡,都擁有更短的有效的梯度傳播路徑,從而使得深層網絡訓練更不容易過擬合。

[1] Larsson G, Maire M, Shakhnarovich G. Fractalnet: Ultra-deep neural networks without residuals[J]. arXiv preprint arXiv:1605.07648, 2016.

3 一切可連-環形網絡

這是一個基於跳層的複雜拓撲網絡結構。

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

CliqueNet

DenseNet通過複用不同層級的特徵圖,提高了通道的利用率,不過它的連接是前向的,即信息只能從淺層向深層傳遞,而CliqueNet則更進一步,信息的傳遞是雙向的。

結構如上圖所示,CliqueNet不僅有前傳的部分,還有後傳,這種網絡架構同時受到了RNN等循環網絡和注意力機制的啟發,使得特徵圖重複使用而且更加精煉。

CliqueNet的訓練包含兩個階段。第一個階段與 DenseNet 相同,即圖中的Stage-1,此時淺層特徵向深層進行傳遞,這可以視為初始化過程。

第二個階段中每一層不僅接受前面所有層的特徵圖,也接受後面層級的特徵圖反饋。可以看出這是一種循環的反饋結構,可以利用更高級視覺信息來精煉前面層級的特徵,實現空間注意力的效果。實驗結果表明,它有效地抑制了背景和噪聲的激活。

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

整體的網絡架構如上:網絡由很多的block組成,每一個block的stage II的特徵通過global pool串接生成最終的特徵。與DenseNet的不同之處在於,隨著網絡架構,每一個block的輸入輸出特徵圖不需要增加,從而更加高效,結果如下:

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

從上表可以看出,參數量和精度是非常具有優勢的。

[1] Yang Y, Zhong Z, Shen T, et al. Convolutional neural networks with alternately updated clique[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018: 2413-2422.

4 不規則的卷積核-可變形網絡

這是一個卷積核的形狀相關的網絡結構。

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

Deformable Convolution

卷積操作本身具有非常固定的幾何結構,標準的卷積操作是一個非常規矩的採樣,通常是正方形,如果卷積核採用非規矩的採樣,即它的形狀不再是標準的方形,而是任意形狀,則稱之為可形變卷積(Deformable Convolution)。

要描述上面的卷積核,不僅僅需要權重係數,還需要每一個點的偏移量,可變形卷積的思想最早以Active Convolution的形式被提出。

在Active Convolution中,卷積核的各個分量都有自己的偏移量,對於一個3*3的卷積,就包含了18個係數,其中X方向和Y方向的偏移量各9個。不過各個通道共享該係數,所以與輸入輸出通道數無關。

對於輸入通道為M,輸出通道為N,使用3*3的卷積的Active Convolution,權重參數量為M*N*3*3,偏移參數量為2*3*3,遠遠小於權重參數量,所以增加的參數量幾乎可以忽略不計。

在Deformable convolutional networks,每一個通道不共享偏移量,偏移參數量為2*M*3*3,增加的參數量比Active Convolution更多,但是相比卷積核權重參數量M*N*3*3,仍然小很多,所以不會大幅度增加模型的大小,而且實際實現時可以對輸出通道進行分組。

"

大家好,歡迎來到《知識星球》專欄,這個專欄專欄剖析有三AI知識星球的內容生態,今天的內容屬於網絡結構1000變板塊。

作者&編輯 | 言有三

你大概已經見慣了基本的卷積結構,對殘差網絡也瞭如指掌,對分組卷積也爛熟於心,也知道模型壓縮的一些技巧,不過今天這裡要說的,大部分同學可未必知道噢。

大眾的模型結構咱們不講,今天從卷積方式,通道變化,拓撲結構等各方面給大家介紹幾個模型,立志於在這個方向發文章的同學,可要看仔細了。

1 漸變的寬度-金字塔結構

這是一個通道數的變化方式相關的網絡結構。

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

Pyramidal Residual Networks

通常來說,網絡結構的通道數量變化是突變的,那有沒有網絡的增加是緩慢變化的呢?這就是金字塔結構了,名為Pyramidal Residual Networks。

大家都知道,CNN等結構在特徵圖尺度減小的時候,通常會隨之增加特徵圖的通道數目來增加高層的表達能力,這是模型性能的保證,大部分的模型其特徵圖通道數的增加是跳變的,比如從128增加到256。

之前我們講述過隨機刪減深度的殘差網絡證明了深度殘差網絡的深度其實沒有想象中那麼深,在文章“Residual networks behave like ensembles of relatively shallow networks[C]”中的研究也表明刪除掉一些block並不會顯著降低性能,但是降採樣的網絡層除外。

本篇文章基於這個現象,認為要降低降採樣的敏感性,必須要讓通道的變化是緩慢的,即隨著層數增加,每一層都慢慢增加寬度,命名為金字塔結構,如下。

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

這裡a圖是線性增加,b圖是指數級增加。

那麼到底性能如何呢?首先看下訓練曲線對比:

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

這裡兩個網絡的參數差不多,都是1.7M左右,從曲線上看,性能也相當。

另一個要關注的問題是,金字塔ResNet有沒有實現它的初衷,即改善降低分辨率的網絡層被刪除時帶來的性能下降,結果如下:

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

從結果看來,錯誤率確實降低了。更加具體的實驗結果,大家自己去看論文吧。

[1] Han D, Kim J, Kim J. Deep pyramidal residual networks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2017: 5927-5935.

2 分支眾多-分形結構

這是一個多分支結構相關的網絡結構。

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

FractalNet

殘差網絡可以使得上千層的網絡結構設計成為可能,但並不是只有殘差網絡可以做到,FractalNet(分形網絡)便是如此。

分形是一個數學概念,指的是具有以非整數維形式填充空間的形態特徵,也就是說它的有效維度不是整數。不過我們這裡可以不用關注它的數學定義,而是關注它的,分形幾何結構的一部分具有和整體相似的結構,即自相似,如下圖形:

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

分形網絡,顧名思義也是這樣的特點了,局部的結構和全局相似,如下圖:

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

可以看到包含了各種長度不同的子路徑,從左到右:

第一列路徑只有一條,長度l。

第二列路徑兩條,長度l/2。

第三列路徑四條,長度l/4。

第二列路徑八條,長度l/8。

它與殘差網絡的不同之處在於,綠色模塊表示的非線性變換,即下一層不可能直接得到上一層的信號,而是經過了變換。

這樣的一種包含了不同深度的子網絡,與之前提過的stochastic depth有異曲同工之妙,它也可以被看作是不同深度的網絡的ensemble。

作者們通過隨機丟棄某些深度的方法也做了實驗,丟棄的樣例如下:

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

上面展示了兩種路徑,訓練時混合使用。

Global: 只選擇一條路徑,且是同一列,這條路徑就是獨立的強預測路徑。

Local:包含多個路徑,但是保證每一層至少要有一個輸入。

那麼結果如何呢?

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

如上,與各種網絡進行了對比,性能很好。在添加了drop-path技術後,還有極大提升,並且單獨只拿出其中最深的一條路徑所得的網絡,都有接近最好的模型的性能。

與殘差網絡的相關研究一樣,分形網絡的研究也表明路徑的有效長度才是訓練深度網絡的真正影響因素,不論是分形網絡,還是殘差網絡,都擁有更短的有效的梯度傳播路徑,從而使得深層網絡訓練更不容易過擬合。

[1] Larsson G, Maire M, Shakhnarovich G. Fractalnet: Ultra-deep neural networks without residuals[J]. arXiv preprint arXiv:1605.07648, 2016.

3 一切可連-環形網絡

這是一個基於跳層的複雜拓撲網絡結構。

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

CliqueNet

DenseNet通過複用不同層級的特徵圖,提高了通道的利用率,不過它的連接是前向的,即信息只能從淺層向深層傳遞,而CliqueNet則更進一步,信息的傳遞是雙向的。

結構如上圖所示,CliqueNet不僅有前傳的部分,還有後傳,這種網絡架構同時受到了RNN等循環網絡和注意力機制的啟發,使得特徵圖重複使用而且更加精煉。

CliqueNet的訓練包含兩個階段。第一個階段與 DenseNet 相同,即圖中的Stage-1,此時淺層特徵向深層進行傳遞,這可以視為初始化過程。

第二個階段中每一層不僅接受前面所有層的特徵圖,也接受後面層級的特徵圖反饋。可以看出這是一種循環的反饋結構,可以利用更高級視覺信息來精煉前面層級的特徵,實現空間注意力的效果。實驗結果表明,它有效地抑制了背景和噪聲的激活。

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

整體的網絡架構如上:網絡由很多的block組成,每一個block的stage II的特徵通過global pool串接生成最終的特徵。與DenseNet的不同之處在於,隨著網絡架構,每一個block的輸入輸出特徵圖不需要增加,從而更加高效,結果如下:

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

從上表可以看出,參數量和精度是非常具有優勢的。

[1] Yang Y, Zhong Z, Shen T, et al. Convolutional neural networks with alternately updated clique[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018: 2413-2422.

4 不規則的卷積核-可變形網絡

這是一個卷積核的形狀相關的網絡結構。

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

Deformable Convolution

卷積操作本身具有非常固定的幾何結構,標準的卷積操作是一個非常規矩的採樣,通常是正方形,如果卷積核採用非規矩的採樣,即它的形狀不再是標準的方形,而是任意形狀,則稱之為可形變卷積(Deformable Convolution)。

要描述上面的卷積核,不僅僅需要權重係數,還需要每一個點的偏移量,可變形卷積的思想最早以Active Convolution的形式被提出。

在Active Convolution中,卷積核的各個分量都有自己的偏移量,對於一個3*3的卷積,就包含了18個係數,其中X方向和Y方向的偏移量各9個。不過各個通道共享該係數,所以與輸入輸出通道數無關。

對於輸入通道為M,輸出通道為N,使用3*3的卷積的Active Convolution,權重參數量為M*N*3*3,偏移參數量為2*3*3,遠遠小於權重參數量,所以增加的參數量幾乎可以忽略不計。

在Deformable convolutional networks,每一個通道不共享偏移量,偏移參數量為2*M*3*3,增加的參數量比Active Convolution更多,但是相比卷積核權重參數量M*N*3*3,仍然小很多,所以不會大幅度增加模型的大小,而且實際實現時可以對輸出通道進行分組。

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

"

大家好,歡迎來到《知識星球》專欄,這個專欄專欄剖析有三AI知識星球的內容生態,今天的內容屬於網絡結構1000變板塊。

作者&編輯 | 言有三

你大概已經見慣了基本的卷積結構,對殘差網絡也瞭如指掌,對分組卷積也爛熟於心,也知道模型壓縮的一些技巧,不過今天這裡要說的,大部分同學可未必知道噢。

大眾的模型結構咱們不講,今天從卷積方式,通道變化,拓撲結構等各方面給大家介紹幾個模型,立志於在這個方向發文章的同學,可要看仔細了。

1 漸變的寬度-金字塔結構

這是一個通道數的變化方式相關的網絡結構。

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

Pyramidal Residual Networks

通常來說,網絡結構的通道數量變化是突變的,那有沒有網絡的增加是緩慢變化的呢?這就是金字塔結構了,名為Pyramidal Residual Networks。

大家都知道,CNN等結構在特徵圖尺度減小的時候,通常會隨之增加特徵圖的通道數目來增加高層的表達能力,這是模型性能的保證,大部分的模型其特徵圖通道數的增加是跳變的,比如從128增加到256。

之前我們講述過隨機刪減深度的殘差網絡證明了深度殘差網絡的深度其實沒有想象中那麼深,在文章“Residual networks behave like ensembles of relatively shallow networks[C]”中的研究也表明刪除掉一些block並不會顯著降低性能,但是降採樣的網絡層除外。

本篇文章基於這個現象,認為要降低降採樣的敏感性,必須要讓通道的變化是緩慢的,即隨著層數增加,每一層都慢慢增加寬度,命名為金字塔結構,如下。

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

這裡a圖是線性增加,b圖是指數級增加。

那麼到底性能如何呢?首先看下訓練曲線對比:

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

這裡兩個網絡的參數差不多,都是1.7M左右,從曲線上看,性能也相當。

另一個要關注的問題是,金字塔ResNet有沒有實現它的初衷,即改善降低分辨率的網絡層被刪除時帶來的性能下降,結果如下:

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

從結果看來,錯誤率確實降低了。更加具體的實驗結果,大家自己去看論文吧。

[1] Han D, Kim J, Kim J. Deep pyramidal residual networks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2017: 5927-5935.

2 分支眾多-分形結構

這是一個多分支結構相關的網絡結構。

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

FractalNet

殘差網絡可以使得上千層的網絡結構設計成為可能,但並不是只有殘差網絡可以做到,FractalNet(分形網絡)便是如此。

分形是一個數學概念,指的是具有以非整數維形式填充空間的形態特徵,也就是說它的有效維度不是整數。不過我們這裡可以不用關注它的數學定義,而是關注它的,分形幾何結構的一部分具有和整體相似的結構,即自相似,如下圖形:

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

分形網絡,顧名思義也是這樣的特點了,局部的結構和全局相似,如下圖:

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

可以看到包含了各種長度不同的子路徑,從左到右:

第一列路徑只有一條,長度l。

第二列路徑兩條,長度l/2。

第三列路徑四條,長度l/4。

第二列路徑八條,長度l/8。

它與殘差網絡的不同之處在於,綠色模塊表示的非線性變換,即下一層不可能直接得到上一層的信號,而是經過了變換。

這樣的一種包含了不同深度的子網絡,與之前提過的stochastic depth有異曲同工之妙,它也可以被看作是不同深度的網絡的ensemble。

作者們通過隨機丟棄某些深度的方法也做了實驗,丟棄的樣例如下:

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

上面展示了兩種路徑,訓練時混合使用。

Global: 只選擇一條路徑,且是同一列,這條路徑就是獨立的強預測路徑。

Local:包含多個路徑,但是保證每一層至少要有一個輸入。

那麼結果如何呢?

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

如上,與各種網絡進行了對比,性能很好。在添加了drop-path技術後,還有極大提升,並且單獨只拿出其中最深的一條路徑所得的網絡,都有接近最好的模型的性能。

與殘差網絡的相關研究一樣,分形網絡的研究也表明路徑的有效長度才是訓練深度網絡的真正影響因素,不論是分形網絡,還是殘差網絡,都擁有更短的有效的梯度傳播路徑,從而使得深層網絡訓練更不容易過擬合。

[1] Larsson G, Maire M, Shakhnarovich G. Fractalnet: Ultra-deep neural networks without residuals[J]. arXiv preprint arXiv:1605.07648, 2016.

3 一切可連-環形網絡

這是一個基於跳層的複雜拓撲網絡結構。

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

CliqueNet

DenseNet通過複用不同層級的特徵圖,提高了通道的利用率,不過它的連接是前向的,即信息只能從淺層向深層傳遞,而CliqueNet則更進一步,信息的傳遞是雙向的。

結構如上圖所示,CliqueNet不僅有前傳的部分,還有後傳,這種網絡架構同時受到了RNN等循環網絡和注意力機制的啟發,使得特徵圖重複使用而且更加精煉。

CliqueNet的訓練包含兩個階段。第一個階段與 DenseNet 相同,即圖中的Stage-1,此時淺層特徵向深層進行傳遞,這可以視為初始化過程。

第二個階段中每一層不僅接受前面所有層的特徵圖,也接受後面層級的特徵圖反饋。可以看出這是一種循環的反饋結構,可以利用更高級視覺信息來精煉前面層級的特徵,實現空間注意力的效果。實驗結果表明,它有效地抑制了背景和噪聲的激活。

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

整體的網絡架構如上:網絡由很多的block組成,每一個block的stage II的特徵通過global pool串接生成最終的特徵。與DenseNet的不同之處在於,隨著網絡架構,每一個block的輸入輸出特徵圖不需要增加,從而更加高效,結果如下:

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

從上表可以看出,參數量和精度是非常具有優勢的。

[1] Yang Y, Zhong Z, Shen T, et al. Convolutional neural networks with alternately updated clique[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018: 2413-2422.

4 不規則的卷積核-可變形網絡

這是一個卷積核的形狀相關的網絡結構。

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

Deformable Convolution

卷積操作本身具有非常固定的幾何結構,標準的卷積操作是一個非常規矩的採樣,通常是正方形,如果卷積核採用非規矩的採樣,即它的形狀不再是標準的方形,而是任意形狀,則稱之為可形變卷積(Deformable Convolution)。

要描述上面的卷積核,不僅僅需要權重係數,還需要每一個點的偏移量,可變形卷積的思想最早以Active Convolution的形式被提出。

在Active Convolution中,卷積核的各個分量都有自己的偏移量,對於一個3*3的卷積,就包含了18個係數,其中X方向和Y方向的偏移量各9個。不過各個通道共享該係數,所以與輸入輸出通道數無關。

對於輸入通道為M,輸出通道為N,使用3*3的卷積的Active Convolution,權重參數量為M*N*3*3,偏移參數量為2*3*3,遠遠小於權重參數量,所以增加的參數量幾乎可以忽略不計。

在Deformable convolutional networks,每一個通道不共享偏移量,偏移參數量為2*M*3*3,增加的參數量比Active Convolution更多,但是相比卷積核權重參數量M*N*3*3,仍然小很多,所以不會大幅度增加模型的大小,而且實際實現時可以對輸出通道進行分組。

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

從上圖就可以看出可變形卷積有更靈活的感受野。

可變形卷積的實現只需要增加偏移量的學習,實際就是多了一個offset層,給offset輸出通道數變量,我們還可以對輸出進行分組,控制要學習的變形的種類。

"

大家好,歡迎來到《知識星球》專欄,這個專欄專欄剖析有三AI知識星球的內容生態,今天的內容屬於網絡結構1000變板塊。

作者&編輯 | 言有三

你大概已經見慣了基本的卷積結構,對殘差網絡也瞭如指掌,對分組卷積也爛熟於心,也知道模型壓縮的一些技巧,不過今天這裡要說的,大部分同學可未必知道噢。

大眾的模型結構咱們不講,今天從卷積方式,通道變化,拓撲結構等各方面給大家介紹幾個模型,立志於在這個方向發文章的同學,可要看仔細了。

1 漸變的寬度-金字塔結構

這是一個通道數的變化方式相關的網絡結構。

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

Pyramidal Residual Networks

通常來說,網絡結構的通道數量變化是突變的,那有沒有網絡的增加是緩慢變化的呢?這就是金字塔結構了,名為Pyramidal Residual Networks。

大家都知道,CNN等結構在特徵圖尺度減小的時候,通常會隨之增加特徵圖的通道數目來增加高層的表達能力,這是模型性能的保證,大部分的模型其特徵圖通道數的增加是跳變的,比如從128增加到256。

之前我們講述過隨機刪減深度的殘差網絡證明了深度殘差網絡的深度其實沒有想象中那麼深,在文章“Residual networks behave like ensembles of relatively shallow networks[C]”中的研究也表明刪除掉一些block並不會顯著降低性能,但是降採樣的網絡層除外。

本篇文章基於這個現象,認為要降低降採樣的敏感性,必須要讓通道的變化是緩慢的,即隨著層數增加,每一層都慢慢增加寬度,命名為金字塔結構,如下。

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

這裡a圖是線性增加,b圖是指數級增加。

那麼到底性能如何呢?首先看下訓練曲線對比:

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

這裡兩個網絡的參數差不多,都是1.7M左右,從曲線上看,性能也相當。

另一個要關注的問題是,金字塔ResNet有沒有實現它的初衷,即改善降低分辨率的網絡層被刪除時帶來的性能下降,結果如下:

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

從結果看來,錯誤率確實降低了。更加具體的實驗結果,大家自己去看論文吧。

[1] Han D, Kim J, Kim J. Deep pyramidal residual networks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2017: 5927-5935.

2 分支眾多-分形結構

這是一個多分支結構相關的網絡結構。

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

FractalNet

殘差網絡可以使得上千層的網絡結構設計成為可能,但並不是只有殘差網絡可以做到,FractalNet(分形網絡)便是如此。

分形是一個數學概念,指的是具有以非整數維形式填充空間的形態特徵,也就是說它的有效維度不是整數。不過我們這裡可以不用關注它的數學定義,而是關注它的,分形幾何結構的一部分具有和整體相似的結構,即自相似,如下圖形:

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

分形網絡,顧名思義也是這樣的特點了,局部的結構和全局相似,如下圖:

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

可以看到包含了各種長度不同的子路徑,從左到右:

第一列路徑只有一條,長度l。

第二列路徑兩條,長度l/2。

第三列路徑四條,長度l/4。

第二列路徑八條,長度l/8。

它與殘差網絡的不同之處在於,綠色模塊表示的非線性變換,即下一層不可能直接得到上一層的信號,而是經過了變換。

這樣的一種包含了不同深度的子網絡,與之前提過的stochastic depth有異曲同工之妙,它也可以被看作是不同深度的網絡的ensemble。

作者們通過隨機丟棄某些深度的方法也做了實驗,丟棄的樣例如下:

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

上面展示了兩種路徑,訓練時混合使用。

Global: 只選擇一條路徑,且是同一列,這條路徑就是獨立的強預測路徑。

Local:包含多個路徑,但是保證每一層至少要有一個輸入。

那麼結果如何呢?

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

如上,與各種網絡進行了對比,性能很好。在添加了drop-path技術後,還有極大提升,並且單獨只拿出其中最深的一條路徑所得的網絡,都有接近最好的模型的性能。

與殘差網絡的相關研究一樣,分形網絡的研究也表明路徑的有效長度才是訓練深度網絡的真正影響因素,不論是分形網絡,還是殘差網絡,都擁有更短的有效的梯度傳播路徑,從而使得深層網絡訓練更不容易過擬合。

[1] Larsson G, Maire M, Shakhnarovich G. Fractalnet: Ultra-deep neural networks without residuals[J]. arXiv preprint arXiv:1605.07648, 2016.

3 一切可連-環形網絡

這是一個基於跳層的複雜拓撲網絡結構。

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

CliqueNet

DenseNet通過複用不同層級的特徵圖,提高了通道的利用率,不過它的連接是前向的,即信息只能從淺層向深層傳遞,而CliqueNet則更進一步,信息的傳遞是雙向的。

結構如上圖所示,CliqueNet不僅有前傳的部分,還有後傳,這種網絡架構同時受到了RNN等循環網絡和注意力機制的啟發,使得特徵圖重複使用而且更加精煉。

CliqueNet的訓練包含兩個階段。第一個階段與 DenseNet 相同,即圖中的Stage-1,此時淺層特徵向深層進行傳遞,這可以視為初始化過程。

第二個階段中每一層不僅接受前面所有層的特徵圖,也接受後面層級的特徵圖反饋。可以看出這是一種循環的反饋結構,可以利用更高級視覺信息來精煉前面層級的特徵,實現空間注意力的效果。實驗結果表明,它有效地抑制了背景和噪聲的激活。

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

整體的網絡架構如上:網絡由很多的block組成,每一個block的stage II的特徵通過global pool串接生成最終的特徵。與DenseNet的不同之處在於,隨著網絡架構,每一個block的輸入輸出特徵圖不需要增加,從而更加高效,結果如下:

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

從上表可以看出,參數量和精度是非常具有優勢的。

[1] Yang Y, Zhong Z, Shen T, et al. Convolutional neural networks with alternately updated clique[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018: 2413-2422.

4 不規則的卷積核-可變形網絡

這是一個卷積核的形狀相關的網絡結構。

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

Deformable Convolution

卷積操作本身具有非常固定的幾何結構,標準的卷積操作是一個非常規矩的採樣,通常是正方形,如果卷積核採用非規矩的採樣,即它的形狀不再是標準的方形,而是任意形狀,則稱之為可形變卷積(Deformable Convolution)。

要描述上面的卷積核,不僅僅需要權重係數,還需要每一個點的偏移量,可變形卷積的思想最早以Active Convolution的形式被提出。

在Active Convolution中,卷積核的各個分量都有自己的偏移量,對於一個3*3的卷積,就包含了18個係數,其中X方向和Y方向的偏移量各9個。不過各個通道共享該係數,所以與輸入輸出通道數無關。

對於輸入通道為M,輸出通道為N,使用3*3的卷積的Active Convolution,權重參數量為M*N*3*3,偏移參數量為2*3*3,遠遠小於權重參數量,所以增加的參數量幾乎可以忽略不計。

在Deformable convolutional networks,每一個通道不共享偏移量,偏移參數量為2*M*3*3,增加的參數量比Active Convolution更多,但是相比卷積核權重參數量M*N*3*3,仍然小很多,所以不會大幅度增加模型的大小,而且實際實現時可以對輸出通道進行分組。

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

從上圖就可以看出可變形卷積有更靈活的感受野。

可變形卷積的實現只需要增加偏移量的學習,實際就是多了一個offset層,給offset輸出通道數變量,我們還可以對輸出進行分組,控制要學習的變形的種類。

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

最後看一下參數對比和性能。

"

大家好,歡迎來到《知識星球》專欄,這個專欄專欄剖析有三AI知識星球的內容生態,今天的內容屬於網絡結構1000變板塊。

作者&編輯 | 言有三

你大概已經見慣了基本的卷積結構,對殘差網絡也瞭如指掌,對分組卷積也爛熟於心,也知道模型壓縮的一些技巧,不過今天這裡要說的,大部分同學可未必知道噢。

大眾的模型結構咱們不講,今天從卷積方式,通道變化,拓撲結構等各方面給大家介紹幾個模型,立志於在這個方向發文章的同學,可要看仔細了。

1 漸變的寬度-金字塔結構

這是一個通道數的變化方式相關的網絡結構。

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

Pyramidal Residual Networks

通常來說,網絡結構的通道數量變化是突變的,那有沒有網絡的增加是緩慢變化的呢?這就是金字塔結構了,名為Pyramidal Residual Networks。

大家都知道,CNN等結構在特徵圖尺度減小的時候,通常會隨之增加特徵圖的通道數目來增加高層的表達能力,這是模型性能的保證,大部分的模型其特徵圖通道數的增加是跳變的,比如從128增加到256。

之前我們講述過隨機刪減深度的殘差網絡證明了深度殘差網絡的深度其實沒有想象中那麼深,在文章“Residual networks behave like ensembles of relatively shallow networks[C]”中的研究也表明刪除掉一些block並不會顯著降低性能,但是降採樣的網絡層除外。

本篇文章基於這個現象,認為要降低降採樣的敏感性,必須要讓通道的變化是緩慢的,即隨著層數增加,每一層都慢慢增加寬度,命名為金字塔結構,如下。

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

這裡a圖是線性增加,b圖是指數級增加。

那麼到底性能如何呢?首先看下訓練曲線對比:

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

這裡兩個網絡的參數差不多,都是1.7M左右,從曲線上看,性能也相當。

另一個要關注的問題是,金字塔ResNet有沒有實現它的初衷,即改善降低分辨率的網絡層被刪除時帶來的性能下降,結果如下:

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

從結果看來,錯誤率確實降低了。更加具體的實驗結果,大家自己去看論文吧。

[1] Han D, Kim J, Kim J. Deep pyramidal residual networks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2017: 5927-5935.

2 分支眾多-分形結構

這是一個多分支結構相關的網絡結構。

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

FractalNet

殘差網絡可以使得上千層的網絡結構設計成為可能,但並不是只有殘差網絡可以做到,FractalNet(分形網絡)便是如此。

分形是一個數學概念,指的是具有以非整數維形式填充空間的形態特徵,也就是說它的有效維度不是整數。不過我們這裡可以不用關注它的數學定義,而是關注它的,分形幾何結構的一部分具有和整體相似的結構,即自相似,如下圖形:

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

分形網絡,顧名思義也是這樣的特點了,局部的結構和全局相似,如下圖:

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

可以看到包含了各種長度不同的子路徑,從左到右:

第一列路徑只有一條,長度l。

第二列路徑兩條,長度l/2。

第三列路徑四條,長度l/4。

第二列路徑八條,長度l/8。

它與殘差網絡的不同之處在於,綠色模塊表示的非線性變換,即下一層不可能直接得到上一層的信號,而是經過了變換。

這樣的一種包含了不同深度的子網絡,與之前提過的stochastic depth有異曲同工之妙,它也可以被看作是不同深度的網絡的ensemble。

作者們通過隨機丟棄某些深度的方法也做了實驗,丟棄的樣例如下:

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

上面展示了兩種路徑,訓練時混合使用。

Global: 只選擇一條路徑,且是同一列,這條路徑就是獨立的強預測路徑。

Local:包含多個路徑,但是保證每一層至少要有一個輸入。

那麼結果如何呢?

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

如上,與各種網絡進行了對比,性能很好。在添加了drop-path技術後,還有極大提升,並且單獨只拿出其中最深的一條路徑所得的網絡,都有接近最好的模型的性能。

與殘差網絡的相關研究一樣,分形網絡的研究也表明路徑的有效長度才是訓練深度網絡的真正影響因素,不論是分形網絡,還是殘差網絡,都擁有更短的有效的梯度傳播路徑,從而使得深層網絡訓練更不容易過擬合。

[1] Larsson G, Maire M, Shakhnarovich G. Fractalnet: Ultra-deep neural networks without residuals[J]. arXiv preprint arXiv:1605.07648, 2016.

3 一切可連-環形網絡

這是一個基於跳層的複雜拓撲網絡結構。

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

CliqueNet

DenseNet通過複用不同層級的特徵圖,提高了通道的利用率,不過它的連接是前向的,即信息只能從淺層向深層傳遞,而CliqueNet則更進一步,信息的傳遞是雙向的。

結構如上圖所示,CliqueNet不僅有前傳的部分,還有後傳,這種網絡架構同時受到了RNN等循環網絡和注意力機制的啟發,使得特徵圖重複使用而且更加精煉。

CliqueNet的訓練包含兩個階段。第一個階段與 DenseNet 相同,即圖中的Stage-1,此時淺層特徵向深層進行傳遞,這可以視為初始化過程。

第二個階段中每一層不僅接受前面所有層的特徵圖,也接受後面層級的特徵圖反饋。可以看出這是一種循環的反饋結構,可以利用更高級視覺信息來精煉前面層級的特徵,實現空間注意力的效果。實驗結果表明,它有效地抑制了背景和噪聲的激活。

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

整體的網絡架構如上:網絡由很多的block組成,每一個block的stage II的特徵通過global pool串接生成最終的特徵。與DenseNet的不同之處在於,隨著網絡架構,每一個block的輸入輸出特徵圖不需要增加,從而更加高效,結果如下:

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

從上表可以看出,參數量和精度是非常具有優勢的。

[1] Yang Y, Zhong Z, Shen T, et al. Convolutional neural networks with alternately updated clique[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018: 2413-2422.

4 不規則的卷積核-可變形網絡

這是一個卷積核的形狀相關的網絡結構。

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

Deformable Convolution

卷積操作本身具有非常固定的幾何結構,標準的卷積操作是一個非常規矩的採樣,通常是正方形,如果卷積核採用非規矩的採樣,即它的形狀不再是標準的方形,而是任意形狀,則稱之為可形變卷積(Deformable Convolution)。

要描述上面的卷積核,不僅僅需要權重係數,還需要每一個點的偏移量,可變形卷積的思想最早以Active Convolution的形式被提出。

在Active Convolution中,卷積核的各個分量都有自己的偏移量,對於一個3*3的卷積,就包含了18個係數,其中X方向和Y方向的偏移量各9個。不過各個通道共享該係數,所以與輸入輸出通道數無關。

對於輸入通道為M,輸出通道為N,使用3*3的卷積的Active Convolution,權重參數量為M*N*3*3,偏移參數量為2*3*3,遠遠小於權重參數量,所以增加的參數量幾乎可以忽略不計。

在Deformable convolutional networks,每一個通道不共享偏移量,偏移參數量為2*M*3*3,增加的參數量比Active Convolution更多,但是相比卷積核權重參數量M*N*3*3,仍然小很多,所以不會大幅度增加模型的大小,而且實際實現時可以對輸出通道進行分組。

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

從上圖就可以看出可變形卷積有更靈活的感受野。

可變形卷積的實現只需要增加偏移量的學習,實際就是多了一個offset層,給offset輸出通道數變量,我們還可以對輸出進行分組,控制要學習的變形的種類。

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

最後看一下參數對比和性能。

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

"

大家好,歡迎來到《知識星球》專欄,這個專欄專欄剖析有三AI知識星球的內容生態,今天的內容屬於網絡結構1000變板塊。

作者&編輯 | 言有三

你大概已經見慣了基本的卷積結構,對殘差網絡也瞭如指掌,對分組卷積也爛熟於心,也知道模型壓縮的一些技巧,不過今天這裡要說的,大部分同學可未必知道噢。

大眾的模型結構咱們不講,今天從卷積方式,通道變化,拓撲結構等各方面給大家介紹幾個模型,立志於在這個方向發文章的同學,可要看仔細了。

1 漸變的寬度-金字塔結構

這是一個通道數的變化方式相關的網絡結構。

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

Pyramidal Residual Networks

通常來說,網絡結構的通道數量變化是突變的,那有沒有網絡的增加是緩慢變化的呢?這就是金字塔結構了,名為Pyramidal Residual Networks。

大家都知道,CNN等結構在特徵圖尺度減小的時候,通常會隨之增加特徵圖的通道數目來增加高層的表達能力,這是模型性能的保證,大部分的模型其特徵圖通道數的增加是跳變的,比如從128增加到256。

之前我們講述過隨機刪減深度的殘差網絡證明了深度殘差網絡的深度其實沒有想象中那麼深,在文章“Residual networks behave like ensembles of relatively shallow networks[C]”中的研究也表明刪除掉一些block並不會顯著降低性能,但是降採樣的網絡層除外。

本篇文章基於這個現象,認為要降低降採樣的敏感性,必須要讓通道的變化是緩慢的,即隨著層數增加,每一層都慢慢增加寬度,命名為金字塔結構,如下。

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

這裡a圖是線性增加,b圖是指數級增加。

那麼到底性能如何呢?首先看下訓練曲線對比:

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

這裡兩個網絡的參數差不多,都是1.7M左右,從曲線上看,性能也相當。

另一個要關注的問題是,金字塔ResNet有沒有實現它的初衷,即改善降低分辨率的網絡層被刪除時帶來的性能下降,結果如下:

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

從結果看來,錯誤率確實降低了。更加具體的實驗結果,大家自己去看論文吧。

[1] Han D, Kim J, Kim J. Deep pyramidal residual networks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2017: 5927-5935.

2 分支眾多-分形結構

這是一個多分支結構相關的網絡結構。

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

FractalNet

殘差網絡可以使得上千層的網絡結構設計成為可能,但並不是只有殘差網絡可以做到,FractalNet(分形網絡)便是如此。

分形是一個數學概念,指的是具有以非整數維形式填充空間的形態特徵,也就是說它的有效維度不是整數。不過我們這裡可以不用關注它的數學定義,而是關注它的,分形幾何結構的一部分具有和整體相似的結構,即自相似,如下圖形:

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

分形網絡,顧名思義也是這樣的特點了,局部的結構和全局相似,如下圖:

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

可以看到包含了各種長度不同的子路徑,從左到右:

第一列路徑只有一條,長度l。

第二列路徑兩條,長度l/2。

第三列路徑四條,長度l/4。

第二列路徑八條,長度l/8。

它與殘差網絡的不同之處在於,綠色模塊表示的非線性變換,即下一層不可能直接得到上一層的信號,而是經過了變換。

這樣的一種包含了不同深度的子網絡,與之前提過的stochastic depth有異曲同工之妙,它也可以被看作是不同深度的網絡的ensemble。

作者們通過隨機丟棄某些深度的方法也做了實驗,丟棄的樣例如下:

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

上面展示了兩種路徑,訓練時混合使用。

Global: 只選擇一條路徑,且是同一列,這條路徑就是獨立的強預測路徑。

Local:包含多個路徑,但是保證每一層至少要有一個輸入。

那麼結果如何呢?

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

如上,與各種網絡進行了對比,性能很好。在添加了drop-path技術後,還有極大提升,並且單獨只拿出其中最深的一條路徑所得的網絡,都有接近最好的模型的性能。

與殘差網絡的相關研究一樣,分形網絡的研究也表明路徑的有效長度才是訓練深度網絡的真正影響因素,不論是分形網絡,還是殘差網絡,都擁有更短的有效的梯度傳播路徑,從而使得深層網絡訓練更不容易過擬合。

[1] Larsson G, Maire M, Shakhnarovich G. Fractalnet: Ultra-deep neural networks without residuals[J]. arXiv preprint arXiv:1605.07648, 2016.

3 一切可連-環形網絡

這是一個基於跳層的複雜拓撲網絡結構。

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

CliqueNet

DenseNet通過複用不同層級的特徵圖,提高了通道的利用率,不過它的連接是前向的,即信息只能從淺層向深層傳遞,而CliqueNet則更進一步,信息的傳遞是雙向的。

結構如上圖所示,CliqueNet不僅有前傳的部分,還有後傳,這種網絡架構同時受到了RNN等循環網絡和注意力機制的啟發,使得特徵圖重複使用而且更加精煉。

CliqueNet的訓練包含兩個階段。第一個階段與 DenseNet 相同,即圖中的Stage-1,此時淺層特徵向深層進行傳遞,這可以視為初始化過程。

第二個階段中每一層不僅接受前面所有層的特徵圖,也接受後面層級的特徵圖反饋。可以看出這是一種循環的反饋結構,可以利用更高級視覺信息來精煉前面層級的特徵,實現空間注意力的效果。實驗結果表明,它有效地抑制了背景和噪聲的激活。

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

整體的網絡架構如上:網絡由很多的block組成,每一個block的stage II的特徵通過global pool串接生成最終的特徵。與DenseNet的不同之處在於,隨著網絡架構,每一個block的輸入輸出特徵圖不需要增加,從而更加高效,結果如下:

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

從上表可以看出,參數量和精度是非常具有優勢的。

[1] Yang Y, Zhong Z, Shen T, et al. Convolutional neural networks with alternately updated clique[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018: 2413-2422.

4 不規則的卷積核-可變形網絡

這是一個卷積核的形狀相關的網絡結構。

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

Deformable Convolution

卷積操作本身具有非常固定的幾何結構,標準的卷積操作是一個非常規矩的採樣,通常是正方形,如果卷積核採用非規矩的採樣,即它的形狀不再是標準的方形,而是任意形狀,則稱之為可形變卷積(Deformable Convolution)。

要描述上面的卷積核,不僅僅需要權重係數,還需要每一個點的偏移量,可變形卷積的思想最早以Active Convolution的形式被提出。

在Active Convolution中,卷積核的各個分量都有自己的偏移量,對於一個3*3的卷積,就包含了18個係數,其中X方向和Y方向的偏移量各9個。不過各個通道共享該係數,所以與輸入輸出通道數無關。

對於輸入通道為M,輸出通道為N,使用3*3的卷積的Active Convolution,權重參數量為M*N*3*3,偏移參數量為2*3*3,遠遠小於權重參數量,所以增加的參數量幾乎可以忽略不計。

在Deformable convolutional networks,每一個通道不共享偏移量,偏移參數量為2*M*3*3,增加的參數量比Active Convolution更多,但是相比卷積核權重參數量M*N*3*3,仍然小很多,所以不會大幅度增加模型的大小,而且實際實現時可以對輸出通道進行分組。

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

從上圖就可以看出可變形卷積有更靈活的感受野。

可變形卷積的實現只需要增加偏移量的學習,實際就是多了一個offset層,給offset輸出通道數變量,我們還可以對輸出進行分組,控制要學習的變形的種類。

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

最後看一下參數對比和性能。

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

實驗了各個網絡層的結果,參數量的增加很小,性能也是提升的。具體的效果如何,大家不妨用自己的實驗結果來驗證。

[1] Jeon Y , Kim J . Active Convolution: Learning the Shape of Convolution for Image Classification[J]. 2017.
[2] Dai J, Qi H, Xiong Y, et al. Deformable Convolutional Networks[J]. 2017.

5 測試可變的網絡-可分叉網絡

這是一個推理時動態變化的網絡結構。

"

大家好,歡迎來到《知識星球》專欄,這個專欄專欄剖析有三AI知識星球的內容生態,今天的內容屬於網絡結構1000變板塊。

作者&編輯 | 言有三

你大概已經見慣了基本的卷積結構,對殘差網絡也瞭如指掌,對分組卷積也爛熟於心,也知道模型壓縮的一些技巧,不過今天這裡要說的,大部分同學可未必知道噢。

大眾的模型結構咱們不講,今天從卷積方式,通道變化,拓撲結構等各方面給大家介紹幾個模型,立志於在這個方向發文章的同學,可要看仔細了。

1 漸變的寬度-金字塔結構

這是一個通道數的變化方式相關的網絡結構。

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

Pyramidal Residual Networks

通常來說,網絡結構的通道數量變化是突變的,那有沒有網絡的增加是緩慢變化的呢?這就是金字塔結構了,名為Pyramidal Residual Networks。

大家都知道,CNN等結構在特徵圖尺度減小的時候,通常會隨之增加特徵圖的通道數目來增加高層的表達能力,這是模型性能的保證,大部分的模型其特徵圖通道數的增加是跳變的,比如從128增加到256。

之前我們講述過隨機刪減深度的殘差網絡證明了深度殘差網絡的深度其實沒有想象中那麼深,在文章“Residual networks behave like ensembles of relatively shallow networks[C]”中的研究也表明刪除掉一些block並不會顯著降低性能,但是降採樣的網絡層除外。

本篇文章基於這個現象,認為要降低降採樣的敏感性,必須要讓通道的變化是緩慢的,即隨著層數增加,每一層都慢慢增加寬度,命名為金字塔結構,如下。

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

這裡a圖是線性增加,b圖是指數級增加。

那麼到底性能如何呢?首先看下訓練曲線對比:

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

這裡兩個網絡的參數差不多,都是1.7M左右,從曲線上看,性能也相當。

另一個要關注的問題是,金字塔ResNet有沒有實現它的初衷,即改善降低分辨率的網絡層被刪除時帶來的性能下降,結果如下:

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

從結果看來,錯誤率確實降低了。更加具體的實驗結果,大家自己去看論文吧。

[1] Han D, Kim J, Kim J. Deep pyramidal residual networks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2017: 5927-5935.

2 分支眾多-分形結構

這是一個多分支結構相關的網絡結構。

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

FractalNet

殘差網絡可以使得上千層的網絡結構設計成為可能,但並不是只有殘差網絡可以做到,FractalNet(分形網絡)便是如此。

分形是一個數學概念,指的是具有以非整數維形式填充空間的形態特徵,也就是說它的有效維度不是整數。不過我們這裡可以不用關注它的數學定義,而是關注它的,分形幾何結構的一部分具有和整體相似的結構,即自相似,如下圖形:

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

分形網絡,顧名思義也是這樣的特點了,局部的結構和全局相似,如下圖:

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

可以看到包含了各種長度不同的子路徑,從左到右:

第一列路徑只有一條,長度l。

第二列路徑兩條,長度l/2。

第三列路徑四條,長度l/4。

第二列路徑八條,長度l/8。

它與殘差網絡的不同之處在於,綠色模塊表示的非線性變換,即下一層不可能直接得到上一層的信號,而是經過了變換。

這樣的一種包含了不同深度的子網絡,與之前提過的stochastic depth有異曲同工之妙,它也可以被看作是不同深度的網絡的ensemble。

作者們通過隨機丟棄某些深度的方法也做了實驗,丟棄的樣例如下:

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

上面展示了兩種路徑,訓練時混合使用。

Global: 只選擇一條路徑,且是同一列,這條路徑就是獨立的強預測路徑。

Local:包含多個路徑,但是保證每一層至少要有一個輸入。

那麼結果如何呢?

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

如上,與各種網絡進行了對比,性能很好。在添加了drop-path技術後,還有極大提升,並且單獨只拿出其中最深的一條路徑所得的網絡,都有接近最好的模型的性能。

與殘差網絡的相關研究一樣,分形網絡的研究也表明路徑的有效長度才是訓練深度網絡的真正影響因素,不論是分形網絡,還是殘差網絡,都擁有更短的有效的梯度傳播路徑,從而使得深層網絡訓練更不容易過擬合。

[1] Larsson G, Maire M, Shakhnarovich G. Fractalnet: Ultra-deep neural networks without residuals[J]. arXiv preprint arXiv:1605.07648, 2016.

3 一切可連-環形網絡

這是一個基於跳層的複雜拓撲網絡結構。

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

CliqueNet

DenseNet通過複用不同層級的特徵圖,提高了通道的利用率,不過它的連接是前向的,即信息只能從淺層向深層傳遞,而CliqueNet則更進一步,信息的傳遞是雙向的。

結構如上圖所示,CliqueNet不僅有前傳的部分,還有後傳,這種網絡架構同時受到了RNN等循環網絡和注意力機制的啟發,使得特徵圖重複使用而且更加精煉。

CliqueNet的訓練包含兩個階段。第一個階段與 DenseNet 相同,即圖中的Stage-1,此時淺層特徵向深層進行傳遞,這可以視為初始化過程。

第二個階段中每一層不僅接受前面所有層的特徵圖,也接受後面層級的特徵圖反饋。可以看出這是一種循環的反饋結構,可以利用更高級視覺信息來精煉前面層級的特徵,實現空間注意力的效果。實驗結果表明,它有效地抑制了背景和噪聲的激活。

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

整體的網絡架構如上:網絡由很多的block組成,每一個block的stage II的特徵通過global pool串接生成最終的特徵。與DenseNet的不同之處在於,隨著網絡架構,每一個block的輸入輸出特徵圖不需要增加,從而更加高效,結果如下:

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

從上表可以看出,參數量和精度是非常具有優勢的。

[1] Yang Y, Zhong Z, Shen T, et al. Convolutional neural networks with alternately updated clique[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018: 2413-2422.

4 不規則的卷積核-可變形網絡

這是一個卷積核的形狀相關的網絡結構。

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

Deformable Convolution

卷積操作本身具有非常固定的幾何結構,標準的卷積操作是一個非常規矩的採樣,通常是正方形,如果卷積核採用非規矩的採樣,即它的形狀不再是標準的方形,而是任意形狀,則稱之為可形變卷積(Deformable Convolution)。

要描述上面的卷積核,不僅僅需要權重係數,還需要每一個點的偏移量,可變形卷積的思想最早以Active Convolution的形式被提出。

在Active Convolution中,卷積核的各個分量都有自己的偏移量,對於一個3*3的卷積,就包含了18個係數,其中X方向和Y方向的偏移量各9個。不過各個通道共享該係數,所以與輸入輸出通道數無關。

對於輸入通道為M,輸出通道為N,使用3*3的卷積的Active Convolution,權重參數量為M*N*3*3,偏移參數量為2*3*3,遠遠小於權重參數量,所以增加的參數量幾乎可以忽略不計。

在Deformable convolutional networks,每一個通道不共享偏移量,偏移參數量為2*M*3*3,增加的參數量比Active Convolution更多,但是相比卷積核權重參數量M*N*3*3,仍然小很多,所以不會大幅度增加模型的大小,而且實際實現時可以對輸出通道進行分組。

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

從上圖就可以看出可變形卷積有更靈活的感受野。

可變形卷積的實現只需要增加偏移量的學習,實際就是多了一個offset層,給offset輸出通道數變量,我們還可以對輸出進行分組,控制要學習的變形的種類。

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

最後看一下參數對比和性能。

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

實驗了各個網絡層的結果,參數量的增加很小,性能也是提升的。具體的效果如何,大家不妨用自己的實驗結果來驗證。

[1] Jeon Y , Kim J . Active Convolution: Learning the Shape of Convolution for Image Classification[J]. 2017.
[2] Dai J, Qi H, Xiong Y, et al. Deformable Convolutional Networks[J]. 2017.

5 測試可變的網絡-可分叉網絡

這是一個推理時動態變化的網絡結構。

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

BranchyNet

通常來說模型訓練完之後結構就是固定的,測試時圖片沿著固定的通路進行計算。然而測試樣本本身有不同的難度,簡單的樣本只需要少量的計算量就可以完成任務,困難的樣本則需要更多的計算量。

如上圖所示,它在正常網絡通道上包含了多個旁路分支,這樣的思想是基於觀察到隨著網絡的加深,表徵能力越來越強,大部分簡單的圖片可以在較淺層時學習到足以識別的特徵,如上圖中的Exit 1通道。一些更難的樣本需要進一步的學習,如上圖中的Exit 2通道,而只有極少數樣本需要整個網絡,如Exit3通道。這樣的思想可以實現精度和計算量的平衡,對於大部分樣本,可以用更小的計算量完成任務。

那麼如何判斷是否可以提前結束呢?在提出該網絡的論文中,作者採用分類信息熵,一旦該通道的分類信息熵低於某一個閾值,說明已經以很高的置信度獲得了分類的結果,直到最終的通道。

在訓練的時候,每一個通道都會對損失有貢獻,越靠近淺層的網絡權重越大。多通道的損失不僅增強了梯度信息,也在一定程度上實現了正則化。

將BranchyNet的設計思想用於LeNet,AlexNet,ResNet結構後,在維持性能的前提下,加速效果明顯。

"

大家好,歡迎來到《知識星球》專欄,這個專欄專欄剖析有三AI知識星球的內容生態,今天的內容屬於網絡結構1000變板塊。

作者&編輯 | 言有三

你大概已經見慣了基本的卷積結構,對殘差網絡也瞭如指掌,對分組卷積也爛熟於心,也知道模型壓縮的一些技巧,不過今天這裡要說的,大部分同學可未必知道噢。

大眾的模型結構咱們不講,今天從卷積方式,通道變化,拓撲結構等各方面給大家介紹幾個模型,立志於在這個方向發文章的同學,可要看仔細了。

1 漸變的寬度-金字塔結構

這是一個通道數的變化方式相關的網絡結構。

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

Pyramidal Residual Networks

通常來說,網絡結構的通道數量變化是突變的,那有沒有網絡的增加是緩慢變化的呢?這就是金字塔結構了,名為Pyramidal Residual Networks。

大家都知道,CNN等結構在特徵圖尺度減小的時候,通常會隨之增加特徵圖的通道數目來增加高層的表達能力,這是模型性能的保證,大部分的模型其特徵圖通道數的增加是跳變的,比如從128增加到256。

之前我們講述過隨機刪減深度的殘差網絡證明了深度殘差網絡的深度其實沒有想象中那麼深,在文章“Residual networks behave like ensembles of relatively shallow networks[C]”中的研究也表明刪除掉一些block並不會顯著降低性能,但是降採樣的網絡層除外。

本篇文章基於這個現象,認為要降低降採樣的敏感性,必須要讓通道的變化是緩慢的,即隨著層數增加,每一層都慢慢增加寬度,命名為金字塔結構,如下。

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

這裡a圖是線性增加,b圖是指數級增加。

那麼到底性能如何呢?首先看下訓練曲線對比:

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

這裡兩個網絡的參數差不多,都是1.7M左右,從曲線上看,性能也相當。

另一個要關注的問題是,金字塔ResNet有沒有實現它的初衷,即改善降低分辨率的網絡層被刪除時帶來的性能下降,結果如下:

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

從結果看來,錯誤率確實降低了。更加具體的實驗結果,大家自己去看論文吧。

[1] Han D, Kim J, Kim J. Deep pyramidal residual networks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2017: 5927-5935.

2 分支眾多-分形結構

這是一個多分支結構相關的網絡結構。

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

FractalNet

殘差網絡可以使得上千層的網絡結構設計成為可能,但並不是只有殘差網絡可以做到,FractalNet(分形網絡)便是如此。

分形是一個數學概念,指的是具有以非整數維形式填充空間的形態特徵,也就是說它的有效維度不是整數。不過我們這裡可以不用關注它的數學定義,而是關注它的,分形幾何結構的一部分具有和整體相似的結構,即自相似,如下圖形:

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

分形網絡,顧名思義也是這樣的特點了,局部的結構和全局相似,如下圖:

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

可以看到包含了各種長度不同的子路徑,從左到右:

第一列路徑只有一條,長度l。

第二列路徑兩條,長度l/2。

第三列路徑四條,長度l/4。

第二列路徑八條,長度l/8。

它與殘差網絡的不同之處在於,綠色模塊表示的非線性變換,即下一層不可能直接得到上一層的信號,而是經過了變換。

這樣的一種包含了不同深度的子網絡,與之前提過的stochastic depth有異曲同工之妙,它也可以被看作是不同深度的網絡的ensemble。

作者們通過隨機丟棄某些深度的方法也做了實驗,丟棄的樣例如下:

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

上面展示了兩種路徑,訓練時混合使用。

Global: 只選擇一條路徑,且是同一列,這條路徑就是獨立的強預測路徑。

Local:包含多個路徑,但是保證每一層至少要有一個輸入。

那麼結果如何呢?

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

如上,與各種網絡進行了對比,性能很好。在添加了drop-path技術後,還有極大提升,並且單獨只拿出其中最深的一條路徑所得的網絡,都有接近最好的模型的性能。

與殘差網絡的相關研究一樣,分形網絡的研究也表明路徑的有效長度才是訓練深度網絡的真正影響因素,不論是分形網絡,還是殘差網絡,都擁有更短的有效的梯度傳播路徑,從而使得深層網絡訓練更不容易過擬合。

[1] Larsson G, Maire M, Shakhnarovich G. Fractalnet: Ultra-deep neural networks without residuals[J]. arXiv preprint arXiv:1605.07648, 2016.

3 一切可連-環形網絡

這是一個基於跳層的複雜拓撲網絡結構。

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

CliqueNet

DenseNet通過複用不同層級的特徵圖,提高了通道的利用率,不過它的連接是前向的,即信息只能從淺層向深層傳遞,而CliqueNet則更進一步,信息的傳遞是雙向的。

結構如上圖所示,CliqueNet不僅有前傳的部分,還有後傳,這種網絡架構同時受到了RNN等循環網絡和注意力機制的啟發,使得特徵圖重複使用而且更加精煉。

CliqueNet的訓練包含兩個階段。第一個階段與 DenseNet 相同,即圖中的Stage-1,此時淺層特徵向深層進行傳遞,這可以視為初始化過程。

第二個階段中每一層不僅接受前面所有層的特徵圖,也接受後面層級的特徵圖反饋。可以看出這是一種循環的反饋結構,可以利用更高級視覺信息來精煉前面層級的特徵,實現空間注意力的效果。實驗結果表明,它有效地抑制了背景和噪聲的激活。

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

整體的網絡架構如上:網絡由很多的block組成,每一個block的stage II的特徵通過global pool串接生成最終的特徵。與DenseNet的不同之處在於,隨著網絡架構,每一個block的輸入輸出特徵圖不需要增加,從而更加高效,結果如下:

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

從上表可以看出,參數量和精度是非常具有優勢的。

[1] Yang Y, Zhong Z, Shen T, et al. Convolutional neural networks with alternately updated clique[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018: 2413-2422.

4 不規則的卷積核-可變形網絡

這是一個卷積核的形狀相關的網絡結構。

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

Deformable Convolution

卷積操作本身具有非常固定的幾何結構,標準的卷積操作是一個非常規矩的採樣,通常是正方形,如果卷積核採用非規矩的採樣,即它的形狀不再是標準的方形,而是任意形狀,則稱之為可形變卷積(Deformable Convolution)。

要描述上面的卷積核,不僅僅需要權重係數,還需要每一個點的偏移量,可變形卷積的思想最早以Active Convolution的形式被提出。

在Active Convolution中,卷積核的各個分量都有自己的偏移量,對於一個3*3的卷積,就包含了18個係數,其中X方向和Y方向的偏移量各9個。不過各個通道共享該係數,所以與輸入輸出通道數無關。

對於輸入通道為M,輸出通道為N,使用3*3的卷積的Active Convolution,權重參數量為M*N*3*3,偏移參數量為2*3*3,遠遠小於權重參數量,所以增加的參數量幾乎可以忽略不計。

在Deformable convolutional networks,每一個通道不共享偏移量,偏移參數量為2*M*3*3,增加的參數量比Active Convolution更多,但是相比卷積核權重參數量M*N*3*3,仍然小很多,所以不會大幅度增加模型的大小,而且實際實現時可以對輸出通道進行分組。

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

從上圖就可以看出可變形卷積有更靈活的感受野。

可變形卷積的實現只需要增加偏移量的學習,實際就是多了一個offset層,給offset輸出通道數變量,我們還可以對輸出進行分組,控制要學習的變形的種類。

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

最後看一下參數對比和性能。

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

實驗了各個網絡層的結果,參數量的增加很小,性能也是提升的。具體的效果如何,大家不妨用自己的實驗結果來驗證。

[1] Jeon Y , Kim J . Active Convolution: Learning the Shape of Convolution for Image Classification[J]. 2017.
[2] Dai J, Qi H, Xiong Y, et al. Deformable Convolutional Networks[J]. 2017.

5 測試可變的網絡-可分叉網絡

這是一個推理時動態變化的網絡結構。

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

BranchyNet

通常來說模型訓練完之後結構就是固定的,測試時圖片沿著固定的通路進行計算。然而測試樣本本身有不同的難度,簡單的樣本只需要少量的計算量就可以完成任務,困難的樣本則需要更多的計算量。

如上圖所示,它在正常網絡通道上包含了多個旁路分支,這樣的思想是基於觀察到隨著網絡的加深,表徵能力越來越強,大部分簡單的圖片可以在較淺層時學習到足以識別的特徵,如上圖中的Exit 1通道。一些更難的樣本需要進一步的學習,如上圖中的Exit 2通道,而只有極少數樣本需要整個網絡,如Exit3通道。這樣的思想可以實現精度和計算量的平衡,對於大部分樣本,可以用更小的計算量完成任務。

那麼如何判斷是否可以提前結束呢?在提出該網絡的論文中,作者採用分類信息熵,一旦該通道的分類信息熵低於某一個閾值,說明已經以很高的置信度獲得了分類的結果,直到最終的通道。

在訓練的時候,每一個通道都會對損失有貢獻,越靠近淺層的網絡權重越大。多通道的損失不僅增強了梯度信息,也在一定程度上實現了正則化。

將BranchyNet的設計思想用於LeNet,AlexNet,ResNet結構後,在維持性能的前提下,加速效果明顯。

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

對於擁有N個分支的網絡,需要的就是N-1個閾值,因為最後一個分支不需要閾值。

LeNet系列網絡可以讓超過90%的樣本在第一個分支提前終止,AlexNet提前終止樣本比例也超過一半,ResNet提前終止樣本比例超過了40%。

[1] Teerapittayanon S, McDanel B, Kung H T. Branchynet: Fast inference via early exiting from deep neural networks[C]//2016 23rd International Conference on Pattern Recognition (ICPR). IEEE, 2016: 2464-2469.

更多相關模型的解讀,在有三AI知識星球中進行剖析,感興趣的可以來,「知識星球」超3萬字的網絡結構解讀,學習必備

"

大家好,歡迎來到《知識星球》專欄,這個專欄專欄剖析有三AI知識星球的內容生態,今天的內容屬於網絡結構1000變板塊。

作者&編輯 | 言有三

你大概已經見慣了基本的卷積結構,對殘差網絡也瞭如指掌,對分組卷積也爛熟於心,也知道模型壓縮的一些技巧,不過今天這裡要說的,大部分同學可未必知道噢。

大眾的模型結構咱們不講,今天從卷積方式,通道變化,拓撲結構等各方面給大家介紹幾個模型,立志於在這個方向發文章的同學,可要看仔細了。

1 漸變的寬度-金字塔結構

這是一個通道數的變化方式相關的網絡結構。

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

Pyramidal Residual Networks

通常來說,網絡結構的通道數量變化是突變的,那有沒有網絡的增加是緩慢變化的呢?這就是金字塔結構了,名為Pyramidal Residual Networks。

大家都知道,CNN等結構在特徵圖尺度減小的時候,通常會隨之增加特徵圖的通道數目來增加高層的表達能力,這是模型性能的保證,大部分的模型其特徵圖通道數的增加是跳變的,比如從128增加到256。

之前我們講述過隨機刪減深度的殘差網絡證明了深度殘差網絡的深度其實沒有想象中那麼深,在文章“Residual networks behave like ensembles of relatively shallow networks[C]”中的研究也表明刪除掉一些block並不會顯著降低性能,但是降採樣的網絡層除外。

本篇文章基於這個現象,認為要降低降採樣的敏感性,必須要讓通道的變化是緩慢的,即隨著層數增加,每一層都慢慢增加寬度,命名為金字塔結構,如下。

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

這裡a圖是線性增加,b圖是指數級增加。

那麼到底性能如何呢?首先看下訓練曲線對比:

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

這裡兩個網絡的參數差不多,都是1.7M左右,從曲線上看,性能也相當。

另一個要關注的問題是,金字塔ResNet有沒有實現它的初衷,即改善降低分辨率的網絡層被刪除時帶來的性能下降,結果如下:

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

從結果看來,錯誤率確實降低了。更加具體的實驗結果,大家自己去看論文吧。

[1] Han D, Kim J, Kim J. Deep pyramidal residual networks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2017: 5927-5935.

2 分支眾多-分形結構

這是一個多分支結構相關的網絡結構。

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

FractalNet

殘差網絡可以使得上千層的網絡結構設計成為可能,但並不是只有殘差網絡可以做到,FractalNet(分形網絡)便是如此。

分形是一個數學概念,指的是具有以非整數維形式填充空間的形態特徵,也就是說它的有效維度不是整數。不過我們這裡可以不用關注它的數學定義,而是關注它的,分形幾何結構的一部分具有和整體相似的結構,即自相似,如下圖形:

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

分形網絡,顧名思義也是這樣的特點了,局部的結構和全局相似,如下圖:

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

可以看到包含了各種長度不同的子路徑,從左到右:

第一列路徑只有一條,長度l。

第二列路徑兩條,長度l/2。

第三列路徑四條,長度l/4。

第二列路徑八條,長度l/8。

它與殘差網絡的不同之處在於,綠色模塊表示的非線性變換,即下一層不可能直接得到上一層的信號,而是經過了變換。

這樣的一種包含了不同深度的子網絡,與之前提過的stochastic depth有異曲同工之妙,它也可以被看作是不同深度的網絡的ensemble。

作者們通過隨機丟棄某些深度的方法也做了實驗,丟棄的樣例如下:

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

上面展示了兩種路徑,訓練時混合使用。

Global: 只選擇一條路徑,且是同一列,這條路徑就是獨立的強預測路徑。

Local:包含多個路徑,但是保證每一層至少要有一個輸入。

那麼結果如何呢?

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

如上,與各種網絡進行了對比,性能很好。在添加了drop-path技術後,還有極大提升,並且單獨只拿出其中最深的一條路徑所得的網絡,都有接近最好的模型的性能。

與殘差網絡的相關研究一樣,分形網絡的研究也表明路徑的有效長度才是訓練深度網絡的真正影響因素,不論是分形網絡,還是殘差網絡,都擁有更短的有效的梯度傳播路徑,從而使得深層網絡訓練更不容易過擬合。

[1] Larsson G, Maire M, Shakhnarovich G. Fractalnet: Ultra-deep neural networks without residuals[J]. arXiv preprint arXiv:1605.07648, 2016.

3 一切可連-環形網絡

這是一個基於跳層的複雜拓撲網絡結構。

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

CliqueNet

DenseNet通過複用不同層級的特徵圖,提高了通道的利用率,不過它的連接是前向的,即信息只能從淺層向深層傳遞,而CliqueNet則更進一步,信息的傳遞是雙向的。

結構如上圖所示,CliqueNet不僅有前傳的部分,還有後傳,這種網絡架構同時受到了RNN等循環網絡和注意力機制的啟發,使得特徵圖重複使用而且更加精煉。

CliqueNet的訓練包含兩個階段。第一個階段與 DenseNet 相同,即圖中的Stage-1,此時淺層特徵向深層進行傳遞,這可以視為初始化過程。

第二個階段中每一層不僅接受前面所有層的特徵圖,也接受後面層級的特徵圖反饋。可以看出這是一種循環的反饋結構,可以利用更高級視覺信息來精煉前面層級的特徵,實現空間注意力的效果。實驗結果表明,它有效地抑制了背景和噪聲的激活。

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

整體的網絡架構如上:網絡由很多的block組成,每一個block的stage II的特徵通過global pool串接生成最終的特徵。與DenseNet的不同之處在於,隨著網絡架構,每一個block的輸入輸出特徵圖不需要增加,從而更加高效,結果如下:

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

從上表可以看出,參數量和精度是非常具有優勢的。

[1] Yang Y, Zhong Z, Shen T, et al. Convolutional neural networks with alternately updated clique[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018: 2413-2422.

4 不規則的卷積核-可變形網絡

這是一個卷積核的形狀相關的網絡結構。

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

Deformable Convolution

卷積操作本身具有非常固定的幾何結構,標準的卷積操作是一個非常規矩的採樣,通常是正方形,如果卷積核採用非規矩的採樣,即它的形狀不再是標準的方形,而是任意形狀,則稱之為可形變卷積(Deformable Convolution)。

要描述上面的卷積核,不僅僅需要權重係數,還需要每一個點的偏移量,可變形卷積的思想最早以Active Convolution的形式被提出。

在Active Convolution中,卷積核的各個分量都有自己的偏移量,對於一個3*3的卷積,就包含了18個係數,其中X方向和Y方向的偏移量各9個。不過各個通道共享該係數,所以與輸入輸出通道數無關。

對於輸入通道為M,輸出通道為N,使用3*3的卷積的Active Convolution,權重參數量為M*N*3*3,偏移參數量為2*3*3,遠遠小於權重參數量,所以增加的參數量幾乎可以忽略不計。

在Deformable convolutional networks,每一個通道不共享偏移量,偏移參數量為2*M*3*3,增加的參數量比Active Convolution更多,但是相比卷積核權重參數量M*N*3*3,仍然小很多,所以不會大幅度增加模型的大小,而且實際實現時可以對輸出通道進行分組。

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

從上圖就可以看出可變形卷積有更靈活的感受野。

可變形卷積的實現只需要增加偏移量的學習,實際就是多了一個offset層,給offset輸出通道數變量,我們還可以對輸出進行分組,控制要學習的變形的種類。

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

最後看一下參數對比和性能。

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

實驗了各個網絡層的結果,參數量的增加很小,性能也是提升的。具體的效果如何,大家不妨用自己的實驗結果來驗證。

[1] Jeon Y , Kim J . Active Convolution: Learning the Shape of Convolution for Image Classification[J]. 2017.
[2] Dai J, Qi H, Xiong Y, et al. Deformable Convolutional Networks[J]. 2017.

5 測試可變的網絡-可分叉網絡

這是一個推理時動態變化的網絡結構。

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

BranchyNet

通常來說模型訓練完之後結構就是固定的,測試時圖片沿著固定的通路進行計算。然而測試樣本本身有不同的難度,簡單的樣本只需要少量的計算量就可以完成任務,困難的樣本則需要更多的計算量。

如上圖所示,它在正常網絡通道上包含了多個旁路分支,這樣的思想是基於觀察到隨著網絡的加深,表徵能力越來越強,大部分簡單的圖片可以在較淺層時學習到足以識別的特徵,如上圖中的Exit 1通道。一些更難的樣本需要進一步的學習,如上圖中的Exit 2通道,而只有極少數樣本需要整個網絡,如Exit3通道。這樣的思想可以實現精度和計算量的平衡,對於大部分樣本,可以用更小的計算量完成任務。

那麼如何判斷是否可以提前結束呢?在提出該網絡的論文中,作者採用分類信息熵,一旦該通道的分類信息熵低於某一個閾值,說明已經以很高的置信度獲得了分類的結果,直到最終的通道。

在訓練的時候,每一個通道都會對損失有貢獻,越靠近淺層的網絡權重越大。多通道的損失不僅增強了梯度信息,也在一定程度上實現了正則化。

將BranchyNet的設計思想用於LeNet,AlexNet,ResNet結構後,在維持性能的前提下,加速效果明顯。

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

對於擁有N個分支的網絡,需要的就是N-1個閾值,因為最後一個分支不需要閾值。

LeNet系列網絡可以讓超過90%的樣本在第一個分支提前終止,AlexNet提前終止樣本比例也超過一半,ResNet提前終止樣本比例超過了40%。

[1] Teerapittayanon S, McDanel B, Kung H T. Branchynet: Fast inference via early exiting from deep neural networks[C]//2016 23rd International Conference on Pattern Recognition (ICPR). IEEE, 2016: 2464-2469.

更多相關模型的解讀,在有三AI知識星球中進行剖析,感興趣的可以來,「知識星球」超3萬字的網絡結構解讀,學習必備

「知識星球」卷積神經網絡有哪些大膽又新奇的設計,這裡有5個

暑期正濃,有三AI夏季划進行中,相比春季劃內容更難更全,且更加貼近工業界實戰,目標是系統性成長為中級CV算法工程師。這一次的報名週期會持續到國慶,請有需要的同學持續關注,有三AI“夏季劃”出爐,今夏進階中級CV算法工程師

"

相關推薦

推薦中...