瞭解CNN這一篇就夠了——關於卷積神經網絡的介紹

人工智能 CNN 文章技術 Python 數學 AI中國 2019-06-20

點擊上方關注，All in AI中國

關於CNN，

第1部分:卷積神經網絡的介紹

CNN是什麼？：它們如何工作，以及如何在Python中從頭開始構建一個CNN。

在過去的幾年裡，卷積神經網絡(CNN)引起了人們的廣泛關注，尤其是因為它徹底的改變了計算機視覺領域。在這篇文章中，我們將以神經網絡的基本背景知識為基礎，探索什麼是CNN，瞭解它們是如何工作的，並在Python中從頭開始構建一個真正的CNN(僅使用numpy)。

準備好了嗎?讓我們開看看吧

1. 動機

CNN的經典用例是執行圖像分類，例如查看寵物的圖像並判斷它是貓還是狗。這看起來是一個簡單的任務，那為什麼不使用一個普通的神經網絡呢?

好問題！

原因1:圖像很大

現在用於計算機視覺問題的圖像通常是224x224或更大的。想象一下，構建一個神經網絡來處理224x224彩色圖像:包括圖像中的3個彩色通道(RGB)，得到224×224×3 = 150,528個輸入特徵!在這樣的網絡中，一個典型的隱含層可能有1024個節點，因此我們必須為第一層單獨訓練150,528 x 1024 = 1.5 +億個權重。我們的網絡將是巨大的，幾乎不可能訓練的。

我們也不需要那麼多權重。圖像的好處是，我們知道像素在相鄰的上下文中最有用。圖像中的物體是由小的局部特徵組成的，比如眼睛的圓形虹膜或一張紙的方角。從第一個隱藏層中的每個節點來說，查看每個像素看起來不是很浪費嗎？

原因二:立場可以改變

如果你訓練一個網絡來檢測狗，你希望它能夠檢測狗，不管它出現在圖像的什麼地方。想象一下，訓練一個網絡，它能很好地處理特定的狗的圖像，然後為它提供相同圖像的略微移位的版本。狗不會激活相同的神經元，因此網絡會有完全不同的反應！

我們很快就會看到CNN如何幫助我們解決這些問題。

2.數據集

在這篇文章中，我們將解決計算機視覺的"Hello，World！"：MNIST手寫數字分類問題。這很簡單：給定圖像，將其分類為數字。

MNIST數據集中的每個圖像都是28x28，幷包含了一個以中心為中心的灰度數字。

說實話，一個正常的神經網絡實際上可以很好地解決這個問題。你可以將每個圖像視為一個28x28 = 784維的向量，將其提供給一個784-dim的輸入層，堆疊幾個隱藏層，最後的輸出層包含10個節點，每個數字對應一個節點。

因為MNIST數據集包含小圖像居中，所以我們不會遇到上述的大小或移動問題。然而，在這篇文章的整個過程中請記住，大多數現實世界中的圖像分類問題並沒有這麼簡單。

那麼，現在你已經有足夠的積累了。讓我們正式進入CNN的世界!

3.卷積

什麼是卷積神經網絡？

它們基本上只是使用卷積層的神經網絡，即基於卷積數學運算的Conv層。 Conv圖層由一組濾鏡組成，你可以將其看作是數字的二維矩陣。這裡有一個例子3x3過濾器:

我們可以使用一個輸入圖像和一個過濾器通過將過濾器與輸入圖像進行卷積來生成一個輸出圖像。這包括

將過濾器覆蓋在圖像的某個位置上。
在過濾器中的值與其在圖像中的對應值之間執行元素級乘法。
總結所有元素產品。這個和是輸出圖像中目標像素的輸出值。
對所有位置重複。

旁註:我們(以及許多CNN實現)實際上在技術上使用的是互相關而不是卷積，但它們做的幾乎是一樣的。我不會在這篇文章中詳細討論它們之間的區別，因為這並不重要。

這四步描述有點抽象，我們來做個例子。看下這個微小的4x4灰度圖像和這個3x3濾鏡：

圖像中的數字表示像素強度，其中0為黑色，255為白色。我們將卷積輸入圖像和過濾器產生一個2x2輸出圖像:

首先，讓我們將濾鏡疊加在圖片的左上角：

接下來，我們在重疊圖像值和過濾器值之間執行逐元素乘法。以下是結果，從左上角開始向右，然後向下：

接下來，我們總結所有的結果。這是很容易:

最後，我們將結果放入輸出圖像的目標像素中。由於我們的過濾器覆蓋在輸入圖像的左上角，我們的目標像素是輸出圖像的左上角像素:

我們做同樣的事情來生成輸出圖像的其餘部分：

3.1這有什麼用?

讓我們縮小一下，在更高的層次上看這個。將圖像與過濾器進行卷積會做什麼?我們可以從我們一直使用的例子3x3過濾器開始，它通常被稱為垂直Sobel過濾器:

下面是一個垂直Sobel過濾器的例子:

同樣，還有一個水平Sobel過濾器:

看發生了什麼?Sobel過濾器是一種邊緣檢測器。垂直Sobel過濾器檢測垂直邊緣，水平Sobel過濾器檢測水平邊緣。輸出圖像現在很容易解釋:輸出圖像中的亮像素(高值像素)表示在原始圖像中有一個強邊緣。

你能看出為什麼邊緣檢測圖像可能比原始圖像更有用嗎？回想一下我們的MNIST手寫數字分類問題。在MNIST上訓練的CNN可以尋找數字1，例如，通過使用邊緣檢測過濾器並檢查圖像中心附近的兩個突出的垂直邊緣。通常，卷積有助於我們查找特定的本地化圖像特徵（如邊緣），我們可以在以後的網絡中使用。

3.2填充

還記得以前將4x4輸入圖像與3x3濾波器卷積得到2x2輸出圖像嗎?通常，我們希望輸出圖像與輸入圖像的大小相同。為此，我們在圖像周圍添加零，這樣我們就可以在更多的地方覆蓋過濾器。一個3x3的過濾器需要1像素的填充:

這稱為"相同"填充，因為輸入和輸出具有相同的尺寸。不使用任何填充，這是我們一直在做的，並將繼續為這篇文章做，有時被稱為"有效"填充。

3.3 Conv層（Conv Layers）

現在我們知道了圖像卷積是如何工作的以及它為什麼有用，讓我們看看它在CNN中的實際應用。如前所述，CNN包括conv層，它使用一組過濾器將輸入圖像轉換為輸出圖像。conv層的主要參數是它擁有的過濾器的數量。

對於MNIST CNN，我們將使用一個帶有8個過濾器的小conv層作為網絡的初始層。這意味著它將把28x28的輸入圖像轉換成26x26x8的容量：

提醒:輸出是26x26x8，而不是28x28x8，因為我們使用了有效的填充，這將輸入的寬度和高度降低了2。

conv層中的4個過濾器每個都產生一個26x26的輸出，因此它們疊加在一起構成一個26x26x8。所有這些都是因為3×3(過濾器大小)\ × 8(過濾器數量)= 72個權重!

3.4實施卷積

是時候把我們學到的東西寫進代碼裡了!我們將實現conv層的前饋部分，它負責將過濾器與輸入圖像進行卷積以生成輸出卷。為了簡單起見，我們假設過濾器總是3x3(這並不是真的，5x5和7x7過濾器也很常見)。

讓我們開始實現一個conv層類:

Conv3x3類只接受一個參數:過濾器的數量。在構造函數中，我們存儲過濾器的數量，並使用NumPy的randn()方法初始化一個隨機過濾器數組。

注意:如果初始值過大或過小，訓練網絡將無效。

接下來，實際的卷積:

iterate_regions()是一個輔助發生器的方法,收益率為我們所有有效3 x3的圖像區域。這對於以後實現該類的向後部分非常有用。

上面突出顯示了實際執行卷積的代碼行。讓我們來分解一下:

我們有im_region，一個包含相關圖像區域的3x3數組。
我們有self.filters，一個3d數組。
我們做im_region * self.filters，它使用numpy的廣播機制以元素方式乘以兩個數組。結果是一個3d數組，其尺寸與self.filters相同。
我們np.sum（）上一步的結果使用axis =（1,2），它產生一個長度為num_filters的1d數組，其中每個元素包含相應過濾器的卷積結果。
我們將結果分配給輸出[i，j]，其中包含輸出中像素（i，j）的卷積結果。

對輸出中的每個像素執行上面的序列，直到得到最終的輸出卷為止!讓我們測試一下我們的代碼:

目前看起來不錯。

注意:在Conv3x3實現中，為了簡單起見，我們假設輸入是一個2d numpy數組，因為MNIST圖像就是這樣存儲的。這對我們有用，因為我們使用它作為我們網絡的第一層，但大多數cnn有更多的Conv層。如果我們要構建一個更大的網絡，需要多次使用Conv3x3，那麼我們必須將輸入設置為3d numpy數組。

4. 池化

圖像中的相鄰像素往往具有相似的值，因此conv層通常也會為輸出中的相鄰像素生成相似的值。因此，conv層輸出中包含的大部分信息都是多餘的。例如，如果我們使用邊緣檢測過濾器，並在某個位置找到一個強邊緣，那麼我們很可能也會在距離原始位置1像素的位置找到一個相對較強的邊緣。然而，這些都是相同的邊緣!我們沒有發現任何新東西。

池化層解決了這個問題。他們所做的就是減少（通過猜測）在輸入中彙總值的輸入大小。池化層通常由一個簡單的操作完成，比如max、min或average。下面是一個最大池層的例子，池的大小為2: