'圖像與CNN是如何起源的？'

圖像處理人工智能電腦我在宮裡做廚師神經科學 CNN 月球加拿大技術物理英國有三AI 2019-07-17

作者 | 言有三

編輯 | 言有三

沒有一個經典的發現會是突然之間橫空出世，它總是需要一些積澱。提起卷積神經網絡，我們總會從LeNet5開始說起，但是LeNet5不是起點也不是終點，這一期扒一下圖像和CNN的發家歷史。

1 圖像

1.1 什麼是圖像

人們睜眼看世界，看的就是圖像。圖像的英文名是image，來於拉丁文imago，image如果用英文來定義，包含"representation, reflection, apparition, semblance, copy, visible form"等。

圖像有圖有像，兩者是有差別的。圖，是客觀世界的存在，從物理上說，是物體反射或透射光的分佈。而像，則是人的視覺系統所接受的圖在人腦中形成的認識。

所以先有圖，後有像。

人類的文明歷史，經過了從結繩記事，文字記事，到如今的圖片，視頻記事的發展歷史，正所謂一圖勝千言，我們不妨將圖片的發展史看作人類文明的發展史的一個縮影，並不過分。

作者 | 言有三

編輯 | 言有三

1 圖像

1.1 什麼是圖像

所以先有圖，後有像。

1.2 模擬圖像

所謂模擬圖像：就是通過某種物理量（如光、電等）的強弱變化來記錄圖像亮度信息。

模擬圖像的出現應該從1826年前後法國科學家Joseph Nicéphore Niépce發明第一張可以永久記錄的照片開始，到如今已將近兩百年，那一張圖片如下。

作者 | 言有三

編輯 | 言有三

1 圖像

1.1 什麼是圖像

所以先有圖，後有像。

1.2 模擬圖像

所謂模擬圖像：就是通過某種物理量（如光、電等）的強弱變化來記錄圖像亮度信息。

模擬圖像的出現應該從1826年前後法國科學家Joseph Nicéphore Niépce發明第一張可以永久記錄的照片開始，到如今已將近兩百年，那一張圖片如下。

從19世紀30年代到20世紀中期計算機的出現，中間有一百多年的歷史。那時候的圖像的發展史，實際上差不多就是攝影的發展史，所以我為什麼要玩攝影呢？

作者 | 言有三

編輯 | 言有三

1 圖像

1.1 什麼是圖像

所以先有圖，後有像。

1.2 模擬圖像

所謂模擬圖像：就是通過某種物理量（如光、電等）的強弱變化來記錄圖像亮度信息。

模擬圖像的出現應該從1826年前後法國科學家Joseph Nicéphore Niépce發明第一張可以永久記錄的照片開始，到如今已將近兩百年，那一張圖片如下。

當然，年紀大一點的肯定看過模擬電視。那一種沒有信號就拍一拍的感覺，自己懂。

作者 | 言有三

編輯 | 言有三

1 圖像

1.1 什麼是圖像

所以先有圖，後有像。

1.2 模擬圖像

所謂模擬圖像：就是通過某種物理量（如光、電等）的強弱變化來記錄圖像亮度信息。

模擬圖像的出現應該從1826年前後法國科學家Joseph Nicéphore Niépce發明第一張可以永久記錄的照片開始，到如今已將近兩百年，那一張圖片如下。

當然，年紀大一點的肯定看過模擬電視。那一種沒有信號就拍一拍的感覺，自己懂。

1.3 數字圖像

數字圖像的誕生並不與計算機完全掛鉤。

作者 | 言有三

編輯 | 言有三

1 圖像

1.1 什麼是圖像

所以先有圖，後有像。

1.2 模擬圖像

所謂模擬圖像：就是通過某種物理量（如光、電等）的強弱變化來記錄圖像亮度信息。

模擬圖像的出現應該從1826年前後法國科學家Joseph Nicéphore Niépce發明第一張可以永久記錄的照片開始，到如今已將近兩百年，那一張圖片如下。

當然，年紀大一點的肯定看過模擬電視。那一種沒有信號就拍一拍的感覺，自己懂。

1.3 數字圖像

數字圖像的誕生並不與計算機完全掛鉤。

戰爭往往是催生技術發展的最好外部因素，在第一次世界大戰（1914年7月28日至1918年11月11日）後的兩年，也就是1920年數字圖像被髮明瞭，用於報紙行業。

當時為了傳輸這一幅圖像，巴特蘭有線電視圖像傳輸系統

（Bartlane cable picture transmission system）被髮明，實際上主體就是一根海底電纜，從英國倫敦連接到美國紐約。

1921年實現了第一幅數字圖像的傳送，耗時3小時，編碼解碼都是用打印機來完成的。

當時用了5個灰度級進行編碼，大家知道現在用的是8個灰度級。

為什麼是5個灰度級呢，實際上這是因為人眼就只能分辨這麼多，分的再細也沒有用，可以感受一下下圖，5個灰度級和6個灰度級的差別。

作者 | 言有三

編輯 | 言有三

1 圖像

1.1 什麼是圖像

所以先有圖，後有像。

1.2 模擬圖像

所謂模擬圖像：就是通過某種物理量（如光、電等）的強弱變化來記錄圖像亮度信息。

模擬圖像的出現應該從1826年前後法國科學家Joseph Nicéphore Niépce發明第一張可以永久記錄的照片開始，到如今已將近兩百年，那一張圖片如下。

當然，年紀大一點的肯定看過模擬電視。那一種沒有信號就拍一拍的感覺，自己懂。

1.3 數字圖像

數字圖像的誕生並不與計算機完全掛鉤。

當時為了傳輸這一幅圖像，巴特蘭有線電視圖像傳輸系統

（Bartlane cable picture transmission system）被髮明，實際上主體就是一根海底電纜，從英國倫敦連接到美國紐約。

1921年實現了第一幅數字圖像的傳送，耗時3小時，編碼解碼都是用打印機來完成的。

當時用了5個灰度級進行編碼，大家知道現在用的是8個灰度級。

為什麼是5個灰度級呢，實際上這是因為人眼就只能分辨這麼多，分的再細也沒有用，可以感受一下下圖，5個灰度級和6個灰度級的差別。

20世紀50年代電子計算機被髮明，人們開始利用計算機來處理圖像，數字圖像處理則開始正式作為一門學科在20世紀60年代初期誕生。

早期的圖像處理的目的是改善圖像的質量，美國噴氣推進實驗室（JPL）對航天探測器徘徊者7號在1964年發回的幾千張月球照片使用了圖像處理技術，包括幾何校正、灰度變換、去除噪聲等方法進行處理，成功地繪製出月球表面地圖，這可以算是最早的數字圖像處理了。

然後慢慢的全世界人民就一起研究圖像了。

作者 | 言有三

編輯 | 言有三

1 圖像

1.1 什麼是圖像

所以先有圖，後有像。

1.2 模擬圖像

所謂模擬圖像：就是通過某種物理量（如光、電等）的強弱變化來記錄圖像亮度信息。

模擬圖像的出現應該從1826年前後法國科學家Joseph Nicéphore Niépce發明第一張可以永久記錄的照片開始，到如今已將近兩百年，那一張圖片如下。

當然，年紀大一點的肯定看過模擬電視。那一種沒有信號就拍一拍的感覺，自己懂。

1.3 數字圖像

數字圖像的誕生並不與計算機完全掛鉤。

當時為了傳輸這一幅圖像，巴特蘭有線電視圖像傳輸系統

（Bartlane cable picture transmission system）被髮明，實際上主體就是一根海底電纜，從英國倫敦連接到美國紐約。

1921年實現了第一幅數字圖像的傳送，耗時3小時，編碼解碼都是用打印機來完成的。

當時用了5個灰度級進行編碼，大家知道現在用的是8個灰度級。

為什麼是5個灰度級呢，實際上這是因為人眼就只能分辨這麼多，分的再細也沒有用，可以感受一下下圖，5個灰度級和6個灰度級的差別。

20世紀50年代電子計算機被髮明，人們開始利用計算機來處理圖像，數字圖像處理則開始正式作為一門學科在20世紀60年代初期誕生。

然後慢慢的全世界人民就一起研究圖像了。

模擬圖像和數字圖像的區別，大家可以感受一下。

作者 | 言有三

編輯 | 言有三

1 圖像

1.1 什麼是圖像

所以先有圖，後有像。

1.2 模擬圖像

所謂模擬圖像：就是通過某種物理量（如光、電等）的強弱變化來記錄圖像亮度信息。

模擬圖像的出現應該從1826年前後法國科學家Joseph Nicéphore Niépce發明第一張可以永久記錄的照片開始，到如今已將近兩百年，那一張圖片如下。

當然，年紀大一點的肯定看過模擬電視。那一種沒有信號就拍一拍的感覺，自己懂。

1.3 數字圖像

數字圖像的誕生並不與計算機完全掛鉤。

當時為了傳輸這一幅圖像，巴特蘭有線電視圖像傳輸系統

（Bartlane cable picture transmission system）被髮明，實際上主體就是一根海底電纜，從英國倫敦連接到美國紐約。

1921年實現了第一幅數字圖像的傳送，耗時3小時，編碼解碼都是用打印機來完成的。

當時用了5個灰度級進行編碼，大家知道現在用的是8個灰度級。

為什麼是5個灰度級呢，實際上這是因為人眼就只能分辨這麼多，分的再細也沒有用，可以感受一下下圖，5個灰度級和6個灰度級的差別。

20世紀50年代電子計算機被髮明，人們開始利用計算機來處理圖像，數字圖像處理則開始正式作為一門學科在20世紀60年代初期誕生。

然後慢慢的全世界人民就一起研究圖像了。

模擬圖像和數字圖像的區別，大家可以感受一下。

扯的有點多，總之圖像就是這麼來的。

2 視覺機制

圖像被髮明瞭，接下來就需要解析人眼到底是如何分析圖像，這個非常複雜。我們不做過多的講述，只描述與咱們的主題，也就是計算機視覺和神經網絡有關的部分。

2.1 感受野

現在每個人都知道卷積神經網絡中的感受野，但是要研究並證實到這一點，並不是誰都能做到。

大腦的基本感知單元就是神經元，一個神經元所影響的刺激區域就叫做神經元的感受野，即receptive field，不同神經元感受野的大小和性質都不同。

視覺感受野的研究來自於美國神經科學家哈特蘭（Keffer Hartline）和匈牙利裔美國神經科學家庫夫勒（Stephen W. Kuffler），1953年他們發現貓視網膜神經節細胞的感受野具有同心圓結構。

作者 | 言有三

編輯 | 言有三

1 圖像

1.1 什麼是圖像

所以先有圖，後有像。

1.2 模擬圖像

所謂模擬圖像：就是通過某種物理量（如光、電等）的強弱變化來記錄圖像亮度信息。

模擬圖像的出現應該從1826年前後法國科學家Joseph Nicéphore Niépce發明第一張可以永久記錄的照片開始，到如今已將近兩百年，那一張圖片如下。

當然，年紀大一點的肯定看過模擬電視。那一種沒有信號就拍一拍的感覺，自己懂。

1.3 數字圖像

數字圖像的誕生並不與計算機完全掛鉤。

當時為了傳輸這一幅圖像，巴特蘭有線電視圖像傳輸系統

（Bartlane cable picture transmission system）被髮明，實際上主體就是一根海底電纜，從英國倫敦連接到美國紐約。

1921年實現了第一幅數字圖像的傳送，耗時3小時，編碼解碼都是用打印機來完成的。

當時用了5個灰度級進行編碼，大家知道現在用的是8個灰度級。

為什麼是5個灰度級呢，實際上這是因為人眼就只能分辨這麼多，分的再細也沒有用，可以感受一下下圖，5個灰度級和6個灰度級的差別。

20世紀50年代電子計算機被髮明，人們開始利用計算機來處理圖像，數字圖像處理則開始正式作為一門學科在20世紀60年代初期誕生。

然後慢慢的全世界人民就一起研究圖像了。

模擬圖像和數字圖像的區別，大家可以感受一下。

扯的有點多，總之圖像就是這麼來的。

2 視覺機制

2.1 感受野

現在每個人都知道卷積神經網絡中的感受野，但是要研究並證實到這一點，並不是誰都能做到。

大腦的基本感知單元就是神經元，一個神經元所影響的刺激區域就叫做神經元的感受野，即receptive field，不同神經元感受野的大小和性質都不同。

很簡單很直觀是吧，但是需要驗證。如果今天你說你的眼睛或者某卷積核的感受野的不是一箇中心對稱的形狀，那麼恭喜你，可能要從源頭挖了計算機視覺的根了。

2.2 朝向敏感

儘管有了感受野，但是視覺感知的機制仍然沒有被得到更深刻地理解，直到視覺功能柱的發現。

加拿大神經生理學家David Hunter Hubel和瑞典神經科學家Torsten Nils Wiesel在20世紀50年代和60年代開始研究視覺機制，他們發現：有些細胞對某些處在一個角度上的線條或者明顯的邊緣線有特別的反應，這就是絕大多數視皮層細胞都具有的強烈的方位選擇性。

不僅如此，要引起這個細胞反應，直線的朝向還只能落在一個很小的角度範圍裡，也就是該細胞的感受野內。

相鄰的細胞還具有相似且重疊的感受野，隨著感受野的大小和位置在皮質上系統地變化，就形成了完整的視覺空間圖。

作者 | 言有三

編輯 | 言有三

1 圖像

1.1 什麼是圖像

所以先有圖，後有像。

1.2 模擬圖像

所謂模擬圖像：就是通過某種物理量（如光、電等）的強弱變化來記錄圖像亮度信息。

模擬圖像的出現應該從1826年前後法國科學家Joseph Nicéphore Niépce發明第一張可以永久記錄的照片開始，到如今已將近兩百年，那一張圖片如下。

當然，年紀大一點的肯定看過模擬電視。那一種沒有信號就拍一拍的感覺，自己懂。

1.3 數字圖像

數字圖像的誕生並不與計算機完全掛鉤。

當時為了傳輸這一幅圖像，巴特蘭有線電視圖像傳輸系統

（Bartlane cable picture transmission system）被髮明，實際上主體就是一根海底電纜，從英國倫敦連接到美國紐約。

1921年實現了第一幅數字圖像的傳送，耗時3小時，編碼解碼都是用打印機來完成的。

當時用了5個灰度級進行編碼，大家知道現在用的是8個灰度級。

為什麼是5個灰度級呢，實際上這是因為人眼就只能分辨這麼多，分的再細也沒有用，可以感受一下下圖，5個灰度級和6個灰度級的差別。

20世紀50年代電子計算機被髮明，人們開始利用計算機來處理圖像，數字圖像處理則開始正式作為一門學科在20世紀60年代初期誕生。

然後慢慢的全世界人民就一起研究圖像了。

模擬圖像和數字圖像的區別，大家可以感受一下。

扯的有點多，總之圖像就是這麼來的。

2 視覺機制

2.1 感受野

現在每個人都知道卷積神經網絡中的感受野，但是要研究並證實到這一點，並不是誰都能做到。

大腦的基本感知單元就是神經元，一個神經元所影響的刺激區域就叫做神經元的感受野，即receptive field，不同神經元感受野的大小和性質都不同。

2.2 朝向敏感

儘管有了感受野，但是視覺感知的機制仍然沒有被得到更深刻地理解，直到視覺功能柱的發現。

不僅如此，要引起這個細胞反應，直線的朝向還只能落在一個很小的角度範圍裡，也就是該細胞的感受野內。

相鄰的細胞還具有相似且重疊的感受野，隨著感受野的大小和位置在皮質上系統地變化，就形成了完整的視覺空間圖。

聽起來有點拗口，但是如果你願意去看論文【1】，會有收穫。

結論就是，貓眼對於灰度的絕對值不敏感，對於邊緣和朝向很敏感，這一點就是 “Marr視覺分層機制” 的基礎。

從1960年到1980年，兩人合作了20多年，細緻科學地研究了人眼視覺的機制，因此他們被認為是現代視覺科學之父，並於1981年一起獲得了諾貝爾生理學與醫學獎。

2.3 總結

David Hunter Hubel和Torsten Nils Wiesel在1968年發表的論文確定了大腦中兩種基本的視覺細胞類型:

(1)簡單單元，感知具有特定方向的特徵，對應LeNet5中的S卷積網絡層。

(2)複雜細胞，對簡單單元的結果做出反應，提高對位置，旋轉的不變性，對應LeNet5中的C池化層。

總之，視覺機制揭示了視覺的本質。感知是通過從低層細胞到高層細胞不斷抽象來完成，更高層的細胞，擁有更高級的感受野，並且對一些偏移等具有一定的不變性。

MIT的科學家馬爾（David Marr）基於此提出了他的視覺分層理論，即視覺包含初級視覺、中級視覺和高級視覺三個層次，感興趣可以自行了解。

作者 | 言有三

編輯 | 言有三

1 圖像

1.1 什麼是圖像

所以先有圖，後有像。

1.2 模擬圖像

所謂模擬圖像：就是通過某種物理量（如光、電等）的強弱變化來記錄圖像亮度信息。

模擬圖像的出現應該從1826年前後法國科學家Joseph Nicéphore Niépce發明第一張可以永久記錄的照片開始，到如今已將近兩百年，那一張圖片如下。

當然，年紀大一點的肯定看過模擬電視。那一種沒有信號就拍一拍的感覺，自己懂。

1.3 數字圖像

數字圖像的誕生並不與計算機完全掛鉤。

當時為了傳輸這一幅圖像，巴特蘭有線電視圖像傳輸系統

（Bartlane cable picture transmission system）被髮明，實際上主體就是一根海底電纜，從英國倫敦連接到美國紐約。

1921年實現了第一幅數字圖像的傳送，耗時3小時，編碼解碼都是用打印機來完成的。

當時用了5個灰度級進行編碼，大家知道現在用的是8個灰度級。

為什麼是5個灰度級呢，實際上這是因為人眼就只能分辨這麼多，分的再細也沒有用，可以感受一下下圖，5個灰度級和6個灰度級的差別。

20世紀50年代電子計算機被髮明，人們開始利用計算機來處理圖像，數字圖像處理則開始正式作為一門學科在20世紀60年代初期誕生。

然後慢慢的全世界人民就一起研究圖像了。

模擬圖像和數字圖像的區別，大家可以感受一下。

扯的有點多，總之圖像就是這麼來的。

2 視覺機制

2.1 感受野

現在每個人都知道卷積神經網絡中的感受野，但是要研究並證實到這一點，並不是誰都能做到。

大腦的基本感知單元就是神經元，一個神經元所影響的刺激區域就叫做神經元的感受野，即receptive field，不同神經元感受野的大小和性質都不同。

2.2 朝向敏感

儘管有了感受野，但是視覺感知的機制仍然沒有被得到更深刻地理解，直到視覺功能柱的發現。

不僅如此，要引起這個細胞反應，直線的朝向還只能落在一個很小的角度範圍裡，也就是該細胞的感受野內。

相鄰的細胞還具有相似且重疊的感受野，隨著感受野的大小和位置在皮質上系統地變化，就形成了完整的視覺空間圖。

聽起來有點拗口，但是如果你願意去看論文【1】，會有收穫。

結論就是，貓眼對於灰度的絕對值不敏感，對於邊緣和朝向很敏感，這一點就是 “Marr視覺分層機制” 的基礎。

2.3 總結

David Hunter Hubel和Torsten Nils Wiesel在1968年發表的論文確定了大腦中兩種基本的視覺細胞類型:

(1)簡單單元，感知具有特定方向的特徵，對應LeNet5中的S卷積網絡層。

(2)複雜細胞，對簡單單元的結果做出反應，提高對位置，旋轉的不變性，對應LeNet5中的C池化層。

MIT的科學家馬爾（David Marr）基於此提出了他的視覺分層理論，即視覺包含初級視覺、中級視覺和高級視覺三個層次，感興趣可以自行了解。

3 卷積神經網絡發家

我們在這裡，不說神經網絡的基礎，因為一說，就又需要扯一大堆的東西。

作者 | 言有三

編輯 | 言有三

1 圖像

1.1 什麼是圖像

所以先有圖，後有像。

1.2 模擬圖像

所謂模擬圖像：就是通過某種物理量（如光、電等）的強弱變化來記錄圖像亮度信息。

模擬圖像的出現應該從1826年前後法國科學家Joseph Nicéphore Niépce發明第一張可以永久記錄的照片開始，到如今已將近兩百年，那一張圖片如下。

當然，年紀大一點的肯定看過模擬電視。那一種沒有信號就拍一拍的感覺，自己懂。

1.3 數字圖像

數字圖像的誕生並不與計算機完全掛鉤。

當時為了傳輸這一幅圖像，巴特蘭有線電視圖像傳輸系統

（Bartlane cable picture transmission system）被髮明，實際上主體就是一根海底電纜，從英國倫敦連接到美國紐約。

1921年實現了第一幅數字圖像的傳送，耗時3小時，編碼解碼都是用打印機來完成的。

當時用了5個灰度級進行編碼，大家知道現在用的是8個灰度級。

為什麼是5個灰度級呢，實際上這是因為人眼就只能分辨這麼多，分的再細也沒有用，可以感受一下下圖，5個灰度級和6個灰度級的差別。

20世紀50年代電子計算機被髮明，人們開始利用計算機來處理圖像，數字圖像處理則開始正式作為一門學科在20世紀60年代初期誕生。

然後慢慢的全世界人民就一起研究圖像了。

模擬圖像和數字圖像的區別，大家可以感受一下。

扯的有點多，總之圖像就是這麼來的。

2 視覺機制

2.1 感受野

現在每個人都知道卷積神經網絡中的感受野，但是要研究並證實到這一點，並不是誰都能做到。

大腦的基本感知單元就是神經元，一個神經元所影響的刺激區域就叫做神經元的感受野，即receptive field，不同神經元感受野的大小和性質都不同。

2.2 朝向敏感

儘管有了感受野，但是視覺感知的機制仍然沒有被得到更深刻地理解，直到視覺功能柱的發現。

不僅如此，要引起這個細胞反應，直線的朝向還只能落在一個很小的角度範圍裡，也就是該細胞的感受野內。

相鄰的細胞還具有相似且重疊的感受野，隨著感受野的大小和位置在皮質上系統地變化，就形成了完整的視覺空間圖。

聽起來有點拗口，但是如果你願意去看論文【1】，會有收穫。

結論就是，貓眼對於灰度的絕對值不敏感，對於邊緣和朝向很敏感，這一點就是 “Marr視覺分層機制” 的基礎。

2.3 總結

David Hunter Hubel和Torsten Nils Wiesel在1968年發表的論文確定了大腦中兩種基本的視覺細胞類型:

(1)簡單單元，感知具有特定方向的特徵，對應LeNet5中的S卷積網絡層。

(2)複雜細胞，對簡單單元的結果做出反應，提高對位置，旋轉的不變性，對應LeNet5中的C池化層。

MIT的科學家馬爾（David Marr）基於此提出了他的視覺分層理論，即視覺包含初級視覺、中級視覺和高級視覺三個層次，感興趣可以自行了解。

3 卷積神經網絡發家

我們在這裡，不說神經網絡的基礎，因為一說，就又需要扯一大堆的東西。

直接上卷積神經網絡。

3.1 neocognitron【2】

neocognitron也是有前身，但那個就不說了。1980年推出的neocognitron是第一個真正意義上的級聯卷積神經網絡，不過它並不完全是現在的卷積的形式。

作者 | 言有三

編輯 | 言有三

1 圖像

1.1 什麼是圖像

所以先有圖，後有像。

1.2 模擬圖像

所謂模擬圖像：就是通過某種物理量（如光、電等）的強弱變化來記錄圖像亮度信息。

模擬圖像的出現應該從1826年前後法國科學家Joseph Nicéphore Niépce發明第一張可以永久記錄的照片開始，到如今已將近兩百年，那一張圖片如下。

當然，年紀大一點的肯定看過模擬電視。那一種沒有信號就拍一拍的感覺，自己懂。

1.3 數字圖像

數字圖像的誕生並不與計算機完全掛鉤。

當時為了傳輸這一幅圖像，巴特蘭有線電視圖像傳輸系統

（Bartlane cable picture transmission system）被髮明，實際上主體就是一根海底電纜，從英國倫敦連接到美國紐約。

1921年實現了第一幅數字圖像的傳送，耗時3小時，編碼解碼都是用打印機來完成的。

當時用了5個灰度級進行編碼，大家知道現在用的是8個灰度級。

為什麼是5個灰度級呢，實際上這是因為人眼就只能分辨這麼多，分的再細也沒有用，可以感受一下下圖，5個灰度級和6個灰度級的差別。

20世紀50年代電子計算機被髮明，人們開始利用計算機來處理圖像，數字圖像處理則開始正式作為一門學科在20世紀60年代初期誕生。

然後慢慢的全世界人民就一起研究圖像了。

模擬圖像和數字圖像的區別，大家可以感受一下。

扯的有點多，總之圖像就是這麼來的。

2 視覺機制

2.1 感受野

現在每個人都知道卷積神經網絡中的感受野，但是要研究並證實到這一點，並不是誰都能做到。

大腦的基本感知單元就是神經元，一個神經元所影響的刺激區域就叫做神經元的感受野，即receptive field，不同神經元感受野的大小和性質都不同。

2.2 朝向敏感

儘管有了感受野，但是視覺感知的機制仍然沒有被得到更深刻地理解，直到視覺功能柱的發現。

不僅如此，要引起這個細胞反應，直線的朝向還只能落在一個很小的角度範圍裡，也就是該細胞的感受野內。

相鄰的細胞還具有相似且重疊的感受野，隨著感受野的大小和位置在皮質上系統地變化，就形成了完整的視覺空間圖。

聽起來有點拗口，但是如果你願意去看論文【1】，會有收穫。

結論就是，貓眼對於灰度的絕對值不敏感，對於邊緣和朝向很敏感，這一點就是 “Marr視覺分層機制” 的基礎。

2.3 總結

David Hunter Hubel和Torsten Nils Wiesel在1968年發表的論文確定了大腦中兩種基本的視覺細胞類型:

(1)簡單單元，感知具有特定方向的特徵，對應LeNet5中的S卷積網絡層。

(2)複雜細胞，對簡單單元的結果做出反應，提高對位置，旋轉的不變性，對應LeNet5中的C池化層。

MIT的科學家馬爾（David Marr）基於此提出了他的視覺分層理論，即視覺包含初級視覺、中級視覺和高級視覺三個層次，感興趣可以自行了解。

3 卷積神經網絡發家

我們在這裡，不說神經網絡的基礎，因為一說，就又需要扯一大堆的東西。

直接上卷積神經網絡。

3.1 neocognitron【2】

neocognitron也是有前身，但那個就不說了。1980年推出的neocognitron是第一個真正意義上的級聯卷積神經網絡，不過它並不完全是現在的卷積的形式。

麻雀雖小，該有的其實都有了。

從上圖可以看出，這是一個cascade結構，按照S，C模塊進行重複串接，而且，信號的幅度是模擬的，即具有非負性。

它已經有了卷積神經網絡的基本特徵，比如輸入是原始的圖像信號，大小為19*19，說明學習是一個無監督的過程。

第一個S層，大小為19*19*12，通道數為12，卷積的大小為5*5。

第一個C層，大小為21*21*8，可知道進行了一個像素的邊界補齊，從S層到C層，進行了通道的融合，輸入通道為12，輸出為8。

依次串接S層和C層，直到最終的輸入1*10，即分類結果，這是用於識別0～9的手寫數字。

值得注意的從，從S到C層，輸入輸出神經元的連接並不是通過一個標準的滑動窗口的卷積來完成，下圖展示了其中的一個案例。

作者 | 言有三

編輯 | 言有三

1 圖像

1.1 什麼是圖像

所以先有圖，後有像。

1.2 模擬圖像

所謂模擬圖像：就是通過某種物理量（如光、電等）的強弱變化來記錄圖像亮度信息。

模擬圖像的出現應該從1826年前後法國科學家Joseph Nicéphore Niépce發明第一張可以永久記錄的照片開始，到如今已將近兩百年，那一張圖片如下。

當然，年紀大一點的肯定看過模擬電視。那一種沒有信號就拍一拍的感覺，自己懂。

1.3 數字圖像

數字圖像的誕生並不與計算機完全掛鉤。

當時為了傳輸這一幅圖像，巴特蘭有線電視圖像傳輸系統

（Bartlane cable picture transmission system）被髮明，實際上主體就是一根海底電纜，從英國倫敦連接到美國紐約。

1921年實現了第一幅數字圖像的傳送，耗時3小時，編碼解碼都是用打印機來完成的。

當時用了5個灰度級進行編碼，大家知道現在用的是8個灰度級。

為什麼是5個灰度級呢，實際上這是因為人眼就只能分辨這麼多，分的再細也沒有用，可以感受一下下圖，5個灰度級和6個灰度級的差別。

20世紀50年代電子計算機被髮明，人們開始利用計算機來處理圖像，數字圖像處理則開始正式作為一門學科在20世紀60年代初期誕生。

然後慢慢的全世界人民就一起研究圖像了。

模擬圖像和數字圖像的區別，大家可以感受一下。

扯的有點多，總之圖像就是這麼來的。

2 視覺機制

2.1 感受野

現在每個人都知道卷積神經網絡中的感受野，但是要研究並證實到這一點，並不是誰都能做到。

大腦的基本感知單元就是神經元，一個神經元所影響的刺激區域就叫做神經元的感受野，即receptive field，不同神經元感受野的大小和性質都不同。

2.2 朝向敏感

儘管有了感受野，但是視覺感知的機制仍然沒有被得到更深刻地理解，直到視覺功能柱的發現。

不僅如此，要引起這個細胞反應，直線的朝向還只能落在一個很小的角度範圍裡，也就是該細胞的感受野內。

相鄰的細胞還具有相似且重疊的感受野，隨著感受野的大小和位置在皮質上系統地變化，就形成了完整的視覺空間圖。

聽起來有點拗口，但是如果你願意去看論文【1】，會有收穫。

結論就是，貓眼對於灰度的絕對值不敏感，對於邊緣和朝向很敏感，這一點就是 “Marr視覺分層機制” 的基礎。

2.3 總結

David Hunter Hubel和Torsten Nils Wiesel在1968年發表的論文確定了大腦中兩種基本的視覺細胞類型:

(1)簡單單元，感知具有特定方向的特徵，對應LeNet5中的S卷積網絡層。

(2)複雜細胞，對簡單單元的結果做出反應，提高對位置，旋轉的不變性，對應LeNet5中的C池化層。

MIT的科學家馬爾（David Marr）基於此提出了他的視覺分層理論，即視覺包含初級視覺、中級視覺和高級視覺三個層次，感興趣可以自行了解。

3 卷積神經網絡發家

我們在這裡，不說神經網絡的基礎，因為一說，就又需要扯一大堆的東西。

直接上卷積神經網絡。

3.1 neocognitron【2】

neocognitron也是有前身，但那個就不說了。1980年推出的neocognitron是第一個真正意義上的級聯卷積神經網絡，不過它並不完全是現在的卷積的形式。

麻雀雖小，該有的其實都有了。

從上圖可以看出，這是一個cascade結構，按照S，C模塊進行重複串接，而且，信號的幅度是模擬的，即具有非負性。

它已經有了卷積神經網絡的基本特徵，比如輸入是原始的圖像信號，大小為19*19，說明學習是一個無監督的過程。

第一個S層，大小為19*19*12，通道數為12，卷積的大小為5*5。

第一個C層，大小為21*21*8，可知道進行了一個像素的邊界補齊，從S層到C層，進行了通道的融合，輸入通道為12，輸出為8。

依次串接S層和C層，直到最終的輸入1*10，即分類結果，這是用於識別0～9的手寫數字。

值得注意的從，從S到C層，輸入輸出神經元的連接並不是通過一個標準的滑動窗口的卷積來完成，下圖展示了其中的一個案例。

neocognitron對於要識別目標的小的形狀變化和位移擁有不變性，S層提取的局部特徵被輸入C層，完成了低層局部特徵到高層的整合。

從提出後，neocognitron也進行了多次的迭代。1988年為時間信號開發了新版本，1998年進行了改進，在2003年形成了通用版本並在同一年簡化。如果你感興趣，不妨去讀以前的文章，別有一番風味。

3.2 TDNN【3】

深度學習的突破其實是從語音開始的，卷積神經網絡早期一樣被用於語音。

時間延遲神經網絡（TDNN）是第一個用於聲音信號處理的卷積網絡，被Hinton組於1989年提出，三巨頭被稱為三巨頭，自然是有歷史功績的。

網絡結構如下，其實就是想辦法將語音信號變成圖像，這裡就是一個頻譜圖。

作者 | 言有三

編輯 | 言有三

1 圖像

1.1 什麼是圖像

所以先有圖，後有像。

1.2 模擬圖像

所謂模擬圖像：就是通過某種物理量（如光、電等）的強弱變化來記錄圖像亮度信息。

模擬圖像的出現應該從1826年前後法國科學家Joseph Nicéphore Niépce發明第一張可以永久記錄的照片開始，到如今已將近兩百年，那一張圖片如下。

當然，年紀大一點的肯定看過模擬電視。那一種沒有信號就拍一拍的感覺，自己懂。

1.3 數字圖像

數字圖像的誕生並不與計算機完全掛鉤。

當時為了傳輸這一幅圖像，巴特蘭有線電視圖像傳輸系統

（Bartlane cable picture transmission system）被髮明，實際上主體就是一根海底電纜，從英國倫敦連接到美國紐約。

1921年實現了第一幅數字圖像的傳送，耗時3小時，編碼解碼都是用打印機來完成的。

當時用了5個灰度級進行編碼，大家知道現在用的是8個灰度級。

為什麼是5個灰度級呢，實際上這是因為人眼就只能分辨這麼多，分的再細也沒有用，可以感受一下下圖，5個灰度級和6個灰度級的差別。

20世紀50年代電子計算機被髮明，人們開始利用計算機來處理圖像，數字圖像處理則開始正式作為一門學科在20世紀60年代初期誕生。

然後慢慢的全世界人民就一起研究圖像了。

模擬圖像和數字圖像的區別，大家可以感受一下。

扯的有點多，總之圖像就是這麼來的。

2 視覺機制

2.1 感受野

現在每個人都知道卷積神經網絡中的感受野，但是要研究並證實到這一點，並不是誰都能做到。

大腦的基本感知單元就是神經元，一個神經元所影響的刺激區域就叫做神經元的感受野，即receptive field，不同神經元感受野的大小和性質都不同。

2.2 朝向敏感

儘管有了感受野，但是視覺感知的機制仍然沒有被得到更深刻地理解，直到視覺功能柱的發現。

不僅如此，要引起這個細胞反應，直線的朝向還只能落在一個很小的角度範圍裡，也就是該細胞的感受野內。

相鄰的細胞還具有相似且重疊的感受野，隨著感受野的大小和位置在皮質上系統地變化，就形成了完整的視覺空間圖。

聽起來有點拗口，但是如果你願意去看論文【1】，會有收穫。

結論就是，貓眼對於灰度的絕對值不敏感，對於邊緣和朝向很敏感，這一點就是 “Marr視覺分層機制” 的基礎。

2.3 總結

David Hunter Hubel和Torsten Nils Wiesel在1968年發表的論文確定了大腦中兩種基本的視覺細胞類型:

(1)簡單單元，感知具有特定方向的特徵，對應LeNet5中的S卷積網絡層。

(2)複雜細胞，對簡單單元的結果做出反應，提高對位置，旋轉的不變性，對應LeNet5中的C池化層。

MIT的科學家馬爾（David Marr）基於此提出了他的視覺分層理論，即視覺包含初級視覺、中級視覺和高級視覺三個層次，感興趣可以自行了解。

3 卷積神經網絡發家

我們在這裡，不說神經網絡的基礎，因為一說，就又需要扯一大堆的東西。

直接上卷積神經網絡。

3.1 neocognitron【2】

neocognitron也是有前身，但那個就不說了。1980年推出的neocognitron是第一個真正意義上的級聯卷積神經網絡，不過它並不完全是現在的卷積的形式。

麻雀雖小，該有的其實都有了。

從上圖可以看出，這是一個cascade結構，按照S，C模塊進行重複串接，而且，信號的幅度是模擬的，即具有非負性。

它已經有了卷積神經網絡的基本特徵，比如輸入是原始的圖像信號，大小為19*19，說明學習是一個無監督的過程。

第一個S層，大小為19*19*12，通道數為12，卷積的大小為5*5。

第一個C層，大小為21*21*8，可知道進行了一個像素的邊界補齊，從S層到C層，進行了通道的融合，輸入通道為12，輸出為8。

依次串接S層和C層，直到最終的輸入1*10，即分類結果，這是用於識別0～9的手寫數字。

值得注意的從，從S到C層，輸入輸出神經元的連接並不是通過一個標準的滑動窗口的卷積來完成，下圖展示了其中的一個案例。

neocognitron對於要識別目標的小的形狀變化和位移擁有不變性，S層提取的局部特徵被輸入C層，完成了低層局部特徵到高層的整合。

3.2 TDNN【3】

深度學習的突破其實是從語音開始的，卷積神經網絡早期一樣被用於語音。

時間延遲神經網絡（TDNN）是第一個用於聲音信號處理的卷積網絡，被Hinton組於1989年提出，三巨頭被稱為三巨頭，自然是有歷史功績的。

網絡結構如下，其實就是想辦法將語音信號變成圖像，這裡就是一個頻譜圖。

正好筆者最近開始做語音，有時間，我回來細講。

3.3 LeNet-1【4】

終於，到了1989年，Yann LeCun和Y. Bengio等人（集齊三巨頭了吧）開始認真研究卷積神經網絡。後來10年的時間裡，LeNet系列網絡開始迭代，直到最後1998年的LeNet5。

LeNet5大家早就說爛了，我們也說過，下面就說說LeNet1吧。

其實LeNet1之前還有一個網絡，使用的輸入大小為16*16，有9298個樣本，網絡結構共包含3個隱藏層，分別是H1，H2，H3，感興趣可以去對應文末參考鏈接找資料。

作者 | 言有三

編輯 | 言有三

1 圖像

1.1 什麼是圖像

所以先有圖，後有像。

1.2 模擬圖像

所謂模擬圖像：就是通過某種物理量（如光、電等）的強弱變化來記錄圖像亮度信息。

模擬圖像的出現應該從1826年前後法國科學家Joseph Nicéphore Niépce發明第一張可以永久記錄的照片開始，到如今已將近兩百年，那一張圖片如下。

當然，年紀大一點的肯定看過模擬電視。那一種沒有信號就拍一拍的感覺，自己懂。

1.3 數字圖像

數字圖像的誕生並不與計算機完全掛鉤。

當時為了傳輸這一幅圖像，巴特蘭有線電視圖像傳輸系統

（Bartlane cable picture transmission system）被髮明，實際上主體就是一根海底電纜，從英國倫敦連接到美國紐約。

1921年實現了第一幅數字圖像的傳送，耗時3小時，編碼解碼都是用打印機來完成的。

當時用了5個灰度級進行編碼，大家知道現在用的是8個灰度級。

為什麼是5個灰度級呢，實際上這是因為人眼就只能分辨這麼多，分的再細也沒有用，可以感受一下下圖，5個灰度級和6個灰度級的差別。

20世紀50年代電子計算機被髮明，人們開始利用計算機來處理圖像，數字圖像處理則開始正式作為一門學科在20世紀60年代初期誕生。

然後慢慢的全世界人民就一起研究圖像了。

模擬圖像和數字圖像的區別，大家可以感受一下。

扯的有點多，總之圖像就是這麼來的。

2 視覺機制

2.1 感受野

現在每個人都知道卷積神經網絡中的感受野，但是要研究並證實到這一點，並不是誰都能做到。

大腦的基本感知單元就是神經元，一個神經元所影響的刺激區域就叫做神經元的感受野，即receptive field，不同神經元感受野的大小和性質都不同。

2.2 朝向敏感

儘管有了感受野，但是視覺感知的機制仍然沒有被得到更深刻地理解，直到視覺功能柱的發現。

不僅如此，要引起這個細胞反應，直線的朝向還只能落在一個很小的角度範圍裡，也就是該細胞的感受野內。

相鄰的細胞還具有相似且重疊的感受野，隨著感受野的大小和位置在皮質上系統地變化，就形成了完整的視覺空間圖。

聽起來有點拗口，但是如果你願意去看論文【1】，會有收穫。

結論就是，貓眼對於灰度的絕對值不敏感，對於邊緣和朝向很敏感，這一點就是 “Marr視覺分層機制” 的基礎。

2.3 總結

David Hunter Hubel和Torsten Nils Wiesel在1968年發表的論文確定了大腦中兩種基本的視覺細胞類型:

(1)簡單單元，感知具有特定方向的特徵，對應LeNet5中的S卷積網絡層。

(2)複雜細胞，對簡單單元的結果做出反應，提高對位置，旋轉的不變性，對應LeNet5中的C池化層。

MIT的科學家馬爾（David Marr）基於此提出了他的視覺分層理論，即視覺包含初級視覺、中級視覺和高級視覺三個層次，感興趣可以自行了解。

3 卷積神經網絡發家

我們在這裡，不說神經網絡的基礎，因為一說，就又需要扯一大堆的東西。

直接上卷積神經網絡。

3.1 neocognitron【2】

neocognitron也是有前身，但那個就不說了。1980年推出的neocognitron是第一個真正意義上的級聯卷積神經網絡，不過它並不完全是現在的卷積的形式。

麻雀雖小，該有的其實都有了。

從上圖可以看出，這是一個cascade結構，按照S，C模塊進行重複串接，而且，信號的幅度是模擬的，即具有非負性。

它已經有了卷積神經網絡的基本特徵，比如輸入是原始的圖像信號，大小為19*19，說明學習是一個無監督的過程。

第一個S層，大小為19*19*12，通道數為12，卷積的大小為5*5。

第一個C層，大小為21*21*8，可知道進行了一個像素的邊界補齊，從S層到C層，進行了通道的融合，輸入通道為12，輸出為8。

依次串接S層和C層，直到最終的輸入1*10，即分類結果，這是用於識別0～9的手寫數字。

值得注意的從，從S到C層，輸入輸出神經元的連接並不是通過一個標準的滑動窗口的卷積來完成，下圖展示了其中的一個案例。

neocognitron對於要識別目標的小的形狀變化和位移擁有不變性，S層提取的局部特徵被輸入C層，完成了低層局部特徵到高層的整合。

3.2 TDNN【3】

深度學習的突破其實是從語音開始的，卷積神經網絡早期一樣被用於語音。

時間延遲神經網絡（TDNN）是第一個用於聲音信號處理的卷積網絡，被Hinton組於1989年提出，三巨頭被稱為三巨頭，自然是有歷史功績的。

網絡結構如下，其實就是想辦法將語音信號變成圖像，這裡就是一個頻譜圖。

正好筆者最近開始做語音，有時間，我回來細講。

3.3 LeNet-1【4】

LeNet5大家早就說爛了，我們也說過，下面就說說LeNet1吧。

LeNet1的結構長上面這樣，一看就是“LeCun親生的兒子”，和大家見慣不慣的LeNet5很像了吧，下面把LeNet5也放出來看看。

作者 | 言有三

編輯 | 言有三

1 圖像

1.1 什麼是圖像

所以先有圖，後有像。

1.2 模擬圖像

所謂模擬圖像：就是通過某種物理量（如光、電等）的強弱變化來記錄圖像亮度信息。

模擬圖像的出現應該從1826年前後法國科學家Joseph Nicéphore Niépce發明第一張可以永久記錄的照片開始，到如今已將近兩百年，那一張圖片如下。

當然，年紀大一點的肯定看過模擬電視。那一種沒有信號就拍一拍的感覺，自己懂。

1.3 數字圖像

數字圖像的誕生並不與計算機完全掛鉤。

當時為了傳輸這一幅圖像，巴特蘭有線電視圖像傳輸系統

（Bartlane cable picture transmission system）被髮明，實際上主體就是一根海底電纜，從英國倫敦連接到美國紐約。

1921年實現了第一幅數字圖像的傳送，耗時3小時，編碼解碼都是用打印機來完成的。

當時用了5個灰度級進行編碼，大家知道現在用的是8個灰度級。

為什麼是5個灰度級呢，實際上這是因為人眼就只能分辨這麼多，分的再細也沒有用，可以感受一下下圖，5個灰度級和6個灰度級的差別。

20世紀50年代電子計算機被髮明，人們開始利用計算機來處理圖像，數字圖像處理則開始正式作為一門學科在20世紀60年代初期誕生。

然後慢慢的全世界人民就一起研究圖像了。

模擬圖像和數字圖像的區別，大家可以感受一下。

扯的有點多，總之圖像就是這麼來的。

2 視覺機制

2.1 感受野

現在每個人都知道卷積神經網絡中的感受野，但是要研究並證實到這一點，並不是誰都能做到。

大腦的基本感知單元就是神經元，一個神經元所影響的刺激區域就叫做神經元的感受野，即receptive field，不同神經元感受野的大小和性質都不同。

2.2 朝向敏感

儘管有了感受野，但是視覺感知的機制仍然沒有被得到更深刻地理解，直到視覺功能柱的發現。

不僅如此，要引起這個細胞反應，直線的朝向還只能落在一個很小的角度範圍裡，也就是該細胞的感受野內。

相鄰的細胞還具有相似且重疊的感受野，隨著感受野的大小和位置在皮質上系統地變化，就形成了完整的視覺空間圖。

聽起來有點拗口，但是如果你願意去看論文【1】，會有收穫。

結論就是，貓眼對於灰度的絕對值不敏感，對於邊緣和朝向很敏感，這一點就是 “Marr視覺分層機制” 的基礎。

2.3 總結

David Hunter Hubel和Torsten Nils Wiesel在1968年發表的論文確定了大腦中兩種基本的視覺細胞類型:

(1)簡單單元，感知具有特定方向的特徵，對應LeNet5中的S卷積網絡層。

(2)複雜細胞，對簡單單元的結果做出反應，提高對位置，旋轉的不變性，對應LeNet5中的C池化層。

MIT的科學家馬爾（David Marr）基於此提出了他的視覺分層理論，即視覺包含初級視覺、中級視覺和高級視覺三個層次，感興趣可以自行了解。

3 卷積神經網絡發家

我們在這裡，不說神經網絡的基礎，因為一說，就又需要扯一大堆的東西。

直接上卷積神經網絡。

3.1 neocognitron【2】

neocognitron也是有前身，但那個就不說了。1980年推出的neocognitron是第一個真正意義上的級聯卷積神經網絡，不過它並不完全是現在的卷積的形式。

麻雀雖小，該有的其實都有了。

從上圖可以看出，這是一個cascade結構，按照S，C模塊進行重複串接，而且，信號的幅度是模擬的，即具有非負性。

它已經有了卷積神經網絡的基本特徵，比如輸入是原始的圖像信號，大小為19*19，說明學習是一個無監督的過程。

第一個S層，大小為19*19*12，通道數為12，卷積的大小為5*5。

第一個C層，大小為21*21*8，可知道進行了一個像素的邊界補齊，從S層到C層，進行了通道的融合，輸入通道為12，輸出為8。

依次串接S層和C層，直到最終的輸入1*10，即分類結果，這是用於識別0～9的手寫數字。

值得注意的從，從S到C層，輸入輸出神經元的連接並不是通過一個標準的滑動窗口的卷積來完成，下圖展示了其中的一個案例。

neocognitron對於要識別目標的小的形狀變化和位移擁有不變性，S層提取的局部特徵被輸入C層，完成了低層局部特徵到高層的整合。

3.2 TDNN【3】

深度學習的突破其實是從語音開始的，卷積神經網絡早期一樣被用於語音。

時間延遲神經網絡（TDNN）是第一個用於聲音信號處理的卷積網絡，被Hinton組於1989年提出，三巨頭被稱為三巨頭，自然是有歷史功績的。

網絡結構如下，其實就是想辦法將語音信號變成圖像，這裡就是一個頻譜圖。

正好筆者最近開始做語音，有時間，我回來細講。

3.3 LeNet-1【4】

LeNet5大家早就說爛了，我們也說過，下面就說說LeNet1吧。

LeNet1的結構長上面這樣，一看就是“LeCun親生的兒子”，和大家見慣不慣的LeNet5很像了吧，下面把LeNet5也放出來看看。

無非就是輸入圖像大小，網絡寬度，深度的調整，這其實反映了當時束縛神經網絡發展的一個關鍵，硬件計算能力，因為反向傳播理論早就成熟了。

看來，出來混，還得有一身好裝備。

作者 | 言有三

編輯 | 言有三

1 圖像

1.1 什麼是圖像

所以先有圖，後有像。

1.2 模擬圖像

所謂模擬圖像：就是通過某種物理量（如光、電等）的強弱變化來記錄圖像亮度信息。

模擬圖像的出現應該從1826年前後法國科學家Joseph Nicéphore Niépce發明第一張可以永久記錄的照片開始，到如今已將近兩百年，那一張圖片如下。

當然，年紀大一點的肯定看過模擬電視。那一種沒有信號就拍一拍的感覺，自己懂。

1.3 數字圖像

數字圖像的誕生並不與計算機完全掛鉤。

當時為了傳輸這一幅圖像，巴特蘭有線電視圖像傳輸系統

（Bartlane cable picture transmission system）被髮明，實際上主體就是一根海底電纜，從英國倫敦連接到美國紐約。

1921年實現了第一幅數字圖像的傳送，耗時3小時，編碼解碼都是用打印機來完成的。

當時用了5個灰度級進行編碼，大家知道現在用的是8個灰度級。

為什麼是5個灰度級呢，實際上這是因為人眼就只能分辨這麼多，分的再細也沒有用，可以感受一下下圖，5個灰度級和6個灰度級的差別。

20世紀50年代電子計算機被髮明，人們開始利用計算機來處理圖像，數字圖像處理則開始正式作為一門學科在20世紀60年代初期誕生。

然後慢慢的全世界人民就一起研究圖像了。

模擬圖像和數字圖像的區別，大家可以感受一下。

扯的有點多，總之圖像就是這麼來的。

2 視覺機制

2.1 感受野

現在每個人都知道卷積神經網絡中的感受野，但是要研究並證實到這一點，並不是誰都能做到。

大腦的基本感知單元就是神經元，一個神經元所影響的刺激區域就叫做神經元的感受野，即receptive field，不同神經元感受野的大小和性質都不同。

2.2 朝向敏感

儘管有了感受野，但是視覺感知的機制仍然沒有被得到更深刻地理解，直到視覺功能柱的發現。

不僅如此，要引起這個細胞反應，直線的朝向還只能落在一個很小的角度範圍裡，也就是該細胞的感受野內。

相鄰的細胞還具有相似且重疊的感受野，隨著感受野的大小和位置在皮質上系統地變化，就形成了完整的視覺空間圖。

聽起來有點拗口，但是如果你願意去看論文【1】，會有收穫。

結論就是，貓眼對於灰度的絕對值不敏感，對於邊緣和朝向很敏感，這一點就是 “Marr視覺分層機制” 的基礎。

2.3 總結

David Hunter Hubel和Torsten Nils Wiesel在1968年發表的論文確定了大腦中兩種基本的視覺細胞類型:

(1)簡單單元，感知具有特定方向的特徵，對應LeNet5中的S卷積網絡層。

(2)複雜細胞，對簡單單元的結果做出反應，提高對位置，旋轉的不變性，對應LeNet5中的C池化層。

MIT的科學家馬爾（David Marr）基於此提出了他的視覺分層理論，即視覺包含初級視覺、中級視覺和高級視覺三個層次，感興趣可以自行了解。

3 卷積神經網絡發家

我們在這裡，不說神經網絡的基礎，因為一說，就又需要扯一大堆的東西。

直接上卷積神經網絡。

3.1 neocognitron【2】

neocognitron也是有前身，但那個就不說了。1980年推出的neocognitron是第一個真正意義上的級聯卷積神經網絡，不過它並不完全是現在的卷積的形式。

麻雀雖小，該有的其實都有了。

從上圖可以看出，這是一個cascade結構，按照S，C模塊進行重複串接，而且，信號的幅度是模擬的，即具有非負性。

它已經有了卷積神經網絡的基本特徵，比如輸入是原始的圖像信號，大小為19*19，說明學習是一個無監督的過程。

第一個S層，大小為19*19*12，通道數為12，卷積的大小為5*5。

第一個C層，大小為21*21*8，可知道進行了一個像素的邊界補齊，從S層到C層，進行了通道的融合，輸入通道為12，輸出為8。

依次串接S層和C層，直到最終的輸入1*10，即分類結果，這是用於識別0～9的手寫數字。

值得注意的從，從S到C層，輸入輸出神經元的連接並不是通過一個標準的滑動窗口的卷積來完成，下圖展示了其中的一個案例。

neocognitron對於要識別目標的小的形狀變化和位移擁有不變性，S層提取的局部特徵被輸入C層，完成了低層局部特徵到高層的整合。

3.2 TDNN【3】

深度學習的突破其實是從語音開始的，卷積神經網絡早期一樣被用於語音。

時間延遲神經網絡（TDNN）是第一個用於聲音信號處理的卷積網絡，被Hinton組於1989年提出，三巨頭被稱為三巨頭，自然是有歷史功績的。

網絡結構如下，其實就是想辦法將語音信號變成圖像，這裡就是一個頻譜圖。

正好筆者最近開始做語音，有時間，我回來細講。

3.3 LeNet-1【4】

LeNet5大家早就說爛了，我們也說過，下面就說說LeNet1吧。

LeNet1的結構長上面這樣，一看就是“LeCun親生的兒子”，和大家見慣不慣的LeNet5很像了吧，下面把LeNet5也放出來看看。

無非就是輸入圖像大小，網絡寬度，深度的調整，這其實反映了當時束縛神經網絡發展的一個關鍵，硬件計算能力，因為反向傳播理論早就成熟了。

看來，出來混，還得有一身好裝備。

後面要說的，就不在這篇文章裡了，盡情期待。

參考資料

[1] Hubel D H, Wiesel T N. Receptive fields, binocular interaction and functional architecture in the cat's visual cortex[J]. The Journal of physiology, 1962, 160(1): 106-154.

[2] Fukushima K. Neocognitron: A hierarchical neural network capable of visual pattern recognition[J]. Neural networks, 1988, 1(2): 119-130.

[3] Waibel A, Hanazawa T, Hinton G, et al. Phoneme recognition using time-delay neural networks[M]//Readings in speech recognition. 1990: 393-404.

[4] https://medium.com/@sh.tsang/paper-brief-review-of-lenet-1-lenet-4-lenet-5-boosted-lenet-4-image-classification-1f5f809dbf17

'圖像與CNN是如何起源的？'

1 圖像

1 圖像

1 圖像

1 圖像

1 圖像

1 圖像

1 圖像

1 圖像

1 圖像

2 視覺機制

1 圖像

2 視覺機制

1 圖像

2 視覺機制

1 圖像

2 視覺機制

3 卷積神經網絡發家

1 圖像

2 視覺機制

3 卷積神經網絡發家

1 圖像

2 視覺機制

3 卷積神經網絡發家

1 圖像

2 視覺機制

3 卷積神經網絡發家

1 圖像

2 視覺機制

3 卷積神經網絡發家

1 圖像

2 視覺機制

3 卷積神經網絡發家

1 圖像

2 視覺機制

3 卷積神經網絡發家

1 圖像

2 視覺機制

3 卷積神經網絡發家

參考資料

相關推薦