'深度神經網絡、激活函數、梯度下降、反向傳播等概念的快速理解'

神經網絡的基本思想就是建立在感知器和激活函數上的。對於多個輸入，在神經網絡經過多個神經元計算之後，得到多個或者單個輸出。檢查輸出結果是否與期望的一致，如果不一致，就對神經網絡中神經元的權重進行調整，我們已經知道，神經元權重的細微調整會引起輸出結果的細微變化，這樣多個神經元組合起來，逐漸調整，直到符合預期的輸出結果，我們就可以認為神經網絡訓練成功了！這裡所說的訓練調整的方法，利用到了梯度下降法，對神經網絡進行反向傳播。

對神經網絡的訓練過程，就是不斷調整網絡中w和b的值，目標是整個網絡表現出我們想要的行為。

激活函數的理論解釋

激活函數是用來加入非線性因素的，解決線性模型所不能解決的問題。

激活函數用來對前面計算得到的結果做一個非線性計算，這樣，人工神經網絡的表現力會更好。

常見的激活函數有：sigmoid, tanh, relu 以及它們的變種。

TensorFlow 深度學習讀寫筆記

Python搭建開發環境-Anaconda+PyCharm的安裝和入門教程

Jupyter Notebook神器-免費體驗來自微軟的Azure Notebook

Windows 10 本地搭建TensorFlow（CPU版本）深度學習環境

主流深度學習框架-MXNet、Caffe、TensorFlow、Torch、Theano

機器學習算法和深度學習算法比較

TensorFlow 的計算模型、數據模型和運行模型

Windows下的Jupyter Notebook 安裝與自定義啟動（圖文詳解）

結合TensorFlow Playground理解神經網絡的主要功能

TensorFlow讀書筆記：使用placeholder填充方式讀取數據

記錄TensorFlow訓練過程中數據變化趨勢-weight、bias、loss等

記錄TensorFlow訓練過程中數據變化趨勢-直方圖（Histogram）

深度神經網絡的基本結構和思想

神經網絡的基本單位是神經元，每個神經元分別接受輸入和輸出，但與感知器（perceptron）不同的是，除了進行加權計算，還需要利用激活函數輸出。

網絡的最左邊一層被稱為輸入層，其中的神經元被稱為輸入神經元。

最右邊及輸出層包含輸出神經元。

中間層被稱為隱含層，因為裡面的神經元既不是輸入也不是輸出。下面的4層網絡具有2個隱含層。

對神經網絡的訓練過程，就是不斷調整網絡中w和b的值，目標是整個網絡表現出我們想要的行為。

激活函數的理論解釋

激活函數是用來加入非線性因素的，解決線性模型所不能解決的問題。

激活函數用來對前面計算得到的結果做一個非線性計算，這樣，人工神經網絡的表現力會更好。

常見的激活函數有：sigmoid, tanh, relu 以及它們的變種。

神經元節點 a的值，可以寫成向量的形式：

TensorFlow 深度學習讀寫筆記

Python搭建開發環境-Anaconda+PyCharm的安裝和入門教程

Jupyter Notebook神器-免費體驗來自微軟的Azure Notebook

Windows 10 本地搭建TensorFlow（CPU版本）深度學習環境

主流深度學習框架-MXNet、Caffe、TensorFlow、Torch、Theano

機器學習算法和深度學習算法比較

TensorFlow 的計算模型、數據模型和運行模型

Windows下的Jupyter Notebook 安裝與自定義啟動（圖文詳解）

結合TensorFlow Playground理解神經網絡的主要功能

TensorFlow讀書筆記：使用placeholder填充方式讀取數據

記錄TensorFlow訓練過程中數據變化趨勢-weight、bias、loss等

記錄TensorFlow訓練過程中數據變化趨勢-直方圖（Histogram）

深度神經網絡的基本結構和思想

神經網絡的基本單位是神經元，每個神經元分別接受輸入和輸出，但與感知器（perceptron）不同的是，除了進行加權計算，還需要利用激活函數輸出。

網絡的最左邊一層被稱為輸入層，其中的神經元被稱為輸入神經元。

最右邊及輸出層包含輸出神經元。

中間層被稱為隱含層，因為裡面的神經元既不是輸入也不是輸出。下面的4層網絡具有2個隱含層。

對神經網絡的訓練過程，就是不斷調整網絡中w和b的值，目標是整個網絡表現出我們想要的行為。

激活函數的理論解釋

激活函數是用來加入非線性因素的，解決線性模型所不能解決的問題。

激活函數用來對前面計算得到的結果做一個非線性計算，這樣，人工神經網絡的表現力會更好。

常見的激活函數有：sigmoid, tanh, relu 以及它們的變種。

神經元節點 a的值，可以寫成向量的形式：

再將每個節點的值的計算公式都整合在一起，寫成矩陣運算的方式：

TensorFlow 深度學習讀寫筆記

Python搭建開發環境-Anaconda+PyCharm的安裝和入門教程

Jupyter Notebook神器-免費體驗來自微軟的Azure Notebook

Windows 10 本地搭建TensorFlow（CPU版本）深度學習環境

主流深度學習框架-MXNet、Caffe、TensorFlow、Torch、Theano

機器學習算法和深度學習算法比較

TensorFlow 的計算模型、數據模型和運行模型

Windows下的Jupyter Notebook 安裝與自定義啟動（圖文詳解）

結合TensorFlow Playground理解神經網絡的主要功能

TensorFlow讀書筆記：使用placeholder填充方式讀取數據

記錄TensorFlow訓練過程中數據變化趨勢-weight、bias、loss等

記錄TensorFlow訓練過程中數據變化趨勢-直方圖（Histogram）

深度神經網絡的基本結構和思想

神經網絡的基本單位是神經元，每個神經元分別接受輸入和輸出，但與感知器（perceptron）不同的是，除了進行加權計算，還需要利用激活函數輸出。

網絡的最左邊一層被稱為輸入層，其中的神經元被稱為輸入神經元。

最右邊及輸出層包含輸出神經元。

中間層被稱為隱含層，因為裡面的神經元既不是輸入也不是輸出。下面的4層網絡具有2個隱含層。

對神經網絡的訓練過程，就是不斷調整網絡中w和b的值，目標是整個網絡表現出我們想要的行為。

激活函數的理論解釋

激活函數是用來加入非線性因素的，解決線性模型所不能解決的問題。

激活函數用來對前面計算得到的結果做一個非線性計算，這樣，人工神經網絡的表現力會更好。

常見的激活函數有：sigmoid, tanh, relu 以及它們的變種。

神經元節點 a的值，可以寫成向量的形式：

再將每個節點的值的計算公式都整合在一起，寫成矩陣運算的方式：

神經網絡中的一層，就是對數據的一次非線性映射。

Wx+B 實現了對輸入數據的範圍轉換、空間旋轉以及平移操作，而非線性的激活函數f() 則完成了對輸入數據原始空間的扭曲。

當網絡層數變多時，在前面層網絡已經學習到初步特徵的基礎上，後面層網絡可以形成更加高級的特徵，對原始空間的扭曲也更大。很多複雜的任務需要高度的非線性的分界面，深度更深的網絡可以比淺層的神經網絡有更好的表達。

梯度下降算法原理

梯度下降方法是常用的參數優化方法，經常被用在神經網絡中的參數更新過程中。

神經網絡中，將樣本中的輸入X和輸出Y當做已知值（對於一個樣本[X,Y]，其中X和Y分別是標準的輸入值和輸出值，X輸入到模型中計算得到Y，但是模型中的參數值我們並不知道，所以我們的做法是隨機初始化模型的參數，不斷更新迭代這些參數，使得模型的輸出與Y接近），將連接權（weight）和偏置值（bias）當做自變量，誤差L（loss 損失函數的值）作為因變量。

梯度下降的目的是找到全部連接權和偏置值在取何值的情況下誤差最小。

經常有人把梯度下降的過程比作從山頂走到谷底，一次走多遠比作“學習率（Learning Rate）”。那麼，它的數學表現形式是什麼呢？

TensorFlow 深度學習讀寫筆記

Python搭建開發環境-Anaconda+PyCharm的安裝和入門教程

Jupyter Notebook神器-免費體驗來自微軟的Azure Notebook

Windows 10 本地搭建TensorFlow（CPU版本）深度學習環境

主流深度學習框架-MXNet、Caffe、TensorFlow、Torch、Theano

機器學習算法和深度學習算法比較

TensorFlow 的計算模型、數據模型和運行模型

Windows下的Jupyter Notebook 安裝與自定義啟動（圖文詳解）

結合TensorFlow Playground理解神經網絡的主要功能

TensorFlow讀書筆記：使用placeholder填充方式讀取數據

記錄TensorFlow訓練過程中數據變化趨勢-weight、bias、loss等

記錄TensorFlow訓練過程中數據變化趨勢-直方圖（Histogram）

深度神經網絡的基本結構和思想

神經網絡的基本單位是神經元，每個神經元分別接受輸入和輸出，但與感知器（perceptron）不同的是，除了進行加權計算，還需要利用激活函數輸出。

網絡的最左邊一層被稱為輸入層，其中的神經元被稱為輸入神經元。

最右邊及輸出層包含輸出神經元。

中間層被稱為隱含層，因為裡面的神經元既不是輸入也不是輸出。下面的4層網絡具有2個隱含層。

對神經網絡的訓練過程，就是不斷調整網絡中w和b的值，目標是整個網絡表現出我們想要的行為。

激活函數的理論解釋

激活函數是用來加入非線性因素的，解決線性模型所不能解決的問題。

激活函數用來對前面計算得到的結果做一個非線性計算，這樣，人工神經網絡的表現力會更好。

常見的激活函數有：sigmoid, tanh, relu 以及它們的變種。

神經元節點 a的值，可以寫成向量的形式：

再將每個節點的值的計算公式都整合在一起，寫成矩陣運算的方式：

神經網絡中的一層，就是對數據的一次非線性映射。

Wx+B 實現了對輸入數據的範圍轉換、空間旋轉以及平移操作，而非線性的激活函數f() 則完成了對輸入數據原始空間的扭曲。

梯度下降算法原理

梯度下降方法是常用的參數優化方法，經常被用在神經網絡中的參數更新過程中。

梯度下降的目的是找到全部連接權和偏置值在取何值的情況下誤差最小。

經常有人把梯度下降的過程比作從山頂走到谷底，一次走多遠比作“學習率（Learning Rate）”。那麼，它的數學表現形式是什麼呢？

這就是梯度下降算法的迭代公式，當梯度下降為零時，w、b收斂，訓練結束。

其中 α 是學習率（Learing Rate）；另外兩個分別是損失函數對W和b的偏導數。

用來訓練神經網絡的反向傳播算法是梯度下降法，它需要計算損失函數對眾多權重（weight）和偏置值（bias）的偏導數。

反向傳播算法

（1）殘差δ定義：損失函數對神經元節點v 偏導數。

TensorFlow 深度學習讀寫筆記

Python搭建開發環境-Anaconda+PyCharm的安裝和入門教程

Jupyter Notebook神器-免費體驗來自微軟的Azure Notebook

Windows 10 本地搭建TensorFlow（CPU版本）深度學習環境

主流深度學習框架-MXNet、Caffe、TensorFlow、Torch、Theano

機器學習算法和深度學習算法比較

TensorFlow 的計算模型、數據模型和運行模型

Windows下的Jupyter Notebook 安裝與自定義啟動（圖文詳解）

結合TensorFlow Playground理解神經網絡的主要功能

TensorFlow讀書筆記：使用placeholder填充方式讀取數據

記錄TensorFlow訓練過程中數據變化趨勢-weight、bias、loss等

記錄TensorFlow訓練過程中數據變化趨勢-直方圖（Histogram）

深度神經網絡的基本結構和思想

神經網絡的基本單位是神經元，每個神經元分別接受輸入和輸出，但與感知器（perceptron）不同的是，除了進行加權計算，還需要利用激活函數輸出。

網絡的最左邊一層被稱為輸入層，其中的神經元被稱為輸入神經元。

最右邊及輸出層包含輸出神經元。

中間層被稱為隱含層，因為裡面的神經元既不是輸入也不是輸出。下面的4層網絡具有2個隱含層。

對神經網絡的訓練過程，就是不斷調整網絡中w和b的值，目標是整個網絡表現出我們想要的行為。

激活函數的理論解釋

激活函數是用來加入非線性因素的，解決線性模型所不能解決的問題。

激活函數用來對前面計算得到的結果做一個非線性計算，這樣，人工神經網絡的表現力會更好。

常見的激活函數有：sigmoid, tanh, relu 以及它們的變種。

神經元節點 a的值，可以寫成向量的形式：

再將每個節點的值的計算公式都整合在一起，寫成矩陣運算的方式：

神經網絡中的一層，就是對數據的一次非線性映射。

Wx+B 實現了對輸入數據的範圍轉換、空間旋轉以及平移操作，而非線性的激活函數f() 則完成了對輸入數據原始空間的扭曲。

梯度下降算法原理

梯度下降方法是常用的參數優化方法，經常被用在神經網絡中的參數更新過程中。

梯度下降的目的是找到全部連接權和偏置值在取何值的情況下誤差最小。

經常有人把梯度下降的過程比作從山頂走到谷底，一次走多遠比作“學習率（Learning Rate）”。那麼，它的數學表現形式是什麼呢？

這就是梯度下降算法的迭代公式，當梯度下降為零時，w、b收斂，訓練結束。

其中 α 是學習率（Learing Rate）；另外兩個分別是損失函數對W和b的偏導數。

用來訓練神經網絡的反向傳播算法是梯度下降法，它需要計算損失函數對眾多權重（weight）和偏置值（bias）的偏導數。

反向傳播算法

（1）殘差δ定義：損失函數對神經元節點v 偏導數。

利用殘差可以以統一的形式表示各層節點的連接權和偏置值的迭代公式。

計算損失函數對權值 w 和 b 的偏導數，可以轉換為計算每一層每個節點的“殘差”。

TensorFlow 深度學習讀寫筆記

Python搭建開發環境-Anaconda+PyCharm的安裝和入門教程

Jupyter Notebook神器-免費體驗來自微軟的Azure Notebook

Windows 10 本地搭建TensorFlow（CPU版本）深度學習環境

主流深度學習框架-MXNet、Caffe、TensorFlow、Torch、Theano

機器學習算法和深度學習算法比較

TensorFlow 的計算模型、數據模型和運行模型

Windows下的Jupyter Notebook 安裝與自定義啟動（圖文詳解）

結合TensorFlow Playground理解神經網絡的主要功能

TensorFlow讀書筆記：使用placeholder填充方式讀取數據

記錄TensorFlow訓練過程中數據變化趨勢-weight、bias、loss等

記錄TensorFlow訓練過程中數據變化趨勢-直方圖（Histogram）

深度神經網絡的基本結構和思想

神經網絡的基本單位是神經元，每個神經元分別接受輸入和輸出，但與感知器（perceptron）不同的是，除了進行加權計算，還需要利用激活函數輸出。

網絡的最左邊一層被稱為輸入層，其中的神經元被稱為輸入神經元。

最右邊及輸出層包含輸出神經元。

中間層被稱為隱含層，因為裡面的神經元既不是輸入也不是輸出。下面的4層網絡具有2個隱含層。

對神經網絡的訓練過程，就是不斷調整網絡中w和b的值，目標是整個網絡表現出我們想要的行為。

激活函數的理論解釋

激活函數是用來加入非線性因素的，解決線性模型所不能解決的問題。

激活函數用來對前面計算得到的結果做一個非線性計算，這樣，人工神經網絡的表現力會更好。

常見的激活函數有：sigmoid, tanh, relu 以及它們的變種。

神經元節點 a的值，可以寫成向量的形式：

再將每個節點的值的計算公式都整合在一起，寫成矩陣運算的方式：

神經網絡中的一層，就是對數據的一次非線性映射。

Wx+B 實現了對輸入數據的範圍轉換、空間旋轉以及平移操作，而非線性的激活函數f() 則完成了對輸入數據原始空間的扭曲。

梯度下降算法原理

梯度下降方法是常用的參數優化方法，經常被用在神經網絡中的參數更新過程中。

梯度下降的目的是找到全部連接權和偏置值在取何值的情況下誤差最小。

經常有人把梯度下降的過程比作從山頂走到谷底，一次走多遠比作“學習率（Learning Rate）”。那麼，它的數學表現形式是什麼呢？

這就是梯度下降算法的迭代公式，當梯度下降為零時，w、b收斂，訓練結束。

其中 α 是學習率（Learing Rate）；另外兩個分別是損失函數對W和b的偏導數。

用來訓練神經網絡的反向傳播算法是梯度下降法，它需要計算損失函數對眾多權重（weight）和偏置值（bias）的偏導數。

反向傳播算法

（1）殘差δ定義：損失函數對神經元節點v 偏導數。

利用殘差可以以統一的形式表示各層節點的連接權和偏置值的迭代公式。

計算損失函數對權值 w 和 b 的偏導數，可以轉換為計算每一層每個節點的“殘差”。

最後一層的殘差計算公式（省去推導過程）：

TensorFlow 深度學習讀寫筆記

Python搭建開發環境-Anaconda+PyCharm的安裝和入門教程

Jupyter Notebook神器-免費體驗來自微軟的Azure Notebook

Windows 10 本地搭建TensorFlow（CPU版本）深度學習環境

主流深度學習框架-MXNet、Caffe、TensorFlow、Torch、Theano

機器學習算法和深度學習算法比較

TensorFlow 的計算模型、數據模型和運行模型

Windows下的Jupyter Notebook 安裝與自定義啟動（圖文詳解）

結合TensorFlow Playground理解神經網絡的主要功能

TensorFlow讀書筆記：使用placeholder填充方式讀取數據

記錄TensorFlow訓練過程中數據變化趨勢-weight、bias、loss等

記錄TensorFlow訓練過程中數據變化趨勢-直方圖（Histogram）

深度神經網絡的基本結構和思想

神經網絡的基本單位是神經元，每個神經元分別接受輸入和輸出，但與感知器（perceptron）不同的是，除了進行加權計算，還需要利用激活函數輸出。

網絡的最左邊一層被稱為輸入層，其中的神經元被稱為輸入神經元。

最右邊及輸出層包含輸出神經元。

中間層被稱為隱含層，因為裡面的神經元既不是輸入也不是輸出。下面的4層網絡具有2個隱含層。

對神經網絡的訓練過程，就是不斷調整網絡中w和b的值，目標是整個網絡表現出我們想要的行為。

激活函數的理論解釋

激活函數是用來加入非線性因素的，解決線性模型所不能解決的問題。

激活函數用來對前面計算得到的結果做一個非線性計算，這樣，人工神經網絡的表現力會更好。

常見的激活函數有：sigmoid, tanh, relu 以及它們的變種。

神經元節點 a的值，可以寫成向量的形式：

再將每個節點的值的計算公式都整合在一起，寫成矩陣運算的方式：

神經網絡中的一層，就是對數據的一次非線性映射。

Wx+B 實現了對輸入數據的範圍轉換、空間旋轉以及平移操作，而非線性的激活函數f() 則完成了對輸入數據原始空間的扭曲。

梯度下降算法原理

梯度下降方法是常用的參數優化方法，經常被用在神經網絡中的參數更新過程中。

梯度下降的目的是找到全部連接權和偏置值在取何值的情況下誤差最小。

經常有人把梯度下降的過程比作從山頂走到谷底，一次走多遠比作“學習率（Learning Rate）”。那麼，它的數學表現形式是什麼呢？

這就是梯度下降算法的迭代公式，當梯度下降為零時，w、b收斂，訓練結束。

其中 α 是學習率（Learing Rate）；另外兩個分別是損失函數對W和b的偏導數。

用來訓練神經網絡的反向傳播算法是梯度下降法，它需要計算損失函數對眾多權重（weight）和偏置值（bias）的偏導數。

反向傳播算法

（1）殘差δ定義：損失函數對神經元節點v 偏導數。

利用殘差可以以統一的形式表示各層節點的連接權和偏置值的迭代公式。

計算損失函數對權值 w 和 b 的偏導數，可以轉換為計算每一層每個節點的“殘差”。

最後一層的殘差計算公式（省去推導過程）：

即輸出層的第 i 個節點的殘差為：（該點的激活值a-該點的真實值y）*該點激活函數f() 對該點值（v）的導數。

TensorFlow 深度學習讀寫筆記

Python搭建開發環境-Anaconda+PyCharm的安裝和入門教程

Jupyter Notebook神器-免費體驗來自微軟的Azure Notebook

Windows 10 本地搭建TensorFlow（CPU版本）深度學習環境

主流深度學習框架-MXNet、Caffe、TensorFlow、Torch、Theano

機器學習算法和深度學習算法比較

TensorFlow 的計算模型、數據模型和運行模型

Windows下的Jupyter Notebook 安裝與自定義啟動（圖文詳解）

結合TensorFlow Playground理解神經網絡的主要功能

TensorFlow讀書筆記：使用placeholder填充方式讀取數據

記錄TensorFlow訓練過程中數據變化趨勢-weight、bias、loss等

記錄TensorFlow訓練過程中數據變化趨勢-直方圖（Histogram）

深度神經網絡的基本結構和思想

神經網絡的基本單位是神經元，每個神經元分別接受輸入和輸出，但與感知器（perceptron）不同的是，除了進行加權計算，還需要利用激活函數輸出。

網絡的最左邊一層被稱為輸入層，其中的神經元被稱為輸入神經元。

最右邊及輸出層包含輸出神經元。

中間層被稱為隱含層，因為裡面的神經元既不是輸入也不是輸出。下面的4層網絡具有2個隱含層。

對神經網絡的訓練過程，就是不斷調整網絡中w和b的值，目標是整個網絡表現出我們想要的行為。

激活函數的理論解釋

激活函數是用來加入非線性因素的，解決線性模型所不能解決的問題。

激活函數用來對前面計算得到的結果做一個非線性計算，這樣，人工神經網絡的表現力會更好。

常見的激活函數有：sigmoid, tanh, relu 以及它們的變種。

神經元節點 a的值，可以寫成向量的形式：

再將每個節點的值的計算公式都整合在一起，寫成矩陣運算的方式：

神經網絡中的一層，就是對數據的一次非線性映射。

Wx+B 實現了對輸入數據的範圍轉換、空間旋轉以及平移操作，而非線性的激活函數f() 則完成了對輸入數據原始空間的扭曲。

梯度下降算法原理

梯度下降方法是常用的參數優化方法，經常被用在神經網絡中的參數更新過程中。

梯度下降的目的是找到全部連接權和偏置值在取何值的情況下誤差最小。

經常有人把梯度下降的過程比作從山頂走到谷底，一次走多遠比作“學習率（Learning Rate）”。那麼，它的數學表現形式是什麼呢？

這就是梯度下降算法的迭代公式，當梯度下降為零時，w、b收斂，訓練結束。

其中 α 是學習率（Learing Rate）；另外兩個分別是損失函數對W和b的偏導數。

用來訓練神經網絡的反向傳播算法是梯度下降法，它需要計算損失函數對眾多權重（weight）和偏置值（bias）的偏導數。

反向傳播算法

（1）殘差δ定義：損失函數對神經元節點v 偏導數。

利用殘差可以以統一的形式表示各層節點的連接權和偏置值的迭代公式。

計算損失函數對權值 w 和 b 的偏導數，可以轉換為計算每一層每個節點的“殘差”。

最後一層的殘差計算公式（省去推導過程）：

即輸出層的第 i 個節點的殘差為：（該點的激活值a-該點的真實值y）*該點激活函數f() 對該點值（v）的導數。

對於第K-1層的殘差，可以根第K層的殘差計算出來。

倒數第二層的第 i 個節點的殘差的值，等於最後一層所有節點的殘差值和連接此節點的權值 w 相乘之後的累加，再乘以此節點上的激活函數對它的導數值。

不斷地重複這個過程，就得到了K-3， K-4， K-5，…2層上所有節點的殘差值。

（2）基於殘差，求偏導數，計算更新值

在計算所有節點上的殘差之後，就可以根據公式得到損失函數對所有W和b的偏導數：

TensorFlow 深度學習讀寫筆記

Python搭建開發環境-Anaconda+PyCharm的安裝和入門教程

Jupyter Notebook神器-免費體驗來自微軟的Azure Notebook

Windows 10 本地搭建TensorFlow（CPU版本）深度學習環境

主流深度學習框架-MXNet、Caffe、TensorFlow、Torch、Theano

機器學習算法和深度學習算法比較

TensorFlow 的計算模型、數據模型和運行模型

Windows下的Jupyter Notebook 安裝與自定義啟動（圖文詳解）

結合TensorFlow Playground理解神經網絡的主要功能

TensorFlow讀書筆記：使用placeholder填充方式讀取數據

記錄TensorFlow訓練過程中數據變化趨勢-weight、bias、loss等

記錄TensorFlow訓練過程中數據變化趨勢-直方圖（Histogram）

深度神經網絡的基本結構和思想

神經網絡的基本單位是神經元，每個神經元分別接受輸入和輸出，但與感知器（perceptron）不同的是，除了進行加權計算，還需要利用激活函數輸出。

網絡的最左邊一層被稱為輸入層，其中的神經元被稱為輸入神經元。

最右邊及輸出層包含輸出神經元。

中間層被稱為隱含層，因為裡面的神經元既不是輸入也不是輸出。下面的4層網絡具有2個隱含層。

對神經網絡的訓練過程，就是不斷調整網絡中w和b的值，目標是整個網絡表現出我們想要的行為。

激活函數的理論解釋

激活函數是用來加入非線性因素的，解決線性模型所不能解決的問題。

激活函數用來對前面計算得到的結果做一個非線性計算，這樣，人工神經網絡的表現力會更好。

常見的激活函數有：sigmoid, tanh, relu 以及它們的變種。

神經元節點 a的值，可以寫成向量的形式：

再將每個節點的值的計算公式都整合在一起，寫成矩陣運算的方式：

神經網絡中的一層，就是對數據的一次非線性映射。

Wx+B 實現了對輸入數據的範圍轉換、空間旋轉以及平移操作，而非線性的激活函數f() 則完成了對輸入數據原始空間的扭曲。

梯度下降算法原理

梯度下降方法是常用的參數優化方法，經常被用在神經網絡中的參數更新過程中。

梯度下降的目的是找到全部連接權和偏置值在取何值的情況下誤差最小。

經常有人把梯度下降的過程比作從山頂走到谷底，一次走多遠比作“學習率（Learning Rate）”。那麼，它的數學表現形式是什麼呢？

這就是梯度下降算法的迭代公式，當梯度下降為零時，w、b收斂，訓練結束。

其中 α 是學習率（Learing Rate）；另外兩個分別是損失函數對W和b的偏導數。

用來訓練神經網絡的反向傳播算法是梯度下降法，它需要計算損失函數對眾多權重（weight）和偏置值（bias）的偏導數。

反向傳播算法

（1）殘差δ定義：損失函數對神經元節點v 偏導數。

利用殘差可以以統一的形式表示各層節點的連接權和偏置值的迭代公式。

計算損失函數對權值 w 和 b 的偏導數，可以轉換為計算每一層每個節點的“殘差”。

最後一層的殘差計算公式（省去推導過程）：

即輸出層的第 i 個節點的殘差為：（該點的激活值a-該點的真實值y）*該點激活函數f() 對該點值（v）的導數。

對於第K-1層的殘差，可以根第K層的殘差計算出來。

不斷地重複這個過程，就得到了K-3， K-4， K-5，…2層上所有節點的殘差值。

（2）基於殘差，求偏導數，計算更新值

在計算所有節點上的殘差之後，就可以根據公式得到損失函數對所有W和b的偏導數：

獲得偏導數計算結果之後，在利用下面的公式對參數W和b進行更新。

如果多個樣本作為一個分組進行訓練，則將W和b的偏導數做累加求平均後，再更新參數值：

TensorFlow 深度學習讀寫筆記

Python搭建開發環境-Anaconda+PyCharm的安裝和入門教程

Jupyter Notebook神器-免費體驗來自微軟的Azure Notebook

Windows 10 本地搭建TensorFlow（CPU版本）深度學習環境

主流深度學習框架-MXNet、Caffe、TensorFlow、Torch、Theano

機器學習算法和深度學習算法比較

TensorFlow 的計算模型、數據模型和運行模型

Windows下的Jupyter Notebook 安裝與自定義啟動（圖文詳解）

結合TensorFlow Playground理解神經網絡的主要功能

TensorFlow讀書筆記：使用placeholder填充方式讀取數據

記錄TensorFlow訓練過程中數據變化趨勢-weight、bias、loss等

記錄TensorFlow訓練過程中數據變化趨勢-直方圖（Histogram）

深度神經網絡的基本結構和思想

神經網絡的基本單位是神經元，每個神經元分別接受輸入和輸出，但與感知器（perceptron）不同的是，除了進行加權計算，還需要利用激活函數輸出。

網絡的最左邊一層被稱為輸入層，其中的神經元被稱為輸入神經元。

最右邊及輸出層包含輸出神經元。

中間層被稱為隱含層，因為裡面的神經元既不是輸入也不是輸出。下面的4層網絡具有2個隱含層。

對神經網絡的訓練過程，就是不斷調整網絡中w和b的值，目標是整個網絡表現出我們想要的行為。

激活函數的理論解釋

激活函數是用來加入非線性因素的，解決線性模型所不能解決的問題。

激活函數用來對前面計算得到的結果做一個非線性計算，這樣，人工神經網絡的表現力會更好。

常見的激活函數有：sigmoid, tanh, relu 以及它們的變種。

神經元節點 a的值，可以寫成向量的形式：

再將每個節點的值的計算公式都整合在一起，寫成矩陣運算的方式：

神經網絡中的一層，就是對數據的一次非線性映射。

Wx+B 實現了對輸入數據的範圍轉換、空間旋轉以及平移操作，而非線性的激活函數f() 則完成了對輸入數據原始空間的扭曲。

梯度下降算法原理

梯度下降方法是常用的參數優化方法，經常被用在神經網絡中的參數更新過程中。

梯度下降的目的是找到全部連接權和偏置值在取何值的情況下誤差最小。

經常有人把梯度下降的過程比作從山頂走到谷底，一次走多遠比作“學習率（Learning Rate）”。那麼，它的數學表現形式是什麼呢？

這就是梯度下降算法的迭代公式，當梯度下降為零時，w、b收斂，訓練結束。

其中 α 是學習率（Learing Rate）；另外兩個分別是損失函數對W和b的偏導數。

用來訓練神經網絡的反向傳播算法是梯度下降法，它需要計算損失函數對眾多權重（weight）和偏置值（bias）的偏導數。

反向傳播算法

（1）殘差δ定義：損失函數對神經元節點v 偏導數。

利用殘差可以以統一的形式表示各層節點的連接權和偏置值的迭代公式。

計算損失函數對權值 w 和 b 的偏導數，可以轉換為計算每一層每個節點的“殘差”。

最後一層的殘差計算公式（省去推導過程）：

即輸出層的第 i 個節點的殘差為：（該點的激活值a-該點的真實值y）*該點激活函數f() 對該點值（v）的導數。

對於第K-1層的殘差，可以根第K層的殘差計算出來。

不斷地重複這個過程，就得到了K-3， K-4， K-5，…2層上所有節點的殘差值。

（2）基於殘差，求偏導數，計算更新值

在計算所有節點上的殘差之後，就可以根據公式得到損失函數對所有W和b的偏導數：

獲得偏導數計算結果之後，在利用下面的公式對參數W和b進行更新。

如果多個樣本作為一個分組進行訓練，則將W和b的偏導數做累加求平均後，再更新參數值：

TensorFlow 深度學習讀寫筆記

Python搭建開發環境-Anaconda+PyCharm的安裝和入門教程

Jupyter Notebook神器-免費體驗來自微軟的Azure Notebook

Windows 10 本地搭建TensorFlow（CPU版本）深度學習環境

主流深度學習框架-MXNet、Caffe、TensorFlow、Torch、Theano

機器學習算法和深度學習算法比較

TensorFlow 的計算模型、數據模型和運行模型

Windows下的Jupyter Notebook 安裝與自定義啟動（圖文詳解）

結合TensorFlow Playground理解神經網絡的主要功能

TensorFlow讀書筆記：使用placeholder填充方式讀取數據

記錄TensorFlow訓練過程中數據變化趨勢-weight、bias、loss等

記錄TensorFlow訓練過程中數據變化趨勢-直方圖（Histogram）

深度神經網絡的基本結構和思想

神經網絡的基本單位是神經元，每個神經元分別接受輸入和輸出，但與感知器（perceptron）不同的是，除了進行加權計算，還需要利用激活函數輸出。

網絡的最左邊一層被稱為輸入層，其中的神經元被稱為輸入神經元。

最右邊及輸出層包含輸出神經元。

中間層被稱為隱含層，因為裡面的神經元既不是輸入也不是輸出。下面的4層網絡具有2個隱含層。

對神經網絡的訓練過程，就是不斷調整網絡中w和b的值，目標是整個網絡表現出我們想要的行為。

激活函數的理論解釋

激活函數是用來加入非線性因素的，解決線性模型所不能解決的問題。

激活函數用來對前面計算得到的結果做一個非線性計算，這樣，人工神經網絡的表現力會更好。

常見的激活函數有：sigmoid, tanh, relu 以及它們的變種。

神經元節點 a的值，可以寫成向量的形式：

再將每個節點的值的計算公式都整合在一起，寫成矩陣運算的方式：

神經網絡中的一層，就是對數據的一次非線性映射。

Wx+B 實現了對輸入數據的範圍轉換、空間旋轉以及平移操作，而非線性的激活函數f() 則完成了對輸入數據原始空間的扭曲。

梯度下降算法原理

梯度下降方法是常用的參數優化方法，經常被用在神經網絡中的參數更新過程中。

梯度下降的目的是找到全部連接權和偏置值在取何值的情況下誤差最小。

經常有人把梯度下降的過程比作從山頂走到谷底，一次走多遠比作“學習率（Learning Rate）”。那麼，它的數學表現形式是什麼呢？

這就是梯度下降算法的迭代公式，當梯度下降為零時，w、b收斂，訓練結束。

其中 α 是學習率（Learing Rate）；另外兩個分別是損失函數對W和b的偏導數。

用來訓練神經網絡的反向傳播算法是梯度下降法，它需要計算損失函數對眾多權重（weight）和偏置值（bias）的偏導數。

反向傳播算法

（1）殘差δ定義：損失函數對神經元節點v 偏導數。

利用殘差可以以統一的形式表示各層節點的連接權和偏置值的迭代公式。

計算損失函數對權值 w 和 b 的偏導數，可以轉換為計算每一層每個節點的“殘差”。

最後一層的殘差計算公式（省去推導過程）：

即輸出層的第 i 個節點的殘差為：（該點的激活值a-該點的真實值y）*該點激活函數f() 對該點值（v）的導數。

對於第K-1層的殘差，可以根第K層的殘差計算出來。

不斷地重複這個過程，就得到了K-3， K-4， K-5，…2層上所有節點的殘差值。

（2）基於殘差，求偏導數，計算更新值

在計算所有節點上的殘差之後，就可以根據公式得到損失函數對所有W和b的偏導數：

獲得偏導數計算結果之後，在利用下面的公式對參數W和b進行更新。

如果多個樣本作為一個分組進行訓練，則將W和b的偏導數做累加求平均後，再更新參數值：

（3）反向傳播算法的思路

給定一個樣本 (x, y) ，我們首先隨機初始化網絡中參數W 和 b 接近0的隨機值，然後進行“前向計算”。從輸入層開始，根據公式逐層計算神經網絡中所有節點的激活值，包括最終輸出層的輸出。
對於每一層節點，計算其“殘差” δ，其含義是該節點的值對最終輸出層的結果和真實值的偏差造成了多大的影響。
反向傳播就是從最後一層開始，一層一層往前計算每一層神經元的殘差值。
根據殘差值計算損失函數對權值W和b的偏導數，然後根據一定的學習率（Learning Rate）更新參數W和b的值。