機器學習：人工神經網絡ANN

神經網絡是從生物領域自然的鬼斧神工中學習智慧的一種應用。人工神經網絡（ANN）的發展經歷的了幾次高潮低谷，如今，隨著數據爆發、硬件計算能力暴增、深度學習算法的優化，我們迎來了又一次的ANN雄起時代，以深度學習為首的人工神經網絡，又一次走入人們的視野。

感知機模型perception

不再處理離散情況，而是連續的數值，學習時權值在變化，從而記憶存儲學到的知識

神經元輸入：類似於線性迴歸z =w1x1+w2x2 +⋯ +wnxn= wT・x（linear threshold unit (LTU)）

神經元輸出：激活函數，類似於二值分類，模擬了生物學中神經元只有激發和抑制兩種狀態。

感知機模型perception

不再處理離散情況，而是連續的數值，學習時權值在變化，從而記憶存儲學到的知識

神經元輸入：類似於線性迴歸z =w1x1+w2x2 +⋯ +wnxn= wT・x（linear threshold unit (LTU)）

神經元輸出：激活函數，類似於二值分類，模擬了生物學中神經元只有激發和抑制兩種狀態。

機器學習：人工神經網絡ANN

增加篇值，輸出層哪個節點權重大，輸出哪一個。

感知機模型perception

不再處理離散情況，而是連續的數值，學習時權值在變化，從而記憶存儲學到的知識

神經元輸入：類似於線性迴歸z =w1x1+w2x2 +⋯ +wnxn= wT・x（linear threshold unit (LTU)）

神經元輸出：激活函數，類似於二值分類，模擬了生物學中神經元只有激發和抑制兩種狀態。

機器學習：人工神經網絡ANN

增加篇值，輸出層哪個節點權重大，輸出哪一個。

機器學習：人工神經網絡ANN

採用Hebb準則，下一個權重調整方法參考當前權重和訓練效果

感知機模型perception

不再處理離散情況，而是連續的數值，學習時權值在變化，從而記憶存儲學到的知識

神經元輸入：類似於線性迴歸z =w1x1+w2x2 +⋯ +wnxn= wT・x（linear threshold unit (LTU)）

神經元輸出：激活函數，類似於二值分類，模擬了生物學中神經元只有激發和抑制兩種狀態。

機器學習：人工神經網絡ANN

增加篇值，輸出層哪個節點權重大，輸出哪一個。

機器學習：人工神經網絡ANN

採用Hebb準則，下一個權重調整方法參考當前權重和訓練效果

機器學習：人工神經網絡ANN

#一個感知機的例子
import numpy as np
from sklearn.datasets import load_iris
from sklearn.linear_model import Perceptron
iris = load_iris()
X = iris.data[:, (2, 3)] # petal length, petal width
y = (iris.target == 0).astype(np.int) # Iris Setosa?
per_clf = Perceptron(random_state=42)
per_clf.fit(X, y)
y_pred = per_clf.predict([[2, 0.5]]

之後有人提出，perception無法處理異或問題，但是，使用多層感知機（MLP）可以處理這個問題

def heaviside(z):
return (z >= 0).astype(z.dtype)
def sigmoid(z):
return 1/(1+np.exp(-z))
#做了多層activation，手工配置權重
def mlp_xor(x1, x2, activation=heaviside):
return activation(-activation(x1 + x2 - 1.5) + activation(x1 + x2 - 0.5) - 0.5)

如圖所示，兩層MLP，包含輸入層，隱層，輸出層。所謂的深度神經網絡，就是隱層數量多一些。

感知機模型perception

不再處理離散情況，而是連續的數值，學習時權值在變化，從而記憶存儲學到的知識

神經元輸入：類似於線性迴歸z =w1x1+w2x2 +⋯ +wnxn= wT・x（linear threshold unit (LTU)）

神經元輸出：激活函數，類似於二值分類，模擬了生物學中神經元只有激發和抑制兩種狀態。

機器學習：人工神經網絡ANN

增加篇值，輸出層哪個節點權重大，輸出哪一個。

機器學習：人工神經網絡ANN

採用Hebb準則，下一個權重調整方法參考當前權重和訓練效果

機器學習：人工神經網絡ANN

#一個感知機的例子
import numpy as np
from sklearn.datasets import load_iris
from sklearn.linear_model import Perceptron
iris = load_iris()
X = iris.data[:, (2, 3)] # petal length, petal width
y = (iris.target == 0).astype(np.int) # Iris Setosa?
per_clf = Perceptron(random_state=42)
per_clf.fit(X, y)
y_pred = per_clf.predict([[2, 0.5]]

之後有人提出，perception無法處理異或問題，但是，使用多層感知機（MLP）可以處理這個問題

def heaviside(z):
return (z >= 0).astype(z.dtype)
def sigmoid(z):
return 1/(1+np.exp(-z))
#做了多層activation，手工配置權重
def mlp_xor(x1, x2, activation=heaviside):
return activation(-activation(x1 + x2 - 1.5) + activation(x1 + x2 - 0.5) - 0.5)

如圖所示，兩層MLP，包含輸入層，隱層，輸出層。所謂的深度神經網絡，就是隱層數量多一些。

機器學習：人工神經網絡ANN

感知機模型perception

不再處理離散情況，而是連續的數值，學習時權值在變化，從而記憶存儲學到的知識

神經元輸入：類似於線性迴歸z =w1x1+w2x2 +⋯ +wnxn= wT・x（linear threshold unit (LTU)）

神經元輸出：激活函數，類似於二值分類，模擬了生物學中神經元只有激發和抑制兩種狀態。

機器學習：人工神經網絡ANN

增加篇值，輸出層哪個節點權重大，輸出哪一個。

機器學習：人工神經網絡ANN

採用Hebb準則，下一個權重調整方法參考當前權重和訓練效果

機器學習：人工神經網絡ANN

#一個感知機的例子
import numpy as np
from sklearn.datasets import load_iris
from sklearn.linear_model import Perceptron
iris = load_iris()
X = iris.data[:, (2, 3)] # petal length, petal width
y = (iris.target == 0).astype(np.int) # Iris Setosa?
per_clf = Perceptron(random_state=42)
per_clf.fit(X, y)
y_pred = per_clf.predict([[2, 0.5]]

之後有人提出，perception無法處理異或問題，但是，使用多層感知機（MLP）可以處理這個問題

def heaviside(z):
return (z >= 0).astype(z.dtype)
def sigmoid(z):
return 1/(1+np.exp(-z))
#做了多層activation，手工配置權重
def mlp_xor(x1, x2, activation=heaviside):
return activation(-activation(x1 + x2 - 1.5) + activation(x1 + x2 - 0.5) - 0.5)

如圖所示，兩層MLP，包含輸入層，隱層，輸出層。所謂的深度神經網絡，就是隱層數量多一些。

機器學習：人工神經網絡ANN

感知機模型perception

不再處理離散情況，而是連續的數值，學習時權值在變化，從而記憶存儲學到的知識

神經元輸入：類似於線性迴歸z =w1x1+w2x2 +⋯ +wnxn= wT・x（linear threshold unit (LTU)）

神經元輸出：激活函數，類似於二值分類，模擬了生物學中神經元只有激發和抑制兩種狀態。

機器學習：人工神經網絡ANN

增加篇值，輸出層哪個節點權重大，輸出哪一個。

機器學習：人工神經網絡ANN

採用Hebb準則，下一個權重調整方法參考當前權重和訓練效果

機器學習：人工神經網絡ANN

#一個感知機的例子
import numpy as np
from sklearn.datasets import load_iris
from sklearn.linear_model import Perceptron
iris = load_iris()
X = iris.data[:, (2, 3)] # petal length, petal width
y = (iris.target == 0).astype(np.int) # Iris Setosa?
per_clf = Perceptron(random_state=42)
per_clf.fit(X, y)
y_pred = per_clf.predict([[2, 0.5]]

之後有人提出，perception無法處理異或問題，但是，使用多層感知機（MLP）可以處理這個問題

def heaviside(z):
return (z >= 0).astype(z.dtype)
def sigmoid(z):
return 1/(1+np.exp(-z))
#做了多層activation，手工配置權重
def mlp_xor(x1, x2, activation=heaviside):
return activation(-activation(x1 + x2 - 1.5) + activation(x1 + x2 - 0.5) - 0.5)

如圖所示，兩層MLP，包含輸入層，隱層，輸出層。所謂的深度神經網絡，就是隱層數量多一些。

機器學習：人工神經網絡ANN

激活函數

以下是幾個激活函數的例子，其微分如右圖所示

感知機模型perception

不再處理離散情況，而是連續的數值，學習時權值在變化，從而記憶存儲學到的知識

神經元輸入：類似於線性迴歸z =w1x1+w2x2 +⋯ +wnxn= wT・x（linear threshold unit (LTU)）

神經元輸出：激活函數，類似於二值分類，模擬了生物學中神經元只有激發和抑制兩種狀態。

機器學習：人工神經網絡ANN

增加篇值，輸出層哪個節點權重大，輸出哪一個。

機器學習：人工神經網絡ANN

採用Hebb準則，下一個權重調整方法參考當前權重和訓練效果

機器學習：人工神經網絡ANN

#一個感知機的例子
import numpy as np
from sklearn.datasets import load_iris
from sklearn.linear_model import Perceptron
iris = load_iris()
X = iris.data[:, (2, 3)] # petal length, petal width
y = (iris.target == 0).astype(np.int) # Iris Setosa?
per_clf = Perceptron(random_state=42)
per_clf.fit(X, y)
y_pred = per_clf.predict([[2, 0.5]]

之後有人提出，perception無法處理異或問題，但是，使用多層感知機（MLP）可以處理這個問題

def heaviside(z):
return (z >= 0).astype(z.dtype)
def sigmoid(z):
return 1/(1+np.exp(-z))
#做了多層activation，手工配置權重
def mlp_xor(x1, x2, activation=heaviside):
return activation(-activation(x1 + x2 - 1.5) + activation(x1 + x2 - 0.5) - 0.5)

如圖所示，兩層MLP，包含輸入層，隱層，輸出層。所謂的深度神經網絡，就是隱層數量多一些。

機器學習：人工神經網絡ANN

激活函數

以下是幾個激活函數的例子，其微分如右圖所示

機器學習：人工神經網絡ANN

感知機模型perception

不再處理離散情況，而是連續的數值，學習時權值在變化，從而記憶存儲學到的知識

神經元輸入：類似於線性迴歸z =w1x1+w2x2 +⋯ +wnxn= wT・x（linear threshold unit (LTU)）

神經元輸出：激活函數，類似於二值分類，模擬了生物學中神經元只有激發和抑制兩種狀態。

機器學習：人工神經網絡ANN

增加篇值，輸出層哪個節點權重大，輸出哪一個。

機器學習：人工神經網絡ANN

採用Hebb準則，下一個權重調整方法參考當前權重和訓練效果

機器學習：人工神經網絡ANN

#一個感知機的例子
import numpy as np
from sklearn.datasets import load_iris
from sklearn.linear_model import Perceptron
iris = load_iris()
X = iris.data[:, (2, 3)] # petal length, petal width
y = (iris.target == 0).astype(np.int) # Iris Setosa?
per_clf = Perceptron(random_state=42)
per_clf.fit(X, y)
y_pred = per_clf.predict([[2, 0.5]]

之後有人提出，perception無法處理異或問題，但是，使用多層感知機（MLP）可以處理這個問題

def heaviside(z):
return (z >= 0).astype(z.dtype)
def sigmoid(z):
return 1/(1+np.exp(-z))
#做了多層activation，手工配置權重
def mlp_xor(x1, x2, activation=heaviside):
return activation(-activation(x1 + x2 - 1.5) + activation(x1 + x2 - 0.5) - 0.5)

如圖所示，兩層MLP，包含輸入層，隱層，輸出層。所謂的深度神經網絡，就是隱層數量多一些。

機器學習：人工神經網絡ANN

激活函數

以下是幾個激活函數的例子，其微分如右圖所示

機器學習：人工神經網絡ANN

step是最早提出的一種激活函數，但是它在除0外所有點的微分都是0，沒有辦法計算梯度

logit和雙曲正切函數tanh梯度消失，數據量很大時，梯度無限趨近於0，

relu在層次很深時梯度也不為0，無限傳導下去。

如何自動化學習計算權重——backpropagation

首先正向做一個計算，根據當前輸出做一個error計算，作為指導信號反向調整前一層輸出權重使其落入一個合理區間，反覆這樣調整到第一層，每輪調整都有一個學習率，調整結束後，網絡越來越合理。

step函數換成邏輯迴歸函數σ(z) = 1 / (1 + exp(–z))，無論x落在哪個區域，最後都有一個非0的梯度可以使用，落在（0,1）區間。

雙曲正切函數The hyperbolic tangent function tanh (z) = 2σ(2z) – 1，在（-1,1）的區間。

The ReLU function ReLU (z) = max (0, z)，層次很深時不會越傳遞越小。

多分類時，使用softmax（logistics激活函數）最為常見。

使用MLP多分類輸出層為softmax，隱層傾向於使用ReLU，因為向前傳遞時不會有數值越來越小得不到訓練的情況產生。

以mnist數據集為例

import tensorflow as tf
# construction phase
n_inputs = 28*28 # MNIST
# 隱藏層節點數目
n_hidden1 = 300
n_hidden2 = 100
n_outputs = 10
X = tf.placeholder(tf.float32, shape=(None, n_inputs), name="X")
y = tf.placeholder(tf.int64, shape=(None), name="y")
def neuron_layer(X, n_neurons, name, activation=None):
with tf.name_scope(name):
n_inputs = int(X.get_shape()[1])
# 標準差初始設定，研究證明設為以下結果訓練更快
stddev = 2 / np.sqrt(n_inputs)
# 使用截斷的正態分佈，過濾掉極端的數據，做了一個初始權重矩陣，是input和neurons的全連接矩陣
init = tf.truncated_normal((n_inputs, n_neurons), stddev=stddev)
W = tf.Variable(init, name="weights")
# biases項初始化為0
b = tf.Variable(tf.zeros([n_neurons]), name="biases")
# 該層輸出
z = tf.matmul(X, W) + b
# 根據activation選擇激活函數
if activation=="relu":
return tf.nn.relu(z)
else:
return z
with tf.name_scope("dnn"):
# 算上輸入層一共4層的dnn結構
hidden1 = neuron_layer(X, n_hidden1, "hidden1", activation="relu")
hidden2 = neuron_layer(hidden1, n_hidden2, "hidden2", activation="relu")
# 直接輸出最後結果值
logits = neuron_layer(hidden2, n_outputs, "outputs")
# 使用TensorFlow自帶函數實現，最新修改成dense函數
from tensorflow.contrib.layers import fully_connected
with tf.name_scope("dnn"):
hidden1 = fully_connected(X, n_hidden1, scope="hidden1")
hidden2 = fully_connected(hidden1, n_hidden2, scope="hidden2")
logits = fully_connected(hidden2, n_outputs, scope="outputs", activation_fn=None)
# 使用logits（網絡輸出）計算交叉熵，取均值為誤差
with tf.name_scope("loss"):
xentropy = tf.nn.sparse_softmax_cross_entropy_with_logits(labels=y, logits=logits)
loss = tf.reduce_mean(xentropy, name="loss")
learning_rate = 0.01
with tf.name_scope("train"):
optimizer = tf.train.GradientDescentOptimizer(learning_rate)
training_op = optimizer.minimize(loss)
with tf.name_scope("eval"):
correct = tf.nn.in_top_k(logits, y, 1)
accuracy = tf.reduce_mean(tf.cast(correct, tf.float32))
init = tf.global_variables_initializer()
saver = tf.train.Saver()
# Execution Phase
from tensorflow.examples.tutorials.mnist import input_data
mnist = input_data.read_data_sets("/tmp/data/")
# 外層大循環跑400次，每個循環中小循環數據量50
n_epochs = 400
batch_size = 50
with tf.Session() as sess:
init.run()
for epoch in range(n_epochs):
for iteration in range(mnist.train.num_examples // batch_size):
X_batch, y_batch = mnist.train.next_batch(batch_size)
sess.run(training_op, feed_dict={X: X_batch, y: y_batch})
acc_train = accuracy.eval(feed_dict={X: X_batch, y: y_batch})
acc_test = accuracy.eval(feed_dict={X: mnist.test.images,y: mnist.test.labels})
print(epoch, "Train accuracy:", acc_train, "Test accuracy:", acc_test)
# 下次再跑模型時不用再次訓練了
save_path = saver.save(sess, "./my_model_final.ckpt")
# 下次調用
with tf.Session() as sess:
saver.restore(sess, "./my_model_final.ckpt") # or better, use save_path
X_new_scaled = mnist.test.images[:20]
Z = logits.eval(feed_dict={X: X_new_scaled})
y_pred = np.argmax(Z, axis=1)

超參數設置

隱層數量：一般來說單個隱層即可，對於複雜問題，由於深層模型可以實現淺層的指數級別的效果，且每層節點數不多，加至overfit就不要再加了。

每層神經元數量：以漏斗形逐層遞減，輸入層最多，逐漸features更少代表性更強。

激活函數選擇（activation function）：隱層多選擇ReLU，輸出層多選擇softmax

原文：http://www.cnblogs.com/rucwxb/p/7865021.html

機器學習：人工神經網絡ANN

感知機模型perception

感知機模型perception

感知機模型perception

感知機模型perception

感知機模型perception

感知機模型perception

感知機模型perception

激活函數

感知機模型perception

激活函數

感知機模型perception

激活函數

如何自動化學習計算權重——backpropagation

以mnist數據集為例

超參數設置

相關推薦