深度神經網絡權值初始化的幾種方式及為什麼不能初始化為零（1）

人工智能深度學習圖像處理文章機器學習一刻AI 2019-05-09

寫在前面：該篇文章的內容以及相關代碼（代碼在最後），都是我親自手敲出來的，相關結論分析也是花了挺長時間做出來的，如需轉載該文章，請務必先聯繫我，在後臺留言即可。

在深度學習中，神經網絡的權重初始化方式非常重要，其對模型的收斂速度和性能有著較大的影響。一個好的權值初始值有以下優點：

梯度下降的收斂速度較快
深度神經中的網絡模型不易陷入梯度消失或梯度爆炸問題

該系列共兩篇文章，我們主要討論以下兩個話題：

為什麼在線性迴歸和邏輯迴歸中可以採用0初始化，而在神經網絡中不能採用（實際上不光是0初始化，將權值初始化為任意相同值，都很有可能使模型失效）；
常用的三種權值初始化方法：隨機初始化、Xavier initialization、He initialization

在這一篇文章中，我們主要談論第一個話題

0 初始化

在線性迴歸和邏輯迴歸中，我們通常把權值 w 和偏差項 b 初始化為0，並且我們的模型也能取得較好的效果。在線性迴歸和邏輯迴歸中，我們採用下面的代碼將權值初始化為0（tensorflow框架下）：

w = tf.Variable([[0,0,0]],dtype=tf.float32,name='weights')
b = tf.Variable(0,dtype=tf.float32,name='bias')

但是，當在神經網絡中的權值全部都使用 0 初始化時，模型無法正常工作了。

原因是：在神經網絡中因為存在隱含層。我們假設模型的輸入為[x1,x2,x3]，隱含層數為1，隱含層單元數為2，輸出為 y ，模型如下圖所示：

單層神經網絡

則通過正向傳播計算之後，可得：

z1 = w10 * x0 + w11 * x1 + w12 * x2 +w13 * x3

z2 = w20 * x0 + w21 * x1 + w22 * x2 +w23 * x3

在所有的權值 w 和偏差值 b （可以看做是w10）初始化為 0 的情況下，即計算之後的 z1 和 z2 都等於0

那麼由於 a1 = g(z1) 、a2 = g(z2)，經過激活函數之後得到的 a1 和 a2 也肯定是相同的數了，即 a1 = a2 = g(z1)

則輸出層：y = g(w20 * a0 + w21 * a1 + w22 *a2 ) 也是固定值了。

重點：在反向傳播過程中，我們使用梯度下降的方式來降低損失函數，但在更新權值的過程中，代價函數對不同權值參數的偏導數相同，即Δw相同，因此在反向傳播更新參數時：

w21 = 0 + Δw

w22 = 0 + Δw

實際上使得更新之後的不同節點的參數相同，同理可以得到其他更新之後的參數也都是相同的，不管進行多少輪的正向傳播和反向傳播，得到的參數都一樣！因此，神經網絡就失去了其特徵學習的能力。

在神經網絡中使用0 初始化的效果

我們來看一下使用 0 初始化會出現什麼樣的情況：

我們使用MNIST手寫數字數據集進行測試：手寫數據集是圖像處理和機器學習研究最多的數據集之一，在深度學習的發展中起到了重要的作用。

MNIST 手寫數據集

我們看一下使用權值 0 初始化的神經網絡訓練並測試該數據集的結果：

測試結果

在100次的迭代中，每一次迭代，損失值都沒有變化
模型檢測的準確度為11.35%，幾乎完全沒有檢測出來

總結一下：在神經網絡中，如果將權值初始化為 0 ，或者其他統一的常量，會導致後面的激活單元具有相同的值，所有的單元相同意味著它們都在計算同一特徵，網絡變得跟只有一個隱含層節點一樣，這使得神經網絡失去了學習不同特徵的能力！

# -*- coding: utf-8 -*-
"""
Created on Wed May 8 08:25:40 2019
@author: Li Kangyu
"""
import tensorflow as tf
from tensorflow.examples.tutorials.mnist import input_data
from tensorflow.contrib.learn.python.learn.datasets.mnist import read_data_sets
import time
# 數據集下載地址：http://yann.lecun.com/exdb/mnist/
MINIBATCH_SIZE = 100
NUM_HD = 100 
data = read_data_sets('MNIST_DATA',one_hot=True)
x = tf.placeholder(tf.float32,[None,784]) 
y_true = tf.placeholder(tf.float32,[None,10])
def nn_model(x):
 hidden_layer = {
 'w':tf.Variable(tf.zeros([784,NUM_HD])),
 'b':tf.Variable(tf.zeros([NUM_HD]))
 }
 output_layer = {
 'w':tf.Variable(tf.zeros([NUM_HD,10])),
 'b':tf.Variable(tf.zeros([10]))
 }
 
 z1 = tf.matmul(x,hidden_layer['w']) + hidden_layer['b']
 a1 = tf.nn.relu(z1)
 
 output = tf.matmul(a1,output_layer['w']) + output_layer['b']
 
 return output
def train_nn(x):
 y_pred = nn_model(x)
 
 cost = tf.reduce_mean(tf.nn.softmax_cross_entropy_with_logits(logits=y_pred,labels=y_true)) 
 optimizer = tf.train.AdamOptimizer().minimize(cost)
 
 correct_mask = tf.equal(tf.argmax(y_pred,1),tf.argmax(y_true,1))
 accuracy = tf.reduce_mean(tf.cast(correct_mask,tf.float32))
 
 NUM_STEPS = 100
 
 with tf.Session() as sess:
 sess.run(tf.initialize_all_variables())
 for epoch in range(NUM_STEPS):
 epoch_loss = 0
 num_minibatch = int(data.train.num_examples/MINIBATCH_SIZE)
 for _ in range(num_minibatch):
 
 batch_xs,batch_ys = data.train.next_batch(MINIBATCH_SIZE)
 _,loss = sess.run([optimizer,cost],feed_dict={x:batch_xs,y_true:batch_ys})
 epoch_loss += loss / num_minibatch
 if epoch % 10 ==0:
 print("Epoch = ",epoch,"loss = ",epoch_loss)
 
 ans = sess.run(accuracy,feed_dict={x:data.test.images,
 y_true:data.test.labels})
 
 print("Accuracy:{:.4}%".format(ans*100))
train_nn(x)

相關推薦

'為什麼“高三”可以復讀？而更重要的“初三”卻不能復讀？'

"2019年已經來到了9月份，各級各類學校已經步入了2019年的秋季學期！而對於在今年經歷了“高考”和“中考”的同學而言，2019年的秋季學期，就是步入高中或者是大學的開始！最近筆者觀察到這樣兩則有趣的現象：第一則是關於“高中”：某某中學今年又迎來了多少多少復讀生！第二則是...

高考中考大學文章 2019-09-17

'我們為什麼要努力？看哭每一個初中生的勵志文章！（深度好文）'

"你累了嗎？我們會覺得身上的壓力無窮盡，喘不過氣，叫不出聲，又使不上勁！也許無論你怎麼努力，都達不到你想要的結果！對未來充滿了恐慌，會不會考不上高中、大學？農民的兒子能擺脫農民的命運嗎？或者是一輩子都生活在優秀爸媽的遮蓋下？你也不明白屈身在這樣一個狹小的教室裡到底學會了什麼...

不完美媽媽文章謝霆鋒 Lucas 勝利退出演藝圈大學 2019-09-14

'為什麼不能和窮人在一起？'

"這個問題魯迅或許在《阿Q正傳》裡已經給出了答案，阿Q革命的對象是富裕階層，但他夢裡欺壓他的卻是和他同階層窮苦人。或者在《祥林嫂》的文章裡也有了答案，真正看笑話的是和祥林嫂同階層的人，比她高階層的人頂多是看不起她煩她不搭理她，但工錢照付了，而想頂替她看她笑話的是和她同一階層...

阿Q 螞蟥血吸蟲蟑螂鼠寄生蟲文章祥林嫂韓國電影 2019-09-13

'“為什麼不能說爸爸是警察？”'

"9月4日，警嫂阿雪（左）接受採訪。新華社記者秦晴/攝□ 新華社記者洪雪華陸敏再次提起防身報警器，警嫂阿雪還是一身冷汗。“警署為警察家人配備的防身報警器，竟然成了暴徒識別警察家屬的標誌。”近三個月來，香港持續發生極端暴力違法事件，守護法制和秩序的警察成了被攻擊的重點...

不完美媽媽香港服裝跳槽那些事兒文章新聞法制 2019-09-13

'抑鬱症：為什麼輕度抑鬱症可以自行緩解？而中度以上的卻不能了？'

"文/阿秋抑鬱症：為什麼輕度抑鬱症可以自行緩解？而中度以上的卻不能了？抑鬱症是一種慢性的精神疾病，輕度的大多數人通過自行地積極調整，都是可以緩解、恢復到正常的。為什麼說輕度的抑鬱症，是可以經過自己積極地調整可以緩解呢？在我的理解看來，輕度的抑鬱症，一是大腦裡的神經遞質並沒有...

抑鬱症精神病體育讀書文章藥品 2019-09-13

'零緋聞！零差評！但為什麼說何炅的個人生活一直是個謎？'

"說起何炅何老師，相信大家一定都不陌生，他是湖南衛視的金牌主持人，《快樂大本營》的一哥，主持能力一流；在北京外國語大學教阿拉伯語，是個不折不扣的老師；凍齡男神，四十多歲身材和皮膚狀態的管理依舊非常好，除此之外他的情商高人緣好也是在娛樂圈中出了名的。何老師是出了名的情商高，解...

何炅謝娜魏大勳快樂大本營文章白敬亭楊迪王菁戀愛 2019-09-12

'媽媽為什麼愛生氣，大多數都是這幾種原因，這篇文章給你啟發'

"“我的媽媽總是愛生氣”，一個無法剋制自己脾氣的母親，將會有多可怕？因為貪玩，八歲的男孩兒把手機帶走弄丟，被母親捆綁毆打，再也沒能看到第二天的風景。因為與丈夫離婚，孩子撫養權發生衝突。狠心的媽媽竟將4歲兒子從窗外拋出。“媽媽，我不想跳，媽媽，我害怕。”直到今天都念念不忘那個...

不完美媽媽文章藝術 2019-09-12

'為什麼你的孩子能專注打遊戲卻不能專注學習？這篇文告訴你原因'

"文 | 朗姐育兒說（文章原創，版權歸本作者所有，歡迎個人轉發分享）一到吃飯的時間，就是家長在和遊戲殊死搏鬥的時刻，孩子總是因為玩遊戲等錯過正常吃飯的時間，不管家長怎麼叫都像聽不見一樣，孩子的專注可以在遊戲上，卻無法投入到學習當中，這是為什麼？朋友小羅在小的時候是一個十足...

不完美媽媽羅納爾迪尼奧大學文章哥倫比亞大學脫口秀 2019-09-11

'為什麼貓咪的主食不能是幹貓糧？一篇文章告訴你真相'

"序 -愛貓不等同於就很瞭解貓，甚至是會養貓！現實中，可能存在部分人認為吃東西是一件很有必要講究的事情，每個人對吃的看法不同，有的人可能在乎的是吃得飽不飽；有的人則可能在乎的是食物可不可口；也有的人會比較在意食物吃進肚子裡之後，對身體會不會有幫助和營養價值高不高……同樣的，...

貓文章植物腹瀉飼料動物嬰兒輔食經濟 2019-09-10

'抑鬱症：輕度抑鬱症可以自行緩解，為什麼中度以上的卻不能了？'

抑鬱症精神病體育讀書文章藥品 2019-09-09

'深度 | 為什麼你的孩子能專注打遊戲，卻沒法專注學習？'

"文 | 劉純婷文章轉載自曾奇峰心理工作室(ID:zqfxlgzs)1很多家長都為孩子的學習問題操碎了心，其中最容易被詬病的是注意力問題。一位媽媽形容自己孩子晚上寫作業，寫兩個題，愣十分鐘，再憋幾個字，上廁所蹲半小時，再背幾個單詞，出來吃水果花二十分鐘。寫作業異常煎熬。很多...

不完美媽媽服裝敏感期幼兒園雞蛋文章水果 2019-09-07

'坐月子為什麼不能\'洗頭\'？原來真不是迷信，來聽聽這科學解釋'

"文章純屬原創，版權歸本作者所有，歡迎個人轉發分享。前幾日，朋友小月在醫院順利誕下一名男嬰，母子平安。這對於家屬而言，無疑是一大喜訊，小月也終於鬆了一口氣。但小月婆婆的一句話，卻讓小月再次感到困惑與不滿。原來，婆婆要求小月在坐月子期間不能洗頭髮。這一點小月表示沒辦法接受："...

不完美媽媽吹風機乳霜愛用文章 2019-09-07

'健身能讓脂肪變成肌肉？是吳亦凡說的？不能因為他帥就什麼都對'

"最近吳亦凡因為戀情曝光，又上了一把熱搜！雖說他現在有些胖了，但是之前他的身材還是很不錯的，甚至因此還曾在節目中科普健身知識！但是他所說的"沒有脂肪就沒有肌肉，需要用脂肪轉化為肌肉"這句話讓我印象深刻，甚至因此還有很多人被誤導。肌肉和脂肪之間真的可以轉化麼？今天就讓我們好好...

吳亦凡文章 2019-09-06

'深度解析四個方面，瞭解“超前”的編程教育為什麼是有必要的？'

"“贏在起跑線”始終是家長們熱議的話題，然而在時代發展迅速的今天，孩子的起跑線不僅設置在文化課的學習上，同時編程課程也是同樣重要的。你知道孩子從小學編程，和上了大學以後再學編程，會有哪些區別嗎？隨著社會不斷的進步和發展，傳統的教學體系已不能滿足孩子的發展需求，越來越多的新型...

電腦不完美媽媽編程語言 IBM 技術高考 Java 中考 iOS 大學軟件人生第一份工作 Visual Basic FoxPro 數學程序設計人工智能設計 Python 讀書石家莊英語加拿大兔子蘋果公司 2019-09-05

'為什麼海水不能當水喝？不僅是因為鹽多，煮幹才知道有多恐怖'

"“本文章已通過區塊鏈技術進行版權認證，禁止任何形式的改編抄襲，違者追究法律責任”大家都知道，雖然地球是個被水包圍著的地球，可絕大部分是海水，能供人們使用的淡水資源其實非常有限。甚至在非洲、中東等極度缺水的地方，連基本的飲用都不能保證。那可能以偶人困惑了，地球上那麼多的海水...

地球技術文章 2019-09-03

'土地改革：為什麼要從兩權分置到三權分置'

"1978年我國農村開始推行聯產承包責任制後，農村土地形成了農民集體土地所有權和土地承包經營權的兩權分置所有制結構。過去，兩權分置的核心內容是效率優先、兼顧公平，在聯產承包責任制下極大的提高農民生產積極性。但是，隨著時間的推移，兩權分離分置制度弱化了土地的所有權，除了土地承...

農村農民經濟第二十二屆中國農加工投洽會文章 2019-08-30

'我們為什麼要努力？看哭每一個初中生的勵志文章！深度好文'

"你累了嗎？我們會覺得身上的壓力無窮盡，喘不過氣，叫不出聲，又使不上勁！也許無論你怎麼努力，都達不到你想要的結果！對未來充滿了恐慌，會不會考不上高中、大學？農民的兒子能擺脫農民的命運嗎？或者是一輩子都生活在優秀爸媽的遮蓋下？你也不明白屈身在這樣一個狹小的教室裡...

不完美媽媽文章謝霆鋒 Lucas 勝利退出演藝圈大學 2019-08-30

'近20年，兒童1型糖尿病越來越多，為什麼？……'

"我已委託“維權騎士”為我的文章進行維權行動。免責聲明：以下的文字，不做任何醫療建議，只做信息分享，請在專業人員的指導下進行。請隨意轉發到朋友圈，如需轉載請聯繫後臺。本文編輯字數4528字，預計閱讀時間，15分鐘。為人父母，都有這樣一種體驗，孩子生病的時候，哪怕只是輕微咳嗽...

糖尿病心血管病低血糖不完美媽媽讀書上海文章遺傳新聞百度 2019-08-28

'為什麼皮膚會成敏感肌膚？因為你一直在用這幾種產品'

"這八類產品不要頻繁用，尤其是敏感肌的姐妹們請繞道。哎又是一期得罪商家的文章，但不針對具體商家，所以你們也別黑我了，我只想對我自己的粉絲負責。第一除蟎皁，基本不能洗掉蟎蟲，實質就是清潔力強，去油力強，洗感爽的皁，臉上適當油脂是對我們皮膚角質層的保護，人家大油皮去油是為了保持...

面膜潔面乳蠕形蟎文章上海 2019-08-28

'為什麼1型糖尿病越來越多？低碳飲食和1型糖尿病的關係……'

糖尿病心血管病低血糖不完美媽媽遺傳上海文章 2019-08-24

推薦中...