ICLR19最佳論文出爐：將神經網絡子網絡壓縮90%，不會影響精確度

人工智能麻省理工學院彩票大學微軟蒙特利爾大學技術微軟研究院普林斯頓大學電子工程量子位 2019-05-10

銅靈發自凹非寺
量子位出品 | 公眾號 QbitAI

在大洋彼岸的新奧爾良，正在舉行一年一度的機器學習頂會：ICLR 2019。

今年，ICLR19共收到了1578篇投稿，較去年增長60%。在這1600篇論文中，MIT的“彩票假設”理論從中脫穎而出，其論文斬獲今年的最佳論文。

這是項什麼研究？

研究人員證明，將神經網絡包含的子網絡縮小至原來的十分之一，依舊不會影響訓練精度，甚至於，壓縮後的模型可能比原神經網絡更快！

來看看今年的研究新風向。

彩票假設

這篇獲獎論文名為The Lottery Ticket Hypothesis: Finding Sparse, Trainable Neural Networks，提出了一種叫作“彩票假設”（lottery ticket hypothesis）的縮小方法。

此前，神經網絡的剪枝技術能將網絡的參數減少到90%，但此方法的弊端也很明顯，即剪枝架構一開始的訓練就相當困難。

MIT計算機科學與人工智能實驗室（CSAIL）的研究人員表示，與其在後期修修剪剪，何必不在一開始就創建一個尺寸合適的網絡呢？

他們將傳統的深度學習方法比作樂透，訓練大型神經網絡就像在通過盲目隨機選號中獎，而這種新的方法不採用這種大海撈針的方式，想在一開始就拿到最後中獎的號碼。

於是乎，“彩票假設”問世。

他們發現，傳統的剪枝技術會在神經網絡子網絡處動刀，讓初始化後的子網絡能夠進行有效訓練。

密集、隨機初始化的前饋神經網絡包含一些子網絡，也就是中獎號碼，當對其單獨進行訓練時，這些子網絡能夠在相似迭代次數中達到與原始網絡比肩的準確率。

問題來了，如何找到這個中獎號碼呢？總共分為四步：

在MNIST和CIFAR10數據集上，“中獎彩票”的大小是很多全連接和卷積前饋架構的10%~20%。

△ 上圖為當迭代剪枝和再次隨機初始化時，Conv-2/4/6 架構的早停迭代、測試和訓練準確率

並且，比原始網絡的學習速度更快：甚至準確度更高：

論文地址：

https://arxiv.org/abs/1803.03635

作者團隊

這篇論文背後的研究人員只有兩位。

一作為MIT的在讀博士生Jonathan Frankle，在普林斯頓大學完成計算機科學的本科和研究生學習時，Frankle小哥曾去谷歌、微軟、喬治城大學實習，主要研究人工智能、應用密碼學和技術政策。

二作Michael Carbin為MIT電子工程和計算機科學的助理教授，此前在微軟雷德蒙研究院的研究員，從事大規模深度學習系統的研究，包括優化和應用。

此前，Carbin的數篇論文被ICML19、OOPSLA18、LICS18等機器學習大會接收。

最佳論文×2

今年的ICLR最佳論文共有兩篇，除了彩票假設外，還有一篇蒙特利爾大學 MILA 研究所和微軟研究院的作品：

Ordered Neurons: Integrating Tree Structures into Recurrent Neural Networks，翻譯過來就是《有序神經元：將樹結構集成到循環神經網絡》。

自然語言是一種有層次的結構：小的單元會嵌套在大單元裡，比如短語會嵌套在句子中。當較大的單元關閉時，其中的小單元也必須關閉。

雖然標準的LSTM架構可以將不同的神經元在不同的時間階段追蹤信息，但在模型構成層次上差別不大。

在這篇論文中，研究人員提出，通過對神經元進行排序，增加這種歸納偏差，用一個控制輸入和遺忘門的向量來確保當給定神經元更新時，跟隨它的所有神經元也將按照順序被更新。

這種全新的循環結構稱為有序神經元 LSTM (ON-LSTM)，在語言建模、無監督語法分析、目標語法評估和邏輯推理這四個不同的任務上取得了不錯的性能。

論文地址：

https://openreview.net/forum?id=B1l6qiR5F7

傳送門

最後，附上ICLR 2019官網地址：

https://iclr.cc/

— 完 —

誠摯招聘

量子位正在招募編輯/記者，工作地點在北京中關村。期待有才氣、有熱情的同學加入我們！相關細節，請在量子位公眾號(QbitAI)對話界面，回覆“招聘”兩個字。

量子位 QbitAI · 頭條號簽約作者

վ'ᴗ' ի 追蹤AI技術和產品新動態