深度學習雖好,但也有深度的煩惱

選自SIAM

作者:Michael Elad

機器之心編譯

參與:微胖、李澤南

本文作者 Michael Elad 是以色列理工學院的計算機科學教授,他也是學術期刊 SIAM Journal on Imaging Sciences 的總編輯。

深度學習雖好,但也有深度的煩惱

我感到非常困惑,我幾乎每天都在改變自己的觀點,我似乎對這個難題無法形成一種堅實固定的看法。我不是在討論目前的世界局勢,或現任美國總統,我是在討論對人類而言更加重要的一件事。更具體地來說,我在討論的是研究人員與工程師們的存在和工作,我說的是深度學習。

你也許會認為我的聲明有些誇張,但深度學習的出現確實引出了我們必須解決的幾個關鍵問題。在本文中,我希望揭露這一新興領域引發的衝突,這與圖像處理領域的研究者們有關。

首先讓我們簡要回顧一下深度學習和神經網絡的概念。神經網絡已經存在了數十年,它提出了一種通用的學習機制,原則上可用於處理任何可學習的數據集。在其前饋架構中,感知層(也就是神經元)首先對輸入內容進行加權平均,隨後進行非線性處理,如感知器(sigmoid)或 rectified-linear 曲線。人們可以訓練這種簡單的系統通過多種監督迴歸和分類方法從給定數據中獲得需要的輸出。

這看起來很棒,但不幸的是這個概念在 20 世紀 80 代 90 年代並沒有流行起來——在那時神經網絡無法給出足夠具有競爭力的表現。此外,由於有著堅實理論基礎以及凸優化方式的支持向量機的出現,神經網絡看起來完全沒有翻身機會了。最終,神經網絡進入了漫長的低潮期,只有少部分研究者還在堅持這方面的研究:Yann LeCun(紐約大學/ Facebook)、Geoffrey Hinton(多倫多大學/谷歌)、Yoshua Bengio(蒙特利爾大學)和Jürgen Schmidhuber(瑞士人工智能實驗室/盧加諾大學)都在這一行列中。他們的努力產生了一系列重要的成果,如卷積和長短期記憶網絡,但一開始這些研究的影響有限。隨後,神經網絡突然也迎來了爆發期。

在 21 世紀初,一系列論文提到了這種架構的成功應用,包括幾乎所有任務的最佳運行結果。而這些應用不約而同地使用了同一種方法:多層神經網絡,這就是「深度學習」,通過大量數據用於訓練, 大量計算機集群和顯卡計算資源的使用,以及採用有效初始化和逐步隨機梯度學習的優化算法。不幸的是,所有這些偉大的成就都是建立在無法理解的基礎範式之上的。此外,從理論的角度看,深度學習在學習過程中所採用的最優化是非常不凸和難解的。

深度學習應用的大發展始於手寫字符識別(見下圖),隨後緩慢地進入了更具挑戰性的視覺、語音識別和自然語言處理任務中,並從此開始在任何任務裡以有監督學習的形式出現。谷歌、Facebook 和微軟這樣的大公司很快意識到這一技術的潛力,它們投入了大量人力和資源來掌握這些工具,並將其投入產品中。而在學術方面,信號處理、圖像處理和計算機視覺的各類大會已經被深度學習佔領,它日益增長的主導地位逐漸讓人工智能變得興盛起來。

深度學習雖好,但也有深度的煩惱

圖1. 神經網絡首先在手寫字符識別等任務中展現出了巨大的潛力

深度學習仍在隨著時間發展。為了簡潔起見,我們以經典的圖片去噪點任務為例(如下圖)。這些年來,研究者們發表了數千份關於此任務的論文。研究人員利用偏微分方程的工具,如各向異性擴散、全變差、能量最小化、圖像幾何解釋方法作為流型、貝特拉米流(Beltrami flow)等等,開發出了美麗而深刻的數學思想。諧波分析和近似理論同樣應用於噪點任務,引出了小波理論和稀疏表示的重大突破。其他重要的思想包括低階近似、非局部均值、貝葉斯估計和魯棒統計。因此可以認為,我們在過去三十年中獲得了豐富的圖像處理知識,而這影響了許多圖像處理任務,並穩固了其後的數學基礎。

深度學習雖好,但也有深度的煩惱

圖2. 去噪樣例。左:原始圖片。中:附加高斯噪點後的圖片,STD=100。右:使用了一個領先算法後的去噪結果——BM3D。

2012 年,Harold Burger、Christian Schuler 和 Stefan Harmeling 決定用深度學習來解決這個問題。他們的想法很簡單:給一大批輸入的乾淨的照片添加點合成噪音,然後輸入學習系統,希望系統可以將噪音圖片還原為原來乾淨的版本。儘管過程很讓人沮喪、繁瑣且冗長,其中,調整這個辦法的參數以實現好的效果花費了很長時間,但是結果這個網絡效果真的優於當時其他任何去噪算法。

這不是一個孤立的故事。如今,深度學習系統也可以處理許多其他圖片處理需求,處理效果至今無人超越。其中,單個圖片超分辨率處理、去馬賽克、去模糊、分割、圖片標註以及面部識別效果特別好。

我們應該對此感到高興嗎?好吧,如果你是在公司,要解決實際商業問題,比如去噪點,那麼,回答當然是應該高興。所以,正在尋找解決方案的公司應該對上面的結果感到滿意。但是,科學家也應該感到高興嗎?花費大量成本解決圖片去噪問題的背後,我們的真實目標到底是什麼?是的,目標就是高效算法,但是,這也是隻是動機的一小部分,科學家的目標更寬闊,也更深入。這個領域的研究人員旨在理解我們使用的數據。而方法就是為信息建模,解碼信息的真實維度並搞清楚現象的真實面目。這些可以降噪以及解決其他圖片處理中遇到的問題的模型,還遠不能幫助科學家實現這些目標,但是,這些模型可以提供了從數據中提取知識、開拓新視野的新方式。

好了,現在讓我們回到主要問題上來:新興的基於深度學習的解決方案,應該讓人感到欣喜嗎?我們的挫敗感是合乎情理的嗎?成像(imaging)科學中,深度學習的角色到底是什麼?當研究人員開會聚在一起時,他們就會提出這些問題,回答也是各種各樣,讓人疑惑。事實勝於雄辯;在絕大多數情況下,基於深度學習的解決方案缺乏數學優雅,幾乎解釋不清楚解決方案或者背後的情況。不過,從積極角度來看,這個現象也是極好的。顯然,這不是我們被教授的研究學派,也不是我們想要付諸實踐的那類科學。我們是否應該堅持更加嚴格的方式 甚至以在輸出質量上落後為代價?是否應該反擊並讓出自深度學習的思想擁有更加堅實的基礎的辦法?

說得更詳細一點,深度學習做出的貢獻具有某種無法被人忽視的優雅。比如,風格遷移可以生成許多驚豔的效果,或者反轉所學網絡風格,憑空合成圖片,就像谷歌 Deep Dream 項目那樣。幾年前,我們壓根兒沒有構思如此複雜任務的念頭;現在,作為深度神經網絡的副產品,這個想法被紮實解決了,深度網絡本來是用來解決完全不相關的視覺分類問題的。

在我看來,對深度學習近期取得的進展,從事圖像處理研究的人可謂厭惡和妒忌參半。一些人已經選擇繼續袖手旁觀,有的人卻會相應地「與時俱進」,調整研究安排。我屬於後者,不過是有條件的。在我看來,想象這波浪潮會像燕過無痕那樣對我們的研究領域不產生重要影響,無異於掩耳盜鈴。所以,我也願意讓深度學習影響研究團隊的想法和行動,但是我們也會繼續找尋其中的數學優雅性,清楚理解我們提出的思想。是不是在追求不可能的事情,時間會證明一切。

簡單回到我的開場白,深度學習已經對人類生活產生重大影響,未來幾十年,人類生活很有可能變得大不同。人形機器人和智能系統將環繞我們周圍,並影響著人類活動的許多方面,就業和工作可能會成為過去式,人類關係也會經歷重大變化。直白點說,你的孫子輩兒可能會有位機器人伴侶。好笑的地方在這裡:這一怪異未來背後技術中,許多會源於深度學習及其後續領域。

深度學習進展迅速,但它是我們想要的未來嗎?工程師和研究人員的好奇和天賦正驅動我們走向這一未來,眾多公司和機構也將它視為自己的主要目標。如果我們不去討論如何規制技術進步,將這一技術趨勢導入我們想要的未來,將會發生什麼?是時候認真思考一番了。

相關推薦

推薦中...