深度學習的大麻煩

機器學習 深度學習 圖像處理 數學 PHP愛好者 2017-05-29

我實在對這個難題感到很困惑。它讓我每天都處於六神無主的狀態,好像我就是無法找到將它解決掉的可靠辦法。不,我所談論的與其說是關於世界政治或現任美國總統,倒不如說是關於和人類休慼相關的事,更具體地說,就是關於我們身為工程師和研究人員該如何生存和工作。我說的是關於…深度學習的難題。

雖然你可能會發現我的以上描述相當誇誇其談,言過其詞,但深度學習確實給我們提出了幾個必須解決的關鍵問題。在以下的段落中,我希望給大家曝光源於此領域的出現才滋生出的一個關鍵的對抗,該對抗又與圖像處理領域的研究人員緊密相連。

首先,只需深度學習的寥寥數語就能讓我們正確看待這場討論。人們獲悉神經網絡的存在已有幾十年了,由此一套放之四海而皆準的學習技巧也應運而生,該技巧原則上可以適用於人們去學習所有的數據源。在其前饋結構裡,多層感知器——也被稱為神經元——首先運行輸入量的加權平均,其次是非線性,如S狀曲線或糾正線性曲線。人們可以修整這個超級簡單的系統,用其將既定的輸入量調整到其所需的輸出量,並服務於各種監督迴歸和分類問題。

所有這一切聽起來都很好,但不幸的是,這一理念在20世紀80年代和90年代並沒有獲得普及——只因它沒能表現出十足的競爭力。此外,對學習任務採用支持向量機的應運而生,伴隨著堅實的理論基礎和凸優化配方,該理念更是被宣告大勢已去。最終,神經網絡進入了漫長的蟄伏期。只有幾位堅持不懈的研究人員——Yann LeCun(紐約大學和臉譜網),Geoffrey Hinton(多倫多大學)、Yoshua Bengio(蒙特利爾大學),和 Jürgen Schmidhuber(從事人工智能研究的Dalle Molle學院——仍停留在這個舞臺上,堅持試圖說服大家說這個看似註定無可救藥的方法一定能夠起死回生。好幾個重要的體系結構構建成功,如卷積碼和冗長的的短期記憶網絡,都和他們的努力是分不開的,但它們的適用範圍仍很有限。接著神經網絡又突然捲土重來,而且來勢洶湧。

在2000年代初發表的一系列論文都建議這種結構應被成功應用起來,勢必造就對差不多所有指派的任務都能出色完成的效果。要做出這些貢獻所需掌握關鍵方面包括:一層層諸多網絡的使用,這也更好地說明什麼叫“深度學習,“ 即深度學習是用來修整大量數據庫的;大量的計算通常運行在計算機集群或圖形處理單元裡;明智的優化算法,即採用有效的初始化和漸進的隨機梯度學習法。不幸的是,要取得所有這些偉大的經驗成果,卻幾乎沒有任何在理論上可以理解的基本範本可以用來照葫蘆畫瓢。此外,在學習過程中所採用的優化又是從理論上看來高度非凸的和棘手的。

此應用程序的嘗試始於書面數字識別(見圖1),然後慢慢地,小心翼翼地轉向更具挑戰性的視覺和語音識別和自然語言處理任務,並從那裡人們幾乎可以投入幾乎所有的監督學習任務。谷歌、臉譜網和微軟等公司很快就意識到了這一領域的潛力,它們都已經投入了大量的人力和預算,以便掌握這些工具並在他們的產品中將其加以利用。在學術前沿,有關信號處理,圖像處理和計算機視覺的各項會議已成為深度學習的園地,這也有助於這個工作行當逐漸佔據主導地位。

深度學習的大麻煩

圖1。 神經網絡已顯示出巨大的潛力,首先用於字符識別,隨後用於許多其他的作業。圖片來源:Michael Elad。

這段發展史將我們帶到今天。為了簡潔起見,考慮一下對經典的圖像處理作業採用去噪法——即從圖像中去除噪聲(見圖2)。多年來,有數千篇關於這項基本作業的論文得以發表。研究人員用偏微分方程當工具開發出了既美麗又深邃的數學思想,譬如各向異性擴散和總變差,能量最小化觀點,對流形圖像採用幾何解釋,利用貝爾特拉米流等等。諧波分析和逼近理論也用來完成去噪任務,使得微波理論和稀疏表示得以取得重大突破。其他的奇思妙想包括低秩近似,非本地手段,貝葉斯估計,穩健統計。因此,在過去的三年中,我們獲得了大量的圖像處理知識,對許多其他的圖像處理作業產生了影響,並在數學上有效地提升這一領域到一更高水準。

深度學習的大麻煩

圖2.去噪的例子. 左圖。原始圖像(公共領域)。 中圖。 該圖像為受標準= 100的加性高斯噪聲所敗壞後。右圖。由一種領先的算法得出的去噪結果——即BM3D [ 1 ]了。圖片來源:Michael Elad。

在2012年,Harold Burger,Christian Schuler和Stefan Harmeling三人決定把深度學習投入到這個問題的解決中。這個想法從概念上來講很簡單:去拿一大組乾淨的圖像,給它們添加合成噪聲,然後將它們侷限在學習過程中,其目的就是把一張張嘈雜的圖像轉變成一張張乾淨的圖像。而這一過程不但是繁瑣的和令人沮喪的,而且是漫長的——為找出最佳效果而調整這種方法的各項參數可能要花費很長的一段時間——最終的結果是形成了一個網狀圖像,該網狀圖像比當時任何經去噪算法處理過的已知圖像所表現的效果都要好些。

以上做法不是個案。今天,人們用深度學習來滿足處理許多其他圖像的需要,已經取得無與倫比的效果。該效果更是千真萬確的,譬如用其處理單幅圖像超分辨率,插值,復原、分割、圖像標註和人臉識別等。

我們應該對這種趨勢感到高興嗎?那麼,如果我們正在著手解決實際問題,如去除噪音,那麼結果肯定是如果哪裡有噪音,那麼那裡的噪音就會被去除乾淨。對嗎?因此,尋求到如此解決方案的公司應該會感到很滿意。但是我們科學家又能做些什麼呢?我們對圖像去噪問題背後所付出的巨大努力,其真正目標又是什麼呢?是的,我們的目標就是相當有效的噪聲去除算法,但這隻構成了我們動機的一小部分,因為我們還有一個更廣泛和更深層的日常安排。在我們領域的研究人員旨在瞭解我們操作所依賴的數據。這是通過建模信息,得以破譯其真實的維數和表現的現象。這樣的模型在圖像處理中對去噪和諸多其他問題都很有用,但它們的用處遠遠不止於此,它們允許識別新的方法來從數據中提取相關知識,使我們獲得全新的視野。

現在再次回到主題上:我們對基於深度學習而得出的解決方案應該感到高興嗎?我們遭受的挫折是合理的嗎?深度學習在成像科學中的作用是什麼?當各社區的研究人員在會議上碰頭時,這些問題就都露了出來,答案是千奇百怪的,令人不知其所以然。事實勝於雄辯;在大多數情況下,基於深度學習而獲得的解決方案,不但缺乏數學的優雅,而且會出現對已經發現的解決辦法提供很少的解釋性或對底層缺乏理解的現象。然而,從積極的方面來看,取得的成績是驚人的。這顯然不是我們一直所傳授的研究學派,也不是我們想付諸實踐的那種科學。我們是否應該堅持更嚴格的方法,即便付出的成本遠遠落後於產量質量方面?或者我們應該反擊,並尋求方法融合深度學習理念到我們日常實踐中呢?

為了進一步將這件事情弄複雜些,某些基於深度學習而取得的成果具有一些典雅美,該典雅美是誰都無法抹殺的。對於風格轉移的問題來說,目前情形就是這樣,因為它已經產生了令人驚訝的美麗效果,而對於學習網絡的反演想法以往常被用於憑空合成圖像,正如谷歌的深度夢想項目所做的一樣。就在幾年前,對於如何制定這樣的複雜作業,我們往往手足無措;現在若碰到這些複雜作業我們只是將它們作為一種深度神經網絡的副產品很快就迎刃而解了,因為該深度神經網絡曾為如何應對視覺分類的完全無關作業接受過專門訓練。

從我個人的角度來看,圖像處理研究人員對最近的這種深入學習的趨勢感到厭惡和嫉妒,不斷把自身推向我們的圈子。 我們中的一些人現在已經選擇了做旁觀者,而另外一些人相互協調並轉移他們的研究議程。 我屬於後者,有一些限制。 在我看來,想象這波通過並對我們的領域沒有明顯的影響是不可能的。 因此,我允許深入學習來影響我的研究團隊的想法和行動,但是我們繼續堅持要求數學優雅,清楚地瞭解我們開發的想法。 時間會告訴我們是否瞄準了不可能的事情。

總而言之,繞回到我的有關深度學習對人類產生巨大影響的開場白,在將來的幾十年里人類的生活可能會發生翻天覆地的變化。類人機器人和智能系統可能會佔據我們的日常生活,影響我們從事的許多活動,連就業和工作可能已經成為過往,人與人之間的關係可能會發生劇烈變革。坦率地說吧,你的孫子很可能會找一個機器人當配偶。這是句雙關語:在這個稀奇古怪的未來後面許多技術很可能會從深度學習和它的後續領域中浮出水面。

雖然這項技術的前進步伐日新月異,我們卻沒有停下來思考一下這是否就是我們自己想要的未來。工程師和研究人員的好奇心和驚人天賦正勢不可擋地推著我們走向未來,正如各類公司緊盯利潤當做自己的主要目標一樣。我們為什麼很少參與討論,去規範或控制這一進程的發生,並引導它朝著一個理想的未來挺進呢?

相關推薦

推薦中...