未來的機器人未來

機器人 人工智能 機器學習 深度學習 泡泡機器人 2017-06-12

今天,給你帶來泡泡機器人成員(YY碩)原創的“未來的機器人未來” 一文。

5月30日,在AlphaGo擊敗柯潔一個星期之後,世界最大規模的機器人學術會議——第三十四屆ICRA(國際機器人與自動化學術會議)在新加坡召開了。大疆創新近幾年來每年都贊助和支持這項會議,因此我也參加了這次會議,得以在這次會議上目擊機器人前沿領域的一場爭論。

在過去幾年中,深度學習引發的浪潮讓計算機視覺、自然語言處理、語音識別等研究領域都紛紛倒向了神經網絡為主的研究方法,一大批研究成果也很快轉化成了可行的商業應用。“人工智能”這個概念在過去的五十年間幾次起落,這一次隨著深度神經網絡的復興,人們樂觀地估計,也許人工智能不會再衰落了,而是即將快速進入人類的生活。另外讓所有人感到驚奇的是,這一波人工智能的浪潮居然在中國掀起了最大的波瀾。過去兩年中,中國新興的人工智能創業公司數量與硅谷不相上下,人工智能相關的科技媒體、展會、論壇更是雨後春筍一般出現,甚至有一個週末不同地區的不同組織在同時舉辦好幾場“科技論壇”、“人工智能大會”的盛況。

和人工智能的其他領域相比,機器人領域的研究者並沒有那麼快接受深度神經網絡,即使這個研究領域正在遇到一些瓶頸和困難可能會被深度神經網絡解決。

一些非技術背景的媒體和大眾往往認為機器人和人工智能是一回事。事實上,他們兩者差別很大。機器人這個學科是自動化和機械設計的衍生學科,早在文藝復興時代就已經開始被達芬奇這樣的上古大神思考和研究,幾百年來都以如何讓人類設計的機構具備更強的自主性為主要目標。而人工智能則是在計算機誕生之後才出現的新興學科,繼承了數理邏輯和統計學,目的是讓機器實現接近人的思考和邏輯推理的能力。兩者一定程度上有點類似,機器人學是在設計仿生人類軀幹的機器,而人工智能學是在設計仿生人類意識的機器,兩者當然可以結合起來,也必須結合起來,但是他們的研究方向和目標有本質的不同。

人類的意識具有豐富的想象力,意識存在於大腦中,大腦的奧祕至今未被人所知。而人類的軀幹,雖然也有諸多未解之謎,但是人們對軀幹的大體結構和工作原理已經搞得比較清楚了:大腦想要讓軀幹執行一個動作,於是對脊髓發出神經信號,脊髓將信號傳導到對應身體部位的肌肉中,讓肌肉收緊,從而帶動身體部位產生想要的動作。

過去幾十年中,製造業對自動裝配和自動執行任務的需求催生了工業機器人這項技術。一臺工業機器人就是對一部分人類軀幹的仿生:鋼製的結構是身體部位,關節電機是肌肉,電線是神經,而控制器則是一個簡單的大腦。工業機器人只需要從一個地方把裝配用的物料伸手送到另一個地方去擺好,等著另一個機器人伸手過來焊接或者裝配就夠了。工業機器人功能極其有限,只能用來抓取特定形狀的物體、做一兩個動作,但是可以高精度、無休止地重複這個動作。

未來的機器人未來

現在我們有了能高精度重複勞動的機器人。直到這一步,機器人學家們對於機器人如何設計和開發,都有著共識。但是下一步工作,就給研究者們造成困惑了:如何讓機器人能夠適應未知的環境並且與之交互?這個問題對於工業機器人的下一步發展至關重要。目前投入應用的工業機器人,都必須有一個精密的產線與之配套,裝配的物料必須放在特定位置給工業機器人、流水線上運過來的待裝配的結構也必須在特定的位置,偏一兩釐米都不行;工業機器人的手是為要裝配的物料特殊定製過的,如果把這臺機器人搬去另一條產線抓取其他的物體,手就必須更換,機器人大腦裡的程序也得重寫……

理想情況下,我們希望機器人大腦裡的程序不需要重寫,就能夠適應抓取物體過程中物體位置和抓取的手的不確定性或者變化。這裡的困惑點在於:應該怎樣在機器人大腦裡寫程序去讓機器人有一定的適應性。適應性來自於什麼樣的程序、表達方式和數學工具?

傳統的機器人學研究認為,有效穩妥地控制機器人抓取剛性的物體,需要對機器人的模型和被抓取的物體的模型知道得很清楚,然後做妥善的受力分析,比如抓取球,那麼要先通過傳感器掃描這個球,獲取它的形狀,然後分析對這個幾何體的哪幾個位置施加力就能夠穩定把它抬起來,然後再控制機器人的手移動到能夠產生這些力的位置。抓取球、抓取立方體、抓取圓柱體,都可以這樣做。機器人控制過程中的適應性則是來自於在模型當中添加一些“噪聲”,也就是讓模型稍稍變得不精確,然後讓控制器能夠抵抗這些噪聲的干擾。

大家就會問,那麼抓取個毛巾、或者抓取一個橡皮鴨子這類軟的能變形的東西怎麼辦。這個確實很難辦。傳統機器人學家可能會爭論道,毛巾也可以被看做是一大堆剛性物體連接成的整體,還是能用同樣的辦法分析,只是被抓取的物體複雜一些而已,當然這些需要極大的計算量去對毛巾進行建模,可能還需要一些有限元分析的技巧。而橡皮鴨子則就更難辦了,隨著橡膠的老化,新鴨子和舊鴨子的硬度不同,光從外表上看不出區別,能施加給舊鴨子的力可能會把新鴨子捏扁。

正在傳統機器人學頭疼這些問題的時候,基於神經網絡的方法出現了!

百度前首席科學家Andrew Ng(吳恩達),博士期間師從世界公認的計算機視覺大神Micheal Jordon(不是打籃球的那個),2004年從美國加州大學伯克利分校博士畢業後,在斯坦福大學教書,帶出了一名叫做Pieter Abbeel的弟子。Pieter Abbeel 2008年從斯坦福大學博士畢業後,又回到了美國加州大學伯克利分校做教授。所謂將門無犬子,Pieter Abbeel 4年博士期間發表了眾多有里程碑意義的學術論文,開啟了“學徒學習”這一個嶄新的增強學習領域。2011年,Pieter Abbeel 進一步改進了傳統增強學習技術中的策略網絡技術,通過深度神經網絡表達機器人的運動策略,使用策略搜索(Policy Search),實現了機器人疊毛巾的演示:

未來的機器人未來

隨後的幾年間,Pieter Abbeel進一步做出了更多讓人感到驚訝的演示,他們實驗室的機器人逐步學會了更多的動作:

未來的機器人未來

未來的機器人未來

此間,2012年開始,用深度神經網絡實現的圖像識別算法開始在ImageNet上吊打傳統方法,股價只有5塊錢的Nvidia宣佈賭上全家老小搞深度學習。2014年,Pieter Abbeel實驗室的博士後Sergey Levine發明了啟發式策略搜索(Guided Policy Search),進一步提高了機器人學習新動作的效率。Sergey Levine後來成為了伯克利的教授,和Pieter Abbeel一起繼續在基於神經網絡的機器人控制研究領域探索。2016年,採用深度神經網絡策略搜索技術的AlphaGo擊敗李世石,Nvidia的股價站上100塊錢,進一步讓這種技術站上了風口浪尖。

和傳統機器人學不同,Pieter Abbeel和Sergey Levine採用的方法並不在乎機器人的模型和被抓取的物體的模型,也不對抓取的過程做任何受力分析。策略搜索技術的原理很簡單,讓機器人用一個相機看著自己的手,胡亂移動,碰巧能把積木拼起來就可以得到“獎勵”,拼不起來只能得到“懲罰”。這裡的獎勵和懲罰不是對機器人的虐待或者摸摸頭給個糖什麼的,只是對“選擇調整神經網絡權值的梯度方向”的一個形象表達,這裡神經網絡的輸入是圖像和機械臂上關節的位置,輸出是當前這個狀態下應該給關節上施加的控制量,每個時刻的輸入都對應一個輸出,所有時刻的輸出就構成機器人的動作序列。機器人得到足夠的獎勵後,也就能學會拼積木的動作序列。當然基於神經網絡的策略搜索並非完全遺棄傳統方法,Sergey Levine發明的啟發式策略搜索就藉助了傳統機器人學的方法,先通過傳統方法讓機器人大概按照能拼起積木的動作移動一下,然後用這個動作序列去啟發機器人的學習過程,實現更快達成學習目標的目的。(上面第二個動圖實際上是在描述一個啟發過程,不用在意這些細節)

在2017年的ICRA召開前夕,Sergey Levine已經是整個機器人學界最受人矚目的焦點,可能沒有之一。4月17日,Sergey Levine在世界第一的機器人研究機構——卡耐基梅隆大學(CMU)機器人學院演講的時候,據說聽眾人山人海,走廊都坐滿了人。在ICRA會議裡,Sergey和自己的學生一口氣發表了10篇論文。ICRA會議甚至專門為“策略搜索”設置了專題演講環節,整個環節就是Sergey的學生輪番上陣講論文。

然而,並非所有的科學家和研究人員都信服這種新的技術。前幾天我在一個知乎回答AlphaGo「理解」圍棋嗎? - 知乎裡介紹了AlphaGo懷揣神經網絡煉丹的方式,策略搜索也是同樣的思路。機器人在拼積木時,每隔一小段時刻都會問自己懷裡的神經網絡該怎麼移動,神經網絡根據它當前的狀態,告訴機器人應該怎麼移動自己的關節。神經網絡裡面的結構對於機器人和機器人的研究人員來說都是黑盒子。在傳統機器人學裡,人們在控制論的基礎上發展出了對控制器可靠性和穩定性的分析理論。根據傳統方法設計出的控制器,因為都是顯式的數學表達式,所以可以嚴密精確地分析控制器是否可靠,是否會在機器人處於特定的狀態時失控。然而根據策略搜索技術設計出的控制器,是一個包含神經網絡的黑盒子,無法通過數學方法嚴密精確地分析控制器是不是可靠。

我在ICRA和不同大學的研究人員就這個問題聊天。聽到了各種不同的聲音。Pieter Abbeel的學生MZ和我討論他的一項用策略搜索讓一個特種機器人能夠學會移動的工作的時候,坦言現在他們完全沒有考慮過控制器穩定性魯棒性這些問題。CMU的某實驗室負責人SS則非常激烈地批判了這種方法,覺得讓研究生和博士埋頭調神經網絡很蠢(graduate student in the loop control)。

Pieter Abbeel和Sergey Levine在加州大學伯克利分校的另一個同事,負責AutoLab的Ken Goldberg,則在ICRA上發表了一項與Google合作的新工作,讓基於神經網絡的方法和傳統的機器人學方法稍稍顯得沒有那麼對立。這項叫做Dexterity Network(Dex-Net)的研究是這樣的:首先通過傳統機器人學中分析受力和建模的思路,建立一個包含大量數據的數據集,這個數據集裡的每一項數據包含一個物體的模型和這個物體在不同姿態下可以被穩定抓起來的施力方式,這些施力方式是通過物體模型計算出來的。有了數據之後,用這些數據訓練一個神經網絡。然後給出一個新物體,通過神經網絡判斷這個物體和數據集裡哪個物體最相似,然後根據最相似的物體的數據集裡包含的施力方式計算出這個新物體的最穩定施力方式。說起來簡單,但是其實做起來裡面有異常龐大的計算量,於是整個算法佔用了Google雲服務器上的1500臺虛擬機的計算量。這個工作整合了眾多新的思路和工具,實現得非常漂亮,同時也讓“雲機器人”這個概念受到了關注。但是,它的優秀表現來自於背後巨大的計算量,雖然思路很簡單,但是這個巨大的計算量需求讓人看起來感覺也許繼續沿用傳統的方法給被抓取的物體掃描建個模重新分析受力也沒有吃多少虧。

6月2日是本屆ICRA最後一天,這一天舉辦了各種workshop,讓大家能夠通過更詳細的演講互相交流學習。其中一個workshop——AI in Automation,讓基於深度學習的方法和傳統機器人方法之間的爭論變得異常激烈。

AI in Automation這個workshop到場的知名研究人員除了Pieter Abbeel,Sergey Levine和Ken Goldberg以外,還有Rosen Diankov。Rosen Diankov博士畢業於CMU的機器人學院,是Mujin的CTO,而Mujin應該是目前世界上給工業機器人加裝視覺識別和規劃解決方案最優秀的公司。前陣子國內一家叫做梅卡曼德的創業公司獲得了數百萬天使投資之後,自豪地說公司的目標是“對標Mujin”,Mujin的技術領先程度可見一斑。

Rosen Diankov介紹了Mujin在工業生產實踐中獲得的經驗,順便直截了當地表示“雲機器人”不靠譜,臺下的Ken Goldberg當場就不樂意了,兩人一頓爭辯。Rosen Diankov後來又諷刺了基於深度學習的方案肯定會讓使用者完全沒法在機器人出問題的時候向客戶解釋是什麼原因,也引發了一些聽眾的討論。

後來當Pieter Abbeel演講的時候,workshop變得人山人海,房間後面站滿了聽眾。

未來的機器人未來

未來的機器人未來

他演講完後,第一個提問的居然是Vijay Kumar。Vijay Kumar是賓夕法尼亞大學的工程院院長,美國國家工程院院士,擔任過白宮科技政策辦公室助理總監,優秀的機器人學家,也是多旋翼飛行器領域公認的先驅者。Vijay Kumar問Pieter Abbeel他的方法如何應對複雜的接觸力變化。而Pieter Abbeel回答說這些我們都沒有考慮,不知道如何我的方法就是好用了。Vijay Kumar又接著問了一些問題,Pieter Abbeel的解釋看似並不能讓他信服。

同樣在臺下的我暗暗驚訝居然能夠在一個屋子裡見到這麼多我認識或者不認識的機器人領域的大神們,聽他們討論機器人技術的未來。

結束ICRA之後,在微信上和加州大學伯克利分校的朋友聊起來workshop的所見所聞,朋友說在伯克利,Pieter Abbeel等人也經常在各種seminar和talk上與伯克利做傳統機器人控制的一派學者比如Ruzena Bajcsy他們爭論。我又好奇去打聽了一下其他學校,CMU大部分教授都持懷疑態度,只有Abhinav Gupta等少數幾人和伯克利同行打成了一片;MIT教授Russ Tedrake,2004年和吳恩達同時期博士畢業,畢業論文寫的是用增強學習和神經網絡訓練機器人的控制器,然而現在放棄了這種思路,轉而去仔細鑽研機器人系統的物理和動力學模型,似乎說明了自己的立場。所以北美傳統CS四大名校中,除了斯坦福完全不怎麼搞機器人以外,其他三所學校機器人方向的研究人員都各有態度。

很多人都看到了基於神經網絡的方法的神奇之處,但是都因為這種方法沒法從理論上嚴格證明穩定性而在態度上有所保留。不能理論上證明穩定性,就意味著不安全,不安全的機器人,不應該和人類一起工作,還記得阿西莫夫機器人三定律嗎?安全,作為機器人學發展過程中始終需要牢記的要點,確實是對深度神經網絡控制方法的強有力反駁。在自然語言處理和語音識別這些人工智能領域的發展早期,也有過類似的爭論,概率性的統計系統最終戰勝了邏輯嚴密的專家系統。但是語音識別系統出了錯,無非是鬧個笑話;而機器人系統出了錯,輕則毀物傷人,重則造成人類的生命危險,馬虎不得。

深度神經網絡和增強學習的支持者則認為,機器人通過嘗試不同動作獲得獎勵或者懲罰的過程,和人類的學習過程是類似的,因此雖然這種方法沒有理論的證明,但是仿生的原理就是最好的證明。當然,這種說法也有可商榷之處:人類在學習抓取一個物體的動作後,還可以閉上眼睛再抓取一遍;但是利用深度神經網絡設計的機器人控制器,如果沒有圖像輸入則完全無法運行,這說明人類在學習過程中學到了更多的東西,或者藉助了更多的傳感器,不僅僅是圖像。

在我看來,2017年的機器人學界正處於歷史的關鍵時刻。隔壁計算機視覺領域的學者已經達成了“深度神經網絡好好好不搞不是地球人”的狀態,而機器人學界還在彼此爭論的狀態。未來會如何發展呢?我不禁想起《歐拉的寶石》(Euler's Gem)中講述的四色證明問題:數學家們一開始都認為四色問題可以嚴格地通過推理證明,但是在很多年的糾結之後不得不接受四色問題只能通過計算機窮舉得證。機器人的控制和規劃,是不是也是下一個四色問題呢?用黑盒子般的神經網絡代替傳統的嚴密的數學方程進行機器人控制,如果真的只有這樣才能實現更加智能的機器人的話,機器人學家們會像《數學:確定性的喪失》(Mathematics: The Loss Of Certainty)中描述的那些因為哥德爾不完備定理而極度失望的數學家們那樣放棄這個研究領域麼?

或許,神經網絡的方法火熱一段時間之後也會沉寂下去。在機器人學發展的早期,有一種叫遺傳算法的技術和叫做Lisp的編程語言,有人用這兩者實現了自動給機器人生成控制邏輯的算法。通過類似神經網絡反向傳播梯度的機制,讓Lisp自動裁剪程序邏輯提高控制的表現,最後生成一大堆人根本不能讀懂的程序,但是可以實現對機器人的控制。即使凱文凱利在他的《失控》一書中深情鼓吹過這種算法的牛逼之處,但是二三十年來,遺傳算法並沒有成為機器人科研和工業實踐中的主流。本質上來說,神經網絡只是這種技術的另一種實現形式。

應該繼續堅守傳統的方法,還是採用神經網絡的黑盒子去控制機器人,我想很多人都希望知道這個問題的答案。深入去看的話,這個問題又和更多深層次的問題聯繫在了一起:神經網絡是不是可以作為機器人的大腦?通過神經網絡學習機器人的動作是不是在模擬人類的學習過程,進而,是不是模擬了人類的意識?意識是神經網絡的簡單連接,還是精密的數學公式?我們應該用仿生的方式去探索對人類智能和意識的模擬,還是應該繼續構建公式和可推導的理論?神經網絡在其他人工智能領域的勝利是否也會在機器人領域再次復現?

劉慈欣早年有一篇短篇小說叫做《朝聞道》,描述了這樣一個場景:名為“排險者”的具備先進文明的外星人來到地球,和地球人接觸後決定,把一些人類未知的數學和物理學的研究問題的解決方法告訴地球的科學家,但是為了不破壞宇宙文明間不能主動幫助其他文明發展的“知識密封準則”,這些科學家在瞭解自己想知道的科學問題的答案之後,必須被排險者殺死。雖然外星人提出了這樣的要求,但還是有大批科學家前來詢問外星人問題,然後心甘情願被殺死。接受這個條件的有數學家、古生物學家和物理學家。如果外星人在2017年來到地球,我想一定會有機器人學家上前去詢問外星人上面這些問題。

餘生也晚,沒有看到19世紀末愛迪生和特斯拉關於直流電交流電的爭論,也未曾目睹20世紀初愛因斯坦和玻爾對量子力學的爭論。如今這個時代,可能真的能夠親身參與到機器人領域一場重要的爭論和發展的過程之中,想想還是非常激動的。


#泡泡嘮叨話#

  • #001 感謝你的閱讀,頭條號的第七篇。

  • #002 歡迎留言講講感受哈!

  • #003 ©本文由泡泡機器人原創編輯,轉載請聯繫[email protected]獲得授權。

相關推薦

推薦中...