Science介紹新型好奇心算法:基於強化學習摸索世界

人工智能 機器人 玩具 大學 機器之心 2017-06-02

選自Science

作者:Matthew Hutson

機器之心編譯

參與:吳攀、李亞洲

好奇心一直被一些科學家認為是智能的基本屬性之一,為機器賦予好奇心自然也是計算機科學家的重要研究目標,比如《學界 | 讓好奇心驅動人工智能:UC Berkeley 提出自監督預測算法》。最新一期《Artificial Intelligence》期刊的一篇論文試圖通過強化學習來讓機器具備一定的好奇心。研究者 Todd Hester 和 Peter Stone 在本論文中提出了一種內在激勵的基於模型的強化學習算法 TEXPLORE-VANIR,可以讓模型自己進行摸索式(exploration)的學習。Science 昨天發佈了一篇文章對這項研究進行了介紹,機器之心對本文及原論文摘要進行了編譯介紹。

在人工智能的曲折發展中,計算機科學家一直在編程有好奇心的機器——來自己摸索周邊的環境從而進行學習。這種新的方法能夠讓機器人更快地學習,某天甚至能夠在構建假說、推動前沿發展方面超越人類科學家。

布朗大學 Intelligent Robot Lab 的一位計算機科學家 George Konidaris 說:「開發好奇心是智能的核心難題。在未來當你不知道機器人該做什麼時,這會非常有幫助。」

Science介紹新型好奇心算法:基於強化學習摸索世界

過去幾年,科學家一直在研究好奇心方面的算法,但卻難以複製人類的好奇。例如,大部分方法不能夠評估人工智能體的知識掌握從而預測什麼是有趣的(在智能體看到事物之前),而人類有時看到書的封面就能判斷書是否有趣。

目前在谷歌 DeepMind 工作的計算機科學家 Todd Hester 希望能做得更好。他說:「我正在尋找讓計算機更智能地進行學習的方法,就像人類一樣進行摸索。但不是摸索所有事、隨機進行摸索,而是有小聰明的嘗試摸索。」

所以 Hester 和德州大學奧斯汀分校的 Peter Stone 開發了一種新算法 Targeted Exploration with Variance-And-Novelty-Intrinsic-Rewards(TEXPLORE-VANIR),這是一種依賴強化學習的技術。

在強化學習中,智能體會嘗試一些事,如果該行為更接近最終目標,例如走出迷宮,它就能獲得小獎勵,從而在未來再次嘗試這種行為。DeepMind 曾使用強化學習讓程序掌握 Atari 遊戲和圍棋。但和其他好奇算法一樣,TEXPLOE-VANIR 算法也設置了一個內在目標(internalgoal),讓程序獎勵自我從而理解新的東西,即使學到的知識並不能讓它更接近最終目標。

在 TEXPLORE-VANIR 學習和建立世界模型的時候,它會為發現之前從未見過的信息來獎勵自己。例如,發現地圖上的一個點,或者在廚房應用中發現不同尋常的菜譜。而且,它也會減少不確定性而獎勵自己,例如對某個地方或菜譜更為熟悉。

Konidaris 說:「它們是完全不同類型的學習和摸索,在之間進行權衡非常重要,我很喜歡這篇論文把兩者都做了。」

Hester 和 Stone 在兩個場景中進行了測試。第一個場景是虛擬迷宮,四個有門的房間組成的迷宮。該機器人(也就是一個計算機程序)需要找到鑰匙,使用它開門。每次通過一個房間它就會獲得 10 分,3000 步之內獲得高分。如果研究人員使用 TEXPLORE-VANIR 算法指導機器人摸索 1000 步,它平均獲得 54 分。但如果機器人使用其他算法進行這摸索,測試階段的得分從 0 到 35 不等。但它使用一種名為 R-MAX 算法時,也獲得了 55 分。在另一個不同設定中,機器人需要同時摸索、穿過大門,TEXPLORE-VANIR 獲得了大約 70 分,R-MAX 獲得了 35 分,其他得分約為 5。該研究成果發表在 6 月的《Artificial Intelligence》期刊上。

然後這兩位研究者在一個實體機器人(名叫 Nao 的人形玩具)上嘗試了該算法。在三個不同的任務中,這個半米高的機器人需要擊打一個鈸、或用它的手將粉紅色帶子舉到它的眼前、或按下其腳上的一個按鈕,從而獲得得分。對於其中每一個任務,它都有 200 個步驟可以得分,但在之前它有 400 個摸索步驟——要麼是隨機摸索,要麼使用 TEXPLORE-VANIR。在使用這兩種方法進行了 13 次試驗之後,使用 TEXPLORE-VANIR 進行摸索的 Nao 比隨機摸索的 Nao 能更好地找到其手上的粉紅色帶子。使用 TEXPLORE-VANIR 後,Nao 在 13 次試驗中有 7 次按到了按鈕;而在隨機摸索後,它一次也沒有按到。在擊打鈸方面,使用 TEXPLORE-VANIR 摸索後在 5 次試驗中擊中了 1 次,而隨機摸索後從未擊中。通過它自己的身體與環境的半結構化實驗,TEXPLORE-VANIR 為其分配的任務做好了準備,就像嬰兒在學會爬行之前舞動自己的四肢一樣。

但「好奇心會害死機器人」,至少會影響到它的生產力。如果其用於學習的內在獎勵太大,那麼它可能會忽略外部獎勵。馬薩諸塞大學計算機科學家 Andrew Barto 如是說,他是強化學習領域的標準教科書《Reinforcement Learning》的作者之一,而且也是 Stone 所創立的一家公司的無償顧問。實際上,當同時被添加到給門開鎖任務上時,R-Max 的得分會更低,因為它會因自己的好奇心而分心,就像某種人工智能多動症。另一方面,外部獎勵可能會干擾學習,Barto 說:「如果你提供成績或星星評級,那學生可能會為這些目標努力,而不再為他或她自己的滿意。」所以在訓練機器人上的突出難題是找到內在獎勵和外部獎勵的適當平衡。

在做家務、設計高效的製造流程或探索治病藥物時,智能的好奇的 bot 或機器人可能會有靈活的表現。Hester 說下一步是使用神經網絡(建模於大腦結構的算法)來更好地識別需要探索的全新區域,這也將順便推進他自己追求的目標:「我們可以打造一個能像孩子一樣學習的智能體嗎?」

論文:用於開發好奇機器人的內在激勵的模型學習(Intrinsically motivated model learning for developing curious robots)

論文地址:https://doi.org/10.1016/j.artint.2015.05.002

摘要:強化學習(RL)智能體通常被用來基於一個預定義的獎勵函數學習一個特定的具體任務。但是,在一些案例中,智能體也許可以在被給出任務之前就獲得關於這一域(domain)的經驗。在這樣的案例中,內在動機(intrinsic motivation)可被用於使該智能體能學習一個有關環境的有用模型,該模型很可能可以幫助其更有效地學習其最終的任務。這種範式尤其適合機器人,因為它們需要學習瞭解自己的動力工作方式和功能可供性,這些可以被應用到很多不同的任務中。本文提出了使用 Variance-And-Novelty-Intrinsic-Rewards 的 texplore 算法(TEXPLORE-VANIR),這是一種內在激勵的基於模型的強化學習算法。該算法可使用隨機森林學習一個域的轉變動態(transition dynamics)的模型。它可以計算來自這個模型的兩種不同的內在動機:一個用於探索模型中哪些地方是不確定的,一個用於習得該模型未曾訓練過的全新經驗。本文給出的實驗表明,這兩種內在獎勵的組合使得該算法可以在沒有外部獎勵的情況下學會一個域的準確模型,而且這個學習到的模型之後可被用於在該域中執行任務。在學習模型時,這種智能體可以以一種發育式和好奇的方式摸索該域,逐漸學會越來越複雜的技能。此外,實驗還表明,將智能體的內在獎勵與外部任務獎勵結合起來可以使該智能體學得比僅使用外部獎勵更快。我們的結果還表明這種方法可以應用在機器人的學習上。

相關推薦

推薦中...