新論文提出深度API編程器：可以學習使用API編程

人工智能微軟微軟研究院 Excel 機器之心 2017-04-19

選自arXiv.org

機器之心編譯

參與：吳攀

讓機器學會自動編程一直以來都是人工智能研究界所追求的一個重要目標，甚至被一些人認為是實現真正通用的人工智能的關鍵。在這方面的研究也一直是層出不窮，比如《深度 | 機器的自我進化：走向自主編程的人工智能（附提交 ICLR 2017 的自動編程論文）》和《學界 | 劍橋與微軟提交 ICLR 2017 論文提出 DeepCoder：組合其它程序代碼生成新程序》。近日，麻省理工學院和微軟研究院的研究者又發佈了一篇相關論文，提出了一種可以學習使用 API 編程的方法——深度 API 編程器。機器之心對該論文的部分內容進行了編譯介紹，其中重點介紹了該方法的概述部分，更多詳情請點擊文末「閱讀原文」查閱原論文。

新論文提出深度API編程器：可以學習使用API編程

我們提出了 DAPIP（Deep API Programmer/深度 API 編程器），這是一個可以根據示例編程（Programming-By-Example）的系統，其可以學習使用 API 來編寫執行數據轉換任務的程序。我們設計了一種領域特定語言（DSL：domain-specific language），允許 API 輸出和常量字符串的任意拼接（concatenation）。該 DSL 由三個 API 系列組成：基於正則表達式的 API、查找 API 和轉換 API。然後我們提出了一種全新的神經合成算法（neural synthesis algorithm）來在該 DSL 中搜索與一個給定的示例集一致的程序。該搜索算法使用了最近引入的神經架構來編碼「輸入-輸出示例（input-output examples）」和建模在該 DSL 中的程序搜索。我們的研究表明：在合成基準和真實世界基準上，該合成算法在程序合成上的表現都優於基線方法。

1 引言

總體而言，這篇論文的主要貢獻有：

我們設計了一個表達式 DSL，其帶有可以編碼句法和語義數據轉換任務的 API。
我們使用神經架構在該 DSL 中自動學習了一個用於合成程序的的合成算法。
我們在 238 個真實世界 FlashFill 基準和數千個合成基準上評估了我們的系統 DAPIP。

2 目標示例

示例 1：一個 Excel 用戶想要將一些名字轉換成如圖 1 所示的形式。因為一些輸入樣本有可選的中間名，所以該用戶難以找到一個可以用於執行該任務的宏。

新論文提出深度API編程器：可以學習使用API編程

圖 1：縮寫名字的 FlashFill 任務示例。該用戶提供了前兩個輸出，然後學習到的程序自動生成了下面加粗的兩項

DAPIP 為這個任務學習到了以下程序：

Concat(GetFirstChar(v), ConstStr(「. 00), GetLastWord(v))

這個學習到的程序使用了屬於正則表達式 API 的 GetFirstChar 和 GetLastWord API，其可以基於正則表達式來提取輸入字符串中的子字符串。

3 方法概述

現在，我們給出我們的學習在一個 DSL 中合成與示例集一致的程序的端到端系統的概述。我們的系統的訓練階段如圖 4 所示，測試階段如圖 3 所示。我們首先設計了一個允許使用常量字符串組成嵌套 API 調用的 DSL。在設計這個 DSL 之前，我們研究了大量真實的字符串轉換任務，以使得其有足夠的能力編碼這些任務。在訓練階段，我們使用了一個程序採樣器（program sampler）來統一從該 DSL 中採樣大量程序。對於其中每一個程序，我們都使用了一種基於規則的方法來為其構建了 5 個輸入字符串，以滿足該程序的先決條件。我們通過在這些輸入字符串上執行程序來獲取輸出字符串。

新論文提出深度API編程器：可以學習使用API編程

圖 3：給定一組輸入-輸出示例，使用訓練好的 R3NN 模型來從該 DSL 中採樣程序；即使是在推理的用例中，節點也會以一種獨特的離散方式擴展

新論文提出深度API編程器：可以學習使用API編程

圖 4：基於輸入-輸出示例，訓練該 R3NN 網絡來學習 DSL 擴展之上的分佈；擴展（expansion）按一種由條件分佈確定的特定順序執行。

在訓練階段，每個被採樣的程序與其對應的輸入-輸出樣本被用於訓練該 R3NN 模型，這是一個可以根據示例學習該 DSL 中的擴展之上的分佈的神經架構。這些示例的編碼使用了另一種被稱為交叉相關編碼器（cross-correlational encoder）的神經架構，其可以產生一個固定維度的向量。該 R3NN 系統將這個輸入-輸出調節向量（input-output conditioning vector）、該 DSL 和其訓練程序作為輸入，並被訓練用於預測在該 DSL 擴展的集合上的一個條件分佈。接下來的擴展是從這個條件分佈上採樣的，這會導致形成部分樹（partial tree），然後重複該流程；你可以在對應的圖中看到潛在的指數級節點增長。

然後這個訓練好的 R3NN 模型可以在給定一組示例的情況下在該 DSL 中合成程序。這個訓練好的模型的輸入是那個輸入-輸出調節向量，然後在該 DSL 擴展的集合上生成一個分佈，該擴展很有可能是構建想要的程序所需的擴展。然後該分佈會被採樣，以在該 DSL 中導出程序，其中擴展的階數是由該分佈確定的，如對應的圖中所示，而且該系統會返回首個與該輸入-輸出示例一致的程序。

4 領域特定語言（DSL）

這個用於基於 API 的字符串轉換的領域特定語言的句法如圖 5 所示。該語言的頂級結構是 Concat 函數，其返回其參數子字符串 fi 的拼接（concatenation）。子字符串表達式 f 可以是一個常量字符串 s、輸入字符串 v 或一個以 f 作為參數的 API 函數的結果。該 Concat 算子允許使用常量字符串來組成 API 調用。該 DSL 由 3 種 API 組成：正則表達式 API R、查找 API L 和轉換 API T。

新論文提出深度API編程器：可以學習使用API編程

圖 5：用於 API 組成的 DSL 的句法

5 用於搜索的神經架構

這種在 DSL 中程序上基於輸入-輸出示例的神經搜索使用了 [Parisotto et al., 2016] 中介紹的模型。首先，其輸入-輸出示例被編碼成了一個固定長度的特徵向量，其目標是在輸入和輸出字符串之間獲取共享的模式。然後這種示例表徵會被傳遞給程序樹（program tree）上的一個基於神經樹（neural tree）的生成模型，該模型被稱為 R3NN，可以用來生成所需的隱藏程序。我們提供了對這兩種架構的高層面的概述。

相關推薦

'數據不出本地，還能享受大數據訓練模型，聯邦學習提供一種學習新範式'

"聯邦學習，提出至今不過兩年而已~作者：Camel編輯：唐裡近日，聯邦學習概念的提出者之一 Blaise Aguëray Arcas 在韓國針對全球做了一個關於聯邦學習的在線workshop。Blaise Aguëray Arcas是2014年加入的谷歌，在此之前在微軟任傑...

人工智能大數據 Google 微軟技術韓國輸入法工程師楊強香港科技大學亞馬遜公司語音合成人生第一份工作 2019-09-15

'AI硬件碎片化難題，英特爾用“一個API”解決，還推出新語言DPC++'

"曉查發自凹非寺量子位報道 | 公眾號 QbitAIAI開發者最怕什麼？硬件不統一，帶來的開發碎片化問題。現在用於AI開發的硬件，不僅有CPU、GPU，還有FPGA、AI專用計算芯片。不同的硬件需要不同的API，甚至是不同的編程語言。將原來開發的AI程序移植到另外一...

英特爾人工智能軟件編程語言中央處理器英偉達技術硬件 Facebook 程序員編譯器設計黃仁勳 Twitter GPU 深度學習工程師數學百度歷史 MATLAB 2019-09-03

'智能出行多簡單？新寶駿啟用手機鑰匙，車聯網深度定製體驗'

"從智能手機到智能家居、從智能家居到智能出行，"智能"概念漸漸深入到了我們生活中，而在進入到現代汽車製造後，"車機"概念便成為了智能出行的一大載體與結晶，很多傳統汽車製造商通過改造現有產品進行功能融合與研發。但只有上汽通用五菱成立了全新獨立品牌——新寶駿，來進行徹底和全方位...

寶駿汽車智能手機智能家居智能出行現代汽車語音識別技術轎車軟件人工智能技術我的第一部5G手機人機交互上汽通用五菱 2019-09-01

'重慶智博會觀察：李彥宏為何要提深度學習框架？'

"文|鄰章九言勸醒迷途仕，一語驚醒夢中人。李彥宏在2019中國國際智能產業博覽會上發表的主題演講，對於我國人工智能的研究發展而言，頗有此意。他在演講中表示：“過去我們津津樂道說中國的人工智能的論文發表數量、專利申請數量是全球第一，但是今天我們更多的是要看人工智能整體這個開發...

人工智能李彥宏技術百度 Google 重慶 Facebook 農業算法搜狗美團網人生第一份工作百度地圖操作系統小米科技林業華為公司網易中興通訊聯想集團頭號大贏家| 理財大賽第二季 2019-08-29

'編程進階之路：用簡單的面向對象編程提升深度學習原型'

"選自Towardsdatascience作者：Tirthajyoti Sarkar機器之心編譯參與：胡曦月、Geek AI不會寫一手漂亮代碼的數據科學家不是好工程師。將面向對象編程中那些簡單的概念（如函數化和類繼承），應用到深度學習原型代碼中，可以獲得巨大的收益。簡介本文...

面向對象程序編程人工智能腳本語言 Python GitHub 工程師軟件 MOOC 人生第一份工作軟件工程算法 2019-08-25

'想提升孩子學習能力，少兒編程能讓孩子擁有頂級程序員的邏輯思維'

"歡迎關注我的頭條號：Wooola，10年Java軟件開發及架構設計經驗，專注於Java、Golang、微服務架構，致力於每天分享原創文章、快樂編碼和開源技術。前言2003年，美國麻省理工學院(MIT)和Google公司，針對6歲以上孩子們的認知水平，聯合研發了一款名為Sc...

程序員不完美媽媽技術人工智能編程語言 Java 大數據程序設計義務教育高考 Google 麻省理工學院軟件英國人生第一份工作物聯網算術蘋果公司法國英語 2019-08-24

'教你使用概念激活向量，從新角度理解深度學習模型'

"全文共2617字，預計學習時長5分鐘可解釋性仍是現代深度學習應用中最嚴峻的挑戰之一。隨著計算模型和深度學習研究領域不斷進展，如今可建立包含數千隱藏神經層和上千萬神經元的複雜模型。儘管在深度神經網絡模型上取得巨大進步似乎還算簡單，但理解這些模型的創建和推理過程仍是一大難題。...

深度學習 Google 技術人工智能機器學習 2019-08-24

'阿里內部新出的一份Python學習清單，我感覺你能用得到'

"站在風口上，豬都能飛起來。人工智能風口，讓Pyhon這門膠水語言轉變成非常火的網紅語言。編程功力深厚的程序員花一兩個星期就能上手Python，而一些新手程序員花幾個月就可以上手。學編程，用Python確實是一個相當不錯的選擇。不過，面對Python網上有紛雜的資料，一些程...

Python MySQL 數據庫 Linux 程序員 JavaScript 面向對象程序編程 CSS 讀書 HTML Django MongoDB jQuery 編程語言人工智能算法硬件路由器 2019-08-16

'如果這篇文章都不能夠帶你Python學習入門，我將永遠退出編程界'

"本文將分為三大部分為讀者詳解Python如何學習入門，請大家認真看完一、Python學習大方向學Python這條路怎麼走？這是很多初學者都會問的一個問題，這個時候要問下自己，學Python想幹嘛？為了興趣？還是為了找份工作？亦或是其他目的。Python的應用領域非常廣泛，...

Python C語言網絡爬蟲 Word EditPlus Windows 文本編輯器人工智能文章編程語言數學 UNIX 操作系統集成開發環境 2019-08-12

'機器學習深度學習面試問題彙總（提升你的面試成功率）'

"作者：George Seif編譯：ronghuaiyang導讀在面試之前，你會覺得自己什麼都懂，但是真的開始面試了，你發現你自己什麼都不懂！可怕的機器學習面試。在面試之前，你會覺得自己什麼都懂，但是真的開始面試了，你發現你自己什麼都不懂！在過去的幾個月裡，我面試了很多公司...

機器學習人生第一份工作深度學習可視化技術算法技術人工智能創業自然語言處理科技向善萬家團圓亞馬遜三星集團 2019-08-06

'人工智能與古生物學：使用深度學習發掘微化石'

"Artificial Intelligence & Paleontology: Use Deep Learning to search for MicrofossilsIn this posting we show a Deep Learning-based me...

深度學習人工智能物理經濟 2019-08-05

'學習率設置技巧，使用學習率來提升我們的模型'

"作者：Vitaly Bushaev編譯：ronghuaiyang導讀學習率是深度學習中非常重要的超參數之一，也是我們會經常調整的超參數，通過這篇文章，我們會了解一些技巧，只是通過對學習率的設置，就能夠獲得性能的提升，是不是很酷?I. 介紹大多數優化算法(如SGD、RMSp...

深度學習算法人工智能 Leslie 藝術 2019-08-04

'深度學習的7個技巧，幫你訓練出好的模型'

"作者：George Seif編譯：ronghuaiyang導讀這又是一篇介紹深度學習的技巧的文章，不過和之前的那篇文章側重點有所不同，這篇文章更加註重於如何在實際的項目的數據集中訓練出好的模型出來，與其說是深度學習的技巧，不如說是深度學習項目的技巧。對於使用深度學習來做實...

深度學習算法武器人工智能設計技術語音識別技術文章 Google 2019-08-04

'如果這篇文章都不能夠帶你Python學習入門，我將永遠退出編程界'

Python C語言網絡爬蟲 Word EditPlus Windows 文本編輯器人工智能文章編程語言數學 UNIX 操作系統集成開發環境 2019-08-03

'隨機權值平均：深度學習中一種新的達到stage of the art的方法'

"作者：Max Pechyonkin編譯：ronghuaiyang導讀Hinton：“要處理14維空間中的超平面，想象一個三維空間，大聲對自己說“14”。每個人都這麼做。”在本文中，我將討論兩篇有趣的論文，它們提供了一種簡單的方法，通過使用一種智能的集成方法來提高任何給定神...

深度學習人工智能技術算法藝術文章 Kaggle 體育讀書 2019-08-02

'誰綠了你的AI，艾倫研究所提出深度學習效率評估標準Green AI'

"魚羊發自凹非寺量子位報道 | 公眾號 QbitAI培養一個靠譜的AI需要消耗大量的算力。隨著摩爾定律的終結，AI的計算成本正在瘋長，幾乎每隔幾個月計算基線就要翻一番。聽起來可能有點嚇人，可事實就是，從2012年到2018年，AI算力消耗幾乎增長了30萬倍。連Fac...

人工智能技術 Google 電腦艾倫卡內基梅隆大學大學人生第一份工作硬件中央處理器華盛頓大學軟件舊金山筆記本電腦 Facebook 文章 2019-08-01

'「每週論文推薦」初入深度學習CV領域必讀的幾篇文章'

"很多朋友都希望我們開通論文推薦和閱讀板塊，那就開吧，此專欄名為《每週論文推薦》。在這個專欄裡，還是本著有三AI一貫的原則，專注於讓大家能夠系統性完成學習，所以我們推薦的文章也必定是同一主題的。網絡模型作為深度學習的幾大核心問題之一，今天就給初入深度學習CV領域的朋友推薦一...

人工智能文章可視化技術讀書加拿大 CNN 技術日本神經科學 EVEREST 瑞典諾貝爾獎 2019-07-31

'IDC報告點出人工智能時代核心競爭力，百度引領深度學習獨立自主'

"如果要去搜索當下全球科技行業最火的領域，AI（人工智能）一定是一個備選答案，而如果要在 AI 領域裡尋找最佳代言，深度學習當仁不讓地成為唯一入圍者。IDC 的最新的一份報告也指出，深度學習正在成為企業推進部署 AI 的重要路徑。在這份名為《中國深度學習平臺市場份額調研》的...

人工智能百度技術 Google 算法 Facebook 金融電信能源投資 2019-07-19

'新的AI助手角色出現機器學習如何塑造軟件開發'

"原創不易請隨手點擊關注本文由Rehoo團隊Tin原創，無授權禁轉！(圖片來自網絡)圖片來自網絡谷歌首席執行官桑達皮採也談到“AI自動編寫自己的軟件”。當然，如果你認為軟件開發只是創建經常重複的代碼片段，那麼人工智能的快速發展會讓軟件工程師停下來嗎？傳統上，開發人員將軟件...

人工智能軟件工程師軟件工程技術 Google 設計跳槽那些事兒市場營銷集成開發環境 2019-07-16

一文看盡飛槳PaddlePaddle新升級：5大優勢更低門檻使用深度學習

飛槳（ PaddlePaddle ）是國內唯一功能完備的端到端開源深度學習平臺，集深度學習訓練和預測框架、模型庫、工具組件、服務平臺為一體，其兼具靈活和效...

人工智能算法百度設計自然語言處理技術大數據固態硬盤 2019-07-13

推薦中...