MIT、浙大等打造AutoML可視化工具：模型自選、超參數自調

可視化技術麻省理工學院浙江大學算法技術人工智能香港科技大學設計香港隨機森林新智元 2019-06-07

【新智元導讀】MIT、香港科技大學和浙江大學的研究人員開發了一種交互式工具，首次實現讓用戶對自動化機器學習（AutoML）系統的工作方式和流程進行查看和控制，提高系統定製化程度，向打開機器學習“黑盒子”的目標邁進了一大步。

為特定任務設計機器學習模型（如圖像分類，疾病診斷和股市預測等）是一個艱鉅而耗時的過程。研究人員首先要從多種不同的算法中進行選擇來構建模型。然後在模型開始訓練之前，手動調整“超參數”，確定模型的整體結構。

近期出現的自動機器學習（AutoML）系統可以對算法和超參數進行迭代式的測試和修改，並在此過程中選擇最適合的模型。但系統的運行機制是不透明的，相當於一個“黑盒子”，也就是說系統選擇了什麼技術、什麼模型，用戶是看不見的。因此，用戶就可能不信任模型給出的結果，而且很難根據自己的搜索需求來對系統進行定製。

定製化AutoML工具：模型自選，超參數自調

近日，在ACM CHI計算系統中人的因素會議上，麻省理工學院，香港科技大學和浙江大學的研究人員共同研發出一種工具，將AutoML方法的分析和控制權給到用戶手中。

該工具名為ATMSeer，它將AutoML系統、數據集和有關用戶任務的一些信息作為輸入，然後在用戶友好型的界面內實現可視化搜索過程，界面中還能提供更多關於模型性能的深入信息。

“使用ATMSeer，用戶可以自己選擇和觀察AutoML系統是如何工作的，”該研究論文的共同作者之一Kalyan Veeramachaneni說道，他是麻省理工學院信息與決策系統實驗室（LIDS）的首席研究科學家，負責將數據引入AI團隊。 “用戶可以只選擇一些性能最好的模型，或者結合其他因素或某些領域的專業知識，來指導AutoML系統去搜索某些特定模型。”

在對AutoML新手的案例研究中，研究人員發現大約85％使用ATMSeer的人對系統選擇的模型充滿信心。幾乎所有參與者都表示，該工具讓使用AutoML系統變得更舒服了。

ATMSeer會生成一個用戶友好的界面，顯示有關所選模型性能的深入信息，以及可調整的算法和參數的選項。

ATMSeer自動機器學習定製化工具的用戶友好型交互界面

“數據可視化是實現人與機器之間更好協作的有效方法。ATMSeer體現了這一理念，”論文合作者之一、香港科技大學的Wang Qianwen說。 “ATMSeer主要會讓機器學習從業者受益，無論他們從事什麼領域，專業水平如何，都能獲益。ATMSeer可以緩解手動選擇機器學習算法和調整超參數的不便。”

便捷可視化工具實現“可視即可調”

ATMSeer工具的核心是一款定製的AutoML系統，名為“自動調整模型”（ATM），由Veeramachaneni等研究人員在2017年開發。與傳統的AutoML系統不同的是，ATM在嘗試擬合模型時會對所有搜索結果進行完整的編目。

ATM將任何數據集和編碼預測任務作為輸入。系統隨機選擇算法類別，比如神經網絡，決策樹、隨機森林和邏輯迴歸，並選擇模型的超參數，如決策樹的大小或神經網絡層數等。

然後，系統針對數據集運行模型，迭代式調整超參數，並衡量模型性能。ATM利用掌握到了模型性能來選擇另一個模型。最後，由系統針對任務輸出幾個表現最理想的模型。

訣竅在於，每個模型基本上可以被視為帶有一系列變量的數據點：這裡說的變量包含算法，超參數和性能。在此基礎上，研究人員設計了一套系統，在指定的圖形和圖表上繪製數據點和變量。以此為起點，開發了一系列新技術，能夠實時重新配置數據。 “亮點在於，使用這些工具，你能夠可視化的任何東西，都可以修改。”史密斯說。

類似的可視化工具專門用於分析一種特定的機器學習模型，並能夠在有限的搜索空間內實現定製化。“因此，這些工具可以為分析和觀察AutoML的運行流程提供了有限的支持，還需要對許多搜索模型的配置進行分析。相比之下，ATMSeer支持分析使用各種算法生成的機器學習模型。”

將AutoML控制權交給用戶，使用體驗和信心明顯提升

ATMSeer的可視化界面由三部分組成。用戶可以通過控制面板上傳數據集和AutoML系統，並啟動或暫停搜索過程。下圖是一個概覽面板，顯示了基本統計數據，如搜索的算法和超參數的數量，還有按降序排列的最佳模型的“排行榜”。Veeramachaneni表示：“如果你不是特別在意技術細節的專家，這可能是你最感興趣的點。”

ATMSeer包含一個“AutoML Profiler”，其中的面板包含有關算法和超參數的深入信息，這些信息都可以進行調整。面板可以將所有算法類別表示為直方圖形式，用條形圖顯示算法性能分數的分佈，範圍為0到10，具體取決於其超參數。用一個單獨的面板呈現散點圖，顯示不同超參數和算法類型的性能折衷。

對沒有AutoML經驗的機器學習專家的案例研究表明，讓用戶掌握控制權確實有助於提高AutoML應用的性能和效率。對生物學、金融等不同科學領域的13位研究生的研究也表明，確定用戶對AutoML的搜索的自定義關鍵有三點：搜索的算法數量、系統運行時間以及查找表現最好的模型。研究人員表示，這些信息可用來為用戶量身定製系統。

研究人員表示，目前對AutoML的應用缺乏足夠的靈活性。“現在所有這些信息都集中在一個地方，如果人們能夠清楚看到幕後發生的事情，有能力控制這些流程，未來對AutoML的應用將跨入一個嶄新的階段。”

參考鏈接：

https://techxplore.com/news/2019-06-black-automated-machine.html

論文鏈接：

https://arxiv.org/pdf/1902.05009.pdf