中科院計算所開源Easy ML：讓機器學習應用開發簡單快捷

機器學習雲計算大數據 Spark 機器之心 2017-06-14

選自Github

機器之心編譯

今日，中科院計算所研究員徐君在微博上宣佈「中科院計算所開源了 Easy Machine Learning 系統，其通過交互式圖形化界面讓機器學習應用開發變得簡單快捷，系統集成了數據處理、模型訓練、性能評估、結果複用、任務克隆、ETL 等多種功能，此外系統中還提供了豐富的應用案例，歡迎大家下載使用。」在此文章中，機器之心對開源的 Easy Machine Learning 系統進行了介紹。

GitHub 項目地址：https://github.com/ICT-BDA/EasyML

什麼是 Easy ML 系統？

機器學習算法已然成為諸多大數據應用中不可或缺的核心組件。然而，由於機器學習算法很難，尤其是在分佈式平臺比如 Hadoop 和 Sparks 上，機器學習的全部潛能遠遠沒有發揮出來。關鍵障礙不僅來自算法本身的實現，還常常來自涵蓋多步操作和不同算法的實際應用過程。

我們的平臺 Easy Machine Learning 提供了一個通用的數據流系統，可以降低將機器學習算法應用於實際任務的難度。在該系統中，一個學習任務被構造為一個有向非循環圖（DAG／directed acyclic graph），其中每個節點表徵一步操作（即機器學習算法），每一條邊表徵從一個節點到後一個即節點的數據流。任務可被人工定義，或根據現有任務／模板進行克隆。在把任務提交到雲端之後，每個節點將根據 DAG 自動執行。圖形用戶界面被實現，從而可使用戶以拖拉的方式創建、配置、提交和監督一項任務。該系統的優點有：

1. 降低定義和執行機器學習任務的門檻；

2. 共享和再利用算法的實現、 job DAG 以及試驗結果；

3. 在一個任務中無縫整合單機算法和分佈式算法。

該系統包含三個主要組件：

一個分佈式的機器學習庫，不僅能實現流行的機器學習算法，也能實現數據預處理／後處理、數據格式轉變、特徵生成、表現評估等算法。這些算法主要是基於 Spark 實現的。
一個基於 GUI 的機器學習開發環境系統，能讓用戶以拖放的方式創造、安裝、提交、監控、共享他們的機器學習流程。機器學習庫中所有的算法都可在此開發環境系統中獲得並安裝，它們是構建機器學習任務的主要基礎。

中科院計算所開源Easy ML：讓機器學習應用開發簡單快捷

執行任務的雲服務。我們基於開源的 Hadoop 和 Spark 大數據平臺建立了該服務。為了建立一個平臺，我們在 Docker 上組織了服務器集群。從 GUI 上接受一個 DAG 任務之後，在所有的獨立數據源準備好時，每個節點將會自動安排運行。對應節點的算法將會依據實現在 Linux、Spark 或者 Map-Reduce\cite 上自動安排運行。

中科院計算所開源Easy ML：讓機器學習應用開發簡單快捷

如何參與我們的項目？

pull 整個項目，並準備好必需的環境和開發工具。按照 https://github.com/ICT-BDA/EasyML/blob/master/QuickStart.md 這裡的步驟，你可以在你的計算機中創建我們的系統。

怎樣使用 Easy ML 開發環境？

在運行 Easy ML 之後，你能使用我們官方賬號 [email protected]、密碼 bdaict 登錄 http://localhost:18080/EMLStudio.html。為了最佳的用戶體驗，我們建議使用 Chrome 瀏覽器。

中科院計算所開源Easy ML：讓機器學習應用開發簡單快捷

正如下圖所示，用戶可以根據左邊菜單的選擇算法和數據集創建一個機器學習任務（一個數據流 DAG）。用戶可以點擊選擇在 Program 和 Data 菜單項下面的算法和數據集，同樣也可以點擊 Job 菜單項選擇現存的任務，並複製和做一些必要的修改。用戶同樣可以在右邊的菜單修改任務信息和每一個結點的參數值。任務中的結點可以對應於單機 Linux 程序或在 Spark、Hadoop Map-Reduce 上運行的分佈式程序。

中科院計算所開源Easy ML：讓機器學習應用開發簡單快捷

在點擊了 submit 按鈕後，該任務被提交給雲端運行。每個節點的狀態由不同的顏色表示，如下圖所示：

中科院計算所開源Easy ML：讓機器學習應用開發簡單快捷

用戶可以右鍵點擊完成的執行節點上 green output port 按鈕來預覽輸出數據。也可以從每個完成的執行節點的右鍵菜單中檢查 stdout 和 stderr 日誌。用戶可以通過右鍵單擊相應的輸出端口來檢查節點的輸出。執行時打印的標準輸出和標準錯誤信息可通過右鍵單擊相應節點並選擇菜單中 Show STDOUT/Show STDERR 的方式進行檢查。

中科院計算所開源Easy ML：讓機器學習應用開發簡單快捷

在結束後（無論成功與否），任務可以被繼續修改，再次提交併運行，如下圖所示。我們的系統指揮安排受影響的節點來運行。不受影響的節點輸出直接重用，以節省運行時間和系統資源。

用戶可以上傳自己的算法包和數據集來建立自己的任務，並分享給他人。通過點擊 upload program 按鈕，彈出窗口允許用戶指定算法包的必要信息，包括名稱、類別、描述和命令行特徵字符串等，如下圖所示。其中最重要的在於使用預定格式編寫特徵字符串。它定義了節點的輸入端口、輸出端口和參數設置。我們在面板中開發了一個工具來幫助用戶編寫命令行字符串模式。通過點擊 upload data 按鈕，用戶可以用與上傳算法包相似的方式上傳數據集。

中科院計算所開源Easy ML：讓機器學習應用開發簡單快捷

致謝

以下人員對 EasyML 項目的開發做出了貢獻。

Jun Xu, Institute of Computing Technolgy, Chinese Academy of Sciences. Homepage: http://www.bigdatalab.ac.cn/~junxu
Xiaohui Yan, Huawei Technologies
Xinjie Chen, Institute of Computing Technolgy, Chinese Academy of Sciences
Zhaohui Li, Institute of Computing Technolgy, Chinese Academy of Sciences
Tianyou Guo, Institute of Computing Technolgy, Chinese Academy of Sciences
Jianpeng Hou, Institute of Computing Technolgy, Chinese Academy of Sciences
Ping Li, Institute of Computing Technolgy, Chinese Academy of Sciences
Xueqi Cheng, Institute of Computing Technolgy, Chinese Academy of Sciences. Homepage: http://www.bigdatalab.ac.cn/~cxq/

論文：使用數據流簡化機器學習流程（Ease the Process of Machine Learning with Dataflow）

中科院計算所開源Easy ML：讓機器學習應用開發簡單快捷

論文地址：http://203.187.160.132:9011/www.bigdatalab.ac.cn/c3pr90ntc0td/~junxu/publications/CIKM2016_BDADemo.pdf

機器學習算法已經變成許多大數據應用的關鍵部分。然而機器學習的全部潛力還遠遠沒有被釋放出來，因為通常使用機器學習算法是很困難的，尤其是在 Hadoop 和 Spark 這樣的分佈式平臺上。最主要的障礙不僅僅來源於實現算法本身，也是因為將它們應用到實際應用中通常需要很多步驟和不同的算法。在本演示中，我們提出一種通用的基於數據流的系統（general-purpose dataflow-based system），可用於簡化機器學習算法的實際應用。在這個系統裡，學習任務被形式化為一個有向非循環圖（DAG/directed acyclic graph），其中每一個節點（node）代表一個運算（比如機器學習算法），並且每個邊（edge）代表數據從一個節點流向其後繼節點。我們實現了一個圖形用戶界面，可以讓用戶通過拖放的方法去創建、配置、提交和監控一個任務。這個系統的優點包括：1）降低定義和執行機器學習任務的難度；2）共享和複用算法、任務數據流 DAG 和（中間）實驗結果；3）把單機使用的算法和分佈式算法集成到一個任務中。這個系統是一個機器學習服務，可以通過網絡進行訪問。

相關推薦

'能否加速破解暗物質之謎？大型強子對撞機，再加上機器學習算法'

"博科園：本文為粒子物理學類大型強子對撞機的每一次質子碰撞都不同，但只有少數是特殊的。這種特殊的碰撞產生了不尋常的粒子（可能是新粒子、違反物理現象等）或者有助於填補我們對宇宙不完整的認識。發現這些碰撞比眾所周知的大海撈針要困難得多，但改變的革新正在路上。費米實驗室的科學家和...

機器學習算法技術 Azure 電腦硬件物理中央處理器麻省理工學院歐洲 GPU 設計摩托車彼得·希格斯 2019-09-19

'5G應用端重點關注VR/AR、自動駕駛、IOT和雲計算（附金股）'

"1、VRAR5G應用端我們首先看好VR/AR產業鏈，5G和VR密不可分。2015年-2016年VR/AR大熱，成為消費電子的一個亮點，但是很快VR/AR的發展便遇到了困境。帶寬和延時的因素導致互動體驗不強和終端移動性差、分辨率和刷新率低等痛點問題，一直是遏制行業發展的最大...

雲計算我的第一部5G手機無人駕駛物聯網技術瀾起科技用友網絡大數據長信科技網絡安全電腦東方國信華為公司智能家居用友公司華東電腦通信 Wi-Fi 軟件人生第一份工作操作系統海康威視千方科技上海中科創達潤和軟件人工智能人臉識別漢得信息硬件語音識別技術北京君正蘇大維格設計 2019-09-16

'機器學習&深度學習基礎（tensorflow版本實現的算法概述0）'

"tensorflow集成和實現了各種機器學習基礎的算法，可以直接調用。代碼集：https://github.com/ageron/handson-ml監督學習1）決策樹（Decision Tree）和隨機森林決策樹：決策樹是一種樹形結構，為人們提供決策依據，決策樹可以用...

機器學習算法深度學習隨機森林 2019-09-14

'機器學習之誤差反向傳播算法'

"機器學習之誤差反向傳播算法我們知道神經網絡是由大量的參數即權重構成，神經網絡的學習過程則是這些參數的變化更新過程。誤差反向傳播算法就是用於更新這些參數的。這裡我們假設激活函數為Sigmoid。Ps: 在吳恩達機器學習反向傳播算法課程中，而不是：這是因為吳恩達中使用的損失...

機器學習算法吳恩達人工智能 2019-09-09

'機器學習在ABR算法中的應用縱覽'

"本文整理自LiveVideoStack線上分享第三季，第五期，由清華大學計算機系網絡技術研究所博士生王莫為為大家介紹近些年ABR算法的發展，探討基於機器學習的ABR算法的優劣勢，並結合AiTrans比賽分析其在直播場景中的應用問題。文/王莫為整理/LiveVideoSta...

算法機器學習技術深度學習愛奇藝清華大學 YouTube 創作者來直播人工智能歷史 2019-09-07

'影響未來的十大算法之一：機器學習與數據挖掘的PageRank算法'

"由於公司架構調整和業務方向的轉變，我所在的項目組即將接手一個機器學習和數據挖掘的項目，為了後續更好地開展工作，也為了能提高自己的專業技能，我決定開始學習機器和數據挖掘方面的知識。那麼，問題就來了：到底應該從哪裡開始學起呢？最開始我也買了一些機器學習相關的入門書籍，跟著聽一...

算法機器學習數據挖掘 Google 拉里·佩奇斯坦福大學 Python 發現佩奇在線教育 2019-09-03

'鴻卓課工場—應該學習更多的Java編程技術還是大數據和雲計算技術'

"首先，學習更多的編程技術與學習大數據和雲計算並不衝突，Java語言也是大數據和雲計算領域比較常見的開發工具，所以完全可以同步進行。隨著大數據、雲計算和人工智能相關技術的發展，目前從事技術開發的程序員崗位也出現了一些比較顯著的變化，從技術崗位上來看，有兩個崗位的人才需求數量...

Java 大數據技術雲計算程序員跳槽那些事兒電腦 2019-09-03

'機器學習10種經典算法的Python實現'

"廣義來說，有三種機器學習算法1、監督式學習工作機制：這個算法由一個目標變量或結果變量（或因變量）組成。這些變量由已知的一系列預示變量（自變量）預測而來。利用這一系列變量，我們生成一個將輸入值映射到期望輸出值的函數。這個訓練過程會一直持續，直到模型在訓練數據上獲得期望的精...

算法機器學習 Python 隨機森林不完美媽媽 2019-08-18

'內含福利 | 世界人工智能大會：對話大咖，深挖機器學習的商業應用'

"機器學習作為人工智能時代的關鍵技術突破，已經在日常生活中廣泛應用，給用戶帶來便利。越來越多的企業也通過機器學習，解決生產和經營中的難題。傳統制造業應用機器學習，部署系統異常檢測方案，預測組件壽命，避免生產意外停機，每年可節省數千萬人民幣；電商平臺應用機器學習，提高銷售預測...

人工智能 Google 技術 Google翻譯大數據音樂工程師服裝藝術算法巴赫通用電氣騰訊 2019-08-16

'非計算機專業學生，是否也能夠學習編程，並且實現就業呢？'

"當前整個IT行業內有不少程序員都是非計算機專業畢業的，而且其中有不少人都是通過自學或者培訓掌握編程併成為程序員的，所以自學或者培訓編程能力是完全可以的。近些年來也有不少非計算專業的學生跨考到計算機專業，按照歷史經驗來看，這些學生大部分都能做出一定的成果，也都能夠順利畢業。...

電腦程序員雲計算編程語言 C語言 Python 物聯網技術操作系統大學人工智能大數據 Java 數據庫人生第一份工作數據結構算法設計 2019-08-15

'《李宏毅機器學習完整筆記》，開源項目LeeML-Notes（附鏈接）'

"來源：Datawhale本文約1600字，建議閱讀7分鐘。本文哪位大家講解LeeML-Notes中一門中文經典視頻課程——臺大李宏毅的機器學習相關。[ 導讀 ]關於機器學習的學習資料從經典書籍、免費公開課到開源項目應有盡有，可謂是太豐富啦，給學習者提供了極大的便利。但網...

機器學習深度學習人工智能算法讀書英語周志華 4月吃什麼 GitHub 臺灣大學 2019-08-12

'來！一起捋一捋機器學習分類算法'

"大數據文摘出品來源：builtin編譯：邢暢、劉兆娜、李雷、錢天培說起分類算法，相信學過機器學習的同學都能侃上一二。可是，你能夠如數家珍地說出所有常用的分類算法，以及他們的特徵、優缺點嗎？比如說，你可以快速地回答下面的問題麼:KNN算法的優缺點是什麼？Naive Baye...

算法機器學習大數據技術歐幾里得信用卡程序設計 2019-08-12

'定製化改造，谷歌研究員軟硬協同打造最強邊緣計算深度學習性能'

"From：Google 編譯：T.R隨著摩爾定律的放緩，人們逐漸將目光轉向到基於專用架構的硬件加速器上，以繼續提升各類應用的計算性能，特別對於機器學習和深度學習來說，針對神經網絡等架構開發特定的加速芯片架構變得至關重要。但放眼數據中心和邊緣設備上，很少有網絡模型針對硬件進...

Google 深度學習算法機器學習軟硬天師硬件 GitHub 人工智能納米技術 Swish 2019-08-11

'新手必看的Top10個機器學習算法（這些都學會了你就是老手了）'

"作者：James Le編譯：ronghuaiyang導讀總共有多少機器學習的模型？不知道，沒人統計過，如果加上各種變體的話，那就更加多了去了。想到這個，你頭大不大？那是不是所有都要去學，都要去了解呢？當然不是，不過，下面的這10個算法，如果你是新手的話，一定要去好好學學，...

算法機器學習技術人工智能數據結構吸塵器 2019-08-09

'中科院院士梅宏：多業務呼喚多樣計算，綠色計算引領新發展機會'

"在7月23日北京舉行的鯤鵬計算產業發展峰會上，中國科學院院士、綠色計算產業聯盟理事長梅宏以“探索綠色計算產業發展之路”為題發表演講，詳細梳理了雲計算、大數據、AI發展給數據中心帶來的一系列問題，講解了綠色計算產業發展的若干重要途徑。雲計算、AI對綠色計算提出巨大需求隨著雲...

梅宏人工智能中央處理器雲計算大數據 ARM 物聯網 GCC 智能手機 GPU 2019-08-07

'用機器學習解偏微分方程？數據驅動方法拓展高性能計算的疆界'

"From:Google BY:T.R人類為了認識世界、理解世界、預測世界，構建了複雜的數學模型和強大的超級計算機。世界上最大的超級計算機就是用來為大千世界的物理現象建模、計算、理解、預測。雖然超算已經從P級向E級邁進，但對於氣候系統進行魯棒的預測、對流體力學進行仿真、對高...

機器學習 Google 物理人工智能超級計算機算法 Dribbble 技術電腦投資 GitHub 2019-08-04

'機器學習在智能推薦領域的應用'

"本文所有圖片僅用於交流學習文章作者：翦浩脈脈編輯整理：蔣權內容來源：DataFun AI Talk出品社區：DataFun注：歡迎轉載，轉載請註明出處大家好，今天想和大家討論下相關推薦技術通用的特點及在實踐中的改進點，這也是我們團隊在研發實踐中一些經驗總結。首先，推薦解...

推薦技術人工智能算法新聞技術數學 Spark Python 文章 2019-08-02

'北京電影學院發了滿是數學公式的計算機頂會論文，並開源了其代碼'

"大數據文摘出品來源：知乎專欄作者：ziyin大家都知道，視覺特效在現代的影視製作中出現十分頻繁。而諸如洪水、煙霧、爆炸等特效計算的背後，實際上是用計算機程序在求解已有百年曆史的“納維-斯托克斯方程”這個方程，對於做流體動力學的讀者一定不陌生，數十年來科學家們為了計算機翼升...

數學電腦算法數值算法物理北京電影學院技術設計體育大數據軟件約瑟夫·拉格朗日 GPU 歷史蘇黎世聯邦理工學院中央處理器可視化技術動畫哲學斯坦福大學知乎迪士尼 2019-07-29

'一文講述機器學習的發展及應用'

"隨著大數據的發展，機器學習進入了最美好的時代，通過“漣漪效應”逐步迭代，大數據推動機器學習真正實現落地。機器學習（Machine Learning，ML）是人工智能的核心，涉及統計學、系統辨識、逼近理論、神經網絡、優化理論、計算機科學、腦科學等諸多領域，研究計算機怎樣模擬...

人工智能大數據算法技術雲計算數據挖掘信用記錄關愛日高能小子終極裝備交通物聯網設計電腦自然語言處理算法設計歷史專家系統信用卡無人駕駛 2019-07-17

新興高性能計算行業應用及發展戰略

中國網／中國發展門戶網訊近 20 年來，高性能計算應用的廣度前所未有地擴展，以數據驅動或數據密集型計算為主要特徵的高性能計算應用不斷湧現，人工智能技術在...

技術信息安全人工智能大數據算法生物麻省理工學院遺傳物聯網超級計算機設計通信 Google 經濟 IBM 癌症開源軟件 2019-07-15

推薦中...