Google 開源機器學習數據集可視化工具 Facets

機器學習 大數據 網絡安全 人工智能 燈塔大數據 2017-08-02

www.oschina.net/news/86895/google-opensource-facets

ML 數據集可以包含數億個數據點,每個數據點由數百(甚至數千)的特徵組成,幾乎不可能以直觀的方式瞭解整個數據集。為幫助理解、分析和調試 ML 數據集,谷歌開源了 Facets,一款可視化工具。

Facets 包含兩個部分 —— Facets Overview 和 Facets Dive ,允許用戶以不同的粒度查看其數據的整體圖像。Facets Overview 可用於可視化數據的每一個特徵,Facets Dive 用來探索個別的數據觀察集。

除了開放 Facets 源碼 (https://github.com/pair-code/facets ),Google 還創建了演示網站 (https://pair-code.github.io/facets/)

Google 開源機器學習數據集可視化工具 Facets

具體來看,Facets Overview 可以讓用戶快速瞭解其數據集特徵值的分佈情況,可以在相同的可視化上比較多個數據集,例如訓練集和測試集。阻礙機器學習的常見數據問題被推到最前端,比如出乎意料的特徵值、具有高比例遺失值的特徵、帶有不平衡分佈的特徵,數據集之間的特徵分佈偏差等等。

Google 開源機器學習數據集可視化工具 Facets

Facets Dive 則提供了一個易於定製的直觀界面,用於探索數據集中不同特徵數據點之間的關係。它是一種交互式探索多達數萬個數據點的工具,允許用戶在高級概述和低級細節之間進行無縫切換。通過 Facets Dive,你可以控制位置、顏色和視覺表現。每個示例在可視化中被表示為單個項目,並且可以通過其特徵值在多個維度上通過 faceting/bucketing 來定位點。通過結合細分和過濾,Dive 可以輕鬆地在複雜數據集中識別樣式和異常值。

Google 開源機器學習數據集可視化工具 Facets

來源:互聯網架構師


【燈塔大數據】微信公眾號介紹:中國電信北京研究院通過整合電信自有數據、互聯網數據和線下數據,創建了業內領先的“燈塔”大數據行業應用平臺,致力於與行業合作伙伴共同打造大數據行業應用生態圈。目前我們面向市場研究、廣告、汽車、金融、人力資源等諸多行業領域,提供零售研究、消費者研究、店鋪選址、精準營銷、泛義徵信等服務,助力企業在大數據時代楊帆遠航。

微信公眾號【燈塔大數據】關鍵字信息:

【人工智能】獲取人工智能時代的發展思考 ppt

【半月刊】下載大數據瞭望半月刊

【網絡安全】獲取國民網絡安全報告全文

【23個理由】下載《大數據讓你興奮的23個理由》電子書

【思維導圖】下載12種工具的獲取方式

【 燈塔 】 查看更多關鍵字回覆

相關推薦

推薦中...