靈魂畫師如何為機器學習做點“小工作”

機器學習大數據 Google 可視化青鳥小夢青鳥小夢 2017-08-28

靈魂畫師如何為機器學習做點“小工作”

機器學習系統日益影響著生活的方方面面，或通過軟件、或藉助硬件地為全地球人服務。儘管如此，當研究者和設計師們想要做個面向所有人的產品，卻經常苦於找不到合適的數據集來反映全球用戶的多樣化背景。為了訓練這些機器學習系統，就需要開放性、全球性並且持續增長的數據集。

在過去的半年裡，我們見到了這樣的一個數據集，它誕生於 Quick, Draw! 用戶。Quick Darw!是Google幫助全廣大人民群眾理解神經網絡工作原理的最新方法。Google某小組設計了Quick Draw，讓每個人都能和機器學習系統進行交互，交互的形式很有意思，就是畫一些日常用品比如樹或者馬克杯。系統會在20秒內猜測用戶畫的是什麼（就像一個人機版的“你畫我猜”）。儘管Quick Draw!的初衷只是做個機器學習支持的簡單遊戲，但迄今已經收集了8億幅畫了，來自100多個國家的2000萬人，從巴西到日本到美國，再到南非都有。

關於Quick Draw!，我們之前的文章中曾有過詳細介紹：來自Google的小遊戲，讓任何人都能參與到機器學習中來

現在我們（指Google）將要放出基於這些畫作的開放數據集，因而全世界的人都可以用來做數據分析、產品設計，或者參與數據集的維護。數據集目前包含5000萬幅出自Quick Draw!玩家的畫作（我們還將陸續推出8億裡的更多作品）。

這個數據量可真不小；這也對如何發動群眾參與以下活動提供了很有趣的思路：

(1) 訓練機器學習系統，無需技術背景

(2) 創造開放數據集，反映多元的視角和文化

靈魂畫師如何為機器學習做點“小工作”

來一窺國家和全球的模式特徵，為了快速有效地領略視覺模式，我們與藝術家Kyle McDonald一起將數千幅畫疊放在一起，生成複合圖像，由此體現出不同國家的特徵。下面是1000張重疊的貓和椅子的圖像，來看我們如何搜尋其中的趨勢：

貓，1000張來自全世界的圖：

靈魂畫師如何為機器學習做點“小工作”

椅子，1000張來自全世界的圖：

靈魂畫師如何為機器學習做點“小工作”

對自然造物比如貓（或樹、彩虹、骷髏）的塗鴉，各個國家畫出來的複合圖像都差不多：

靈魂畫師如何為機器學習做點“小工作”

但是對於人造產物，與文化相關的，就可見明顯差異了。“三明治”在有的國家呈現出規律的性狀，有的則是雜亂的線條；馬克杯的把手方向在兩個國家之間可能完全相反；椅子畫出來有的是正視圖，有的是側視圖，也因國家和地區而異。

靈魂畫師如何為機器學習做點“小工作”

一招鮮吃不遍天

我們發現這些複合圖像能夠體現出不同地區的參與者，在認知角度與偏好上的差異，這體現在：三明治麵包的模樣，咖啡杯的性狀，描繪事物的審美觀。比如有的國家傾向於直接、正面的視角；有的則慣於側面。

圖像的疊加也啟發我們如何改進神經網絡的訓練，特別是當我們沒有足夠全面的數據集——即便這數據集量大、開放、來自全世界。舉例來說，當我們分析了115000+個Quick Draw!裡畫的鞋，我們發現橡膠底帆布鞋(sneaker)是其中最突出的。因為這也是最常用來表示“鞋”的圖像，於是神經網絡就學著只把sneaker當作是“鞋”。

但在現實世界裡，在訓練數據集中，沒有一招鮮能吃遍天。如何才能用含有潛在偏差的數據集，進行持久而有效的數據分析？如果我們的數據集不夠全面，在此之上搭建的分類器又將表現何如？

給數據把脈

上月發佈的開源工具Facets，Google的PAIR項目的一部分，可以快速的表達大數據集中存在的模式。我們的目標是，高效、可視化地診斷代表性大數據集（比如Quick Draw!）。

下圖是Quick Draw!數據集在Facets中的截圖。該工具根據樣本在多個維度的特徵值擺放圖片的位置，特徵值可能是國家，用戶也可以自定義特徵如“隨機面孔”等進一步過濾。簡單一看便能獲知各個國家所佔的比例，放大還能看到每張圖的細節。對於Quick Draw!這樣的大型數據集，這樣方便的可視化工具有用的很，它使得研究者能夠探索數據集中微妙的差異或異常，或者見微知著地發現大數據集中的模式。

這是來自94個國家的Quick Draw!“隨機面孔”數據，換了個角度來看。很明顯，美國和歐洲國家的畫作數量呈絕對優勢，這樣很好理解，因為Quick Draw!現在只有英文版，之後我們會推出更多語言的版本。同時我們也看到巴西和泰國是非英語國家中較為突出的，這就給我們的設計師提了個醒，或許可以深入研究某些界面元素的設計受到對這兩個國家的人民喜聞樂見。我們可以利用這些信息進一步優化Quick Draw!，以饗全球非英語國家受眾。這些數據裡的趨勢也為我們未來的翻譯語言選擇提供重要參考。

Quick Draw!數據的另一診斷結果，就是捋出了幾條路線，可以讓每個人都優化數據多樣性，並且檢查潛在的偏差。優化點可能是：根據地域，修改人為評分或內容生成的協議，如此數據可以更精確地體現出當地或全球的模式。分組分析數據，建立能夠在視覺模式上交叉驗證的數據庫。進行數據增廣，且重定義權重以使數據集兼容性更強。

通過發佈數據集和Facets這樣的工具，我們希望促進探索機器學習更泛用的方法，並將這些觀察轉化為創新機會。我們也是剛剛開始Quick Draw!和Facets的探究，也歡迎更多有志者加入。

相關推薦

'如何優化人工智能、機器學習和深度學習的存儲'

"如今的人工智能和深度學習應用程序中使用了大數據集和快速I/O技術，但數據存儲可能會導致性能問題。人們需要了解人工智能和深度學習存儲系統應該具備哪些功能。人工智能技術廣泛應用在機器學習和深度學習中，已經引發了研究和產品開發的爆炸性增長，因為企業發現了創造性的方法，將這些新算...

人工智能深度學習機器學習設計操作系統算法軟件技術分佈式計算 GPU 硬件英偉達工程師人生第一份工作中央處理器電腦固態硬盤 2019-09-16

'python之父：零基礎學python，如何學習最為快速？這套教程請收好'

"1.Python的設計目標1999年，吉多*範羅蘇姆向DARPA提交了一條名為”Computer Programming For Everybody”的資金申請，並在後來說明了他對Python的目標：1.一門簡單直觀的語言並與主要競爭者一樣強大2.開源，以便任何人都可以為...

Python 設計機器學習數據庫 Java 工程師人工智能算法 2019-09-09

'對話Swami：為什麼數萬個客戶選擇AWS實施機器學習？'

"作者|小葳8月底，以“智聯世界無限可能”為主題的2019世界人工智能大會（WAIC）成為科技界最受關注的盛會。AI應用落地成為今年WAIC的最大亮點之一。目前，中國人工智能產業正進入落地實踐階段。據相關機構測算，到2020年我國人工智能產業規模有望突破1600億元，帶動...

機器學習 2019世界人工智能大會 Amazon EC2 技術大數據亞馬遜公司虛擬機設計雲計算工程師算法無人駕駛 NoSQL 數據庫 SaaS 2019-09-08

'零基礎自學python，如何學習最為快速？阿里大佬：這套教程請收好'

Python 設計機器學習數據庫 Java 算法工程師人工智能 2019-09-07

'新藥研發、診斷疾病…機器學習如何改變醫療行業？'

"全文共1785字，預計學習時長3分鐘圖片來源：pexels.com/@pixabay醫療行業正生成著大量數據。如今，傳感器生成數據等新式數據收集方法為醫療行業贏得了領先地位。利用這些數據，可以用更低的成本提供更優質的醫療服務，並提高病人的滿意度——只要有機器學習(ML)技...

人工智能技術大數據圖像處理 Hadoop IBM 自然語言處理軟件癌症檔案腫瘤 2019-09-05

'半路出家，如何從0到1學習機器學習？'

"作為一個數學系出身，半路出家開始搞機器學習的人，在學習機器學習的過程中自然踩了無數的坑，也走過很多本不該走的彎路。於是很想總結一份如何入門機器學習的資料，也算是為後來人做一點點微小的貢獻。▌前言在 2016 年 3 月，隨著 AlphaGo 打敗了李世乭，人工智能開始大規...

人工智能 SQL 操作系統數學算法 Hive Linux 腳本語言推薦技術工程師文章電腦讀書騰訊新聞知乎大數據人生第一份工作 2019-09-02

'靈鴿APP是做什麼的？怎麼賺錢？如何成為靈鴿合夥人？'

"近段時間，靈鴿APP徹底在網上走紅。靈鴿APP是誰創立的？相信很多人都知道王欣這個名字，王欣曾因為快播走紅，而王欣就是靈鴿APP的創造者。那麼這個靈鴿APP是做什麼的呢？聽說靈鴿APP可以賺錢，怎麼樣才可以賺錢？下面帶大家瞭解下。靈鴿致力於通過人工智能、大數據、區塊鏈等技...

跳槽那些事兒人生第一份工作創業快播人工智能社交網絡技術經濟大數據區塊鏈 2019-08-30

'真正的大數據問題以及為什麼只有機器學習才能解決它'

"為什麼很多公司仍在努力構建從採集數據到獲得洞察力的平穩運行的管道?他們希望投資和採用機器學習算法來分析數據，並做出商業預測。但是，不可避免的是，他們應該意識到算法並不是魔法：如果採用的是垃圾數據，得出的就不會是一流的見解。因此，他們僱傭了一些數據科學家，但通常他們90%的...

大數據人工智能技術數據庫算法通用電氣麻省理工學院軟件豐田汽車法國人生第一份工作市場營銷高德納集團歐洲投資 2019-08-20

'如何有效降低數據集的隱私風險，開展機器學習？'

"全文共2256字，預計學習時長4分鐘圖片來源：unsplash.com/@dmey503工作中處理含敏感信息的數據集是有風險的。一旦這類數據在數據集中出現，數據科學家們應謹慎再謹慎。人們通常認為，處理敏感信息時，只要刪除姓名、ID及信用卡卡號就能保護個人隱私。這其實是誤解...

機器學習算法人生第一份工作歷史 2019-08-14

'人工智能和機器學習將如何為數據中心提供幫助'

"有些人認為，人工智能(AI)理解和解決問題時近乎具有神祕的力量。而人工智能廣泛應用於人們日常生活的許多領域，因此，實現這一目標的硬件開始在數據中心中應用。數據中心本身存在一系列複雜的問題，包括優化和預測。那麼，如何採用人工智能這種神奇的技術來改善數據中心運營?將人工智能應...

人工智能技術 IBM Google 華為公司工程師歷史加拿大人生第一份工作運營商算法硬件大學市場營銷 2019-08-14

'百度學習一下阿里和騰訊，聯想學習一下華為，如何做好公司口碑'

"作為研究企業危機管理的小編來說，我們確實認為百度和聯想這兩家企業出了一些引起公眾輿論不爽的情況，具體是什麼情況，我想大家也都非常清楚，不管這些事件孰是孰非，至少在公眾輿論面前，兩家企業曾經做出過的解釋，並沒有能夠站住腳，公眾沒買賬兒。品牌100分認為，百度應該學習一下BA...

百度聯想集團華為公司阿里巴巴集團騰訊任正非楊元慶技術李彥宏人工智能人生第一份工作電腦 Google 我的第一部5G手機柳傳志搜索引擎無人駕駛跳槽那些事兒讀書三星集團經濟超級計算機 2019-08-10

'為什麼大多數商家都選擇做京東無貨源，它的轉化率如何？'

"哈嘍，大家好，我是阿甜。如今無貨源模式涉及的平臺是相當廣的，最先開始的是淘寶，接著是拼多多，京東等。不同平臺做的人群都不少，那就有一個疑問了。為什麼有的商家朋友、個人創業者會放棄淘寶、拼多多店群，而選擇做京東無貨源呢？為什麼會認為在京東平臺做無貨源模式，會更有發展性呢？今...

京東商城淘寶網電子商務市場營銷大數據人生第一份工作創客 2019-08-10

'估值300億美元的小度如何成為百度的隱藏王牌'

"在桑拿三伏天，中國互聯網卻感受到了絲絲寒意。據7月23日QuestMobile發佈的《中國移動互聯網2019半年大報告》，中國移動互聯網用戶規模首次出現負增長，全網用戶淨降200萬，到今年6月用戶使用時長增速下滑到6%，人口流量紅利觸頂，互聯網公司將陷入刺刀血拼的狀態。下...

百度智能家居移動互聯網音箱硬件分析師百度地圖人工智能京東商城中國移動投資 Google 操作系統蘋果公司 2019-07-27

'估值300億美元的小度如何成為百度的隱藏王牌？'

百度智能家居移動互聯網音箱硬件百度地圖分析師人工智能京東商城中國移動投資 Google 操作系統蘋果公司 2019-07-25

'機器學習之聚類分析，如何分析用戶？'

"什麼是分析分析（cluster analysis）是常見的數據挖掘手段，其主要假設是數據間存在相似性。而相似性是有價值的，因此可以被用於探索數據中的特性以產生價值。常見應用包括：用戶分割：將用戶劃分到不同的組別中，並根據簇的特性而推送不同的。廣告欺詐檢測：發現正常與異常的...

機器學習算法數據挖掘 2019-07-20

'成為機器學習工程師第一年，我學到12件事'

"【新智元導讀】成為一名機器學習工程師並不簡單，你不僅要處理代碼中的各種問題，還需要不斷學習、與其他部門的人員溝通、瞭解和學會使用各種新型代碼庫或模型…… 成為機器學習工程師的第一年，本文作者 Daniel Bourke 學到了 12 件重要的事，在此與你分享，如果你有共鳴...

機器學習工程師讀書技術 Slack GitHub 人生第一份工作 2019-07-19

'新的AI助手角色出現機器學習如何塑造軟件開發'

"原創不易請隨手點擊關注本文由Rehoo團隊Tin原創，無授權禁轉！(圖片來自網絡)圖片來自網絡谷歌首席執行官桑達皮採也談到“AI自動編寫自己的軟件”。當然，如果你認為軟件開發只是創建經常重複的代碼片段，那麼人工智能的快速發展會讓軟件工程師停下來嗎？傳統上，開發人員將軟件...

人工智能軟件工程師軟件工程技術 Google 設計跳槽那些事兒市場營銷集成開發環境 2019-07-16

成為一名機器學習專家！《編程模擬器》Steam發售

2019年1月17日《編程模擬器》官方宣佈，遊戲將脫離Early Access正式在Steam平臺發售，售價為43元人民幣！在《編程模擬器》中，玩家將扮演...

Steam 人工智能模擬遊戲程序員貓可視化技術技術設計硬件服裝無人駕駛鼠標大數據專家系統解謎遊戲極客人生第一份工作智能手機 2019-07-15

驚為天人，NumPy手寫全部主流機器學習模型，代碼超3萬行

機器之心報道參與：思源、一鳴、張倩用 NumPy 手寫所有主流 ML 模型，普林斯頓博士後 David Bourgin 最近開源了一個非常剽悍的項目。超過...

機器學習人工智能深度學習 Python GitHub 加州大學伯克利分校算法電腦數學 Reddit 大學卡爾·高斯 2019-07-06

推薦中...