靈魂畫師如何為機器學習做點“小工作”

靈魂畫師如何為機器學習做點“小工作”

機器學習系統日益影響著生活的方方面面,或通過軟件、或藉助硬件地為全地球人服務。儘管如此,當研究者和設計師們想要做個面向所有人的產品,卻經常苦於找不到合適的數據集來反映全球用戶的多樣化背景。為了訓練這些機器學習系統,就需要開放性、全球性並且持續增長的數據集。

在過去的半年裡,我們見到了這樣的一個數據集,它誕生於 Quick, Draw! 用戶。Quick Darw!是Google幫助全廣大人民群眾理解神經網絡工作原理的最新方法。Google某小組設計了Quick Draw,讓每個人都能和機器學習系統進行交互,交互的形式很有意思,就是畫一些日常用品比如樹或者馬克杯。系統會在20秒內猜測用戶畫的是什麼(就像一個人機版的“你畫我猜”)。儘管Quick Draw!的初衷只是做個機器學習支持的簡單遊戲,但迄今已經收集了8億幅畫了,來自100多個國家的2000萬人,從巴西到日本到美國,再到南非都有。

關於Quick Draw!,我們之前的文章中曾有過詳細介紹: 來自Google的小遊戲,讓任何人都能參與到機器學習中來

現在我們(指Google)將要放出基於這些畫作的開放數據集,因而全世界的人都可以用來做數據分析、產品設計,或者參與數據集的維護。數據集目前包含5000萬幅出自Quick Draw!玩家的畫作(我們還將陸續推出8億裡的更多作品)。

這個數據量可真不小;這也對如何發動群眾參與以下活動提供了很有趣的思路:

(1) 訓練機器學習系統,無需技術背景

(2) 創造開放數據集,反映多元的視角和文化

靈魂畫師如何為機器學習做點“小工作”

來一窺國家和全球的模式特徵,為了快速有效地領略視覺模式,我們與藝術家Kyle McDonald一起將數千幅畫疊放在一起,生成複合圖像,由此體現出不同國家的特徵。下面是1000張重疊的貓和椅子的圖像,來看我們如何搜尋其中的趨勢:

貓,1000張來自全世界的圖:

靈魂畫師如何為機器學習做點“小工作”

椅子,1000張來自全世界的圖:

靈魂畫師如何為機器學習做點“小工作”

對自然造物比如貓(或樹、彩虹、骷髏)的塗鴉,各個國家畫出來的複合圖像都差不多:

靈魂畫師如何為機器學習做點“小工作”

但是對於人造產物,與文化相關的,就可見明顯差異了。“三明治”在有的國家呈現出規律的性狀,有的則是雜亂的線條;馬克杯的把手方向在兩個國家之間可能完全相反;椅子畫出來有的是正視圖,有的是側視圖,也因國家和地區而異。

靈魂畫師如何為機器學習做點“小工作”

一招鮮吃不遍天

我們發現這些複合圖像能夠體現出不同地區的參與者,在認知角度與偏好上的差異,這體現在:三明治麵包的模樣,咖啡杯的性狀,描繪事物的審美觀。比如有的國家傾向於直接、正面的視角;有的則慣於側面。

圖像的疊加也啟發我們如何改進神經網絡的訓練,特別是當我們沒有足夠全面的數據集——即便這數據集量大、開放、來自全世界。舉例來說,當我們分析了115000+個Quick Draw!裡畫的鞋,我們發現橡膠底帆布鞋(sneaker)是其中最突出的。因為這也是最常用來表示“鞋”的圖像,於是神經網絡就學著只把sneaker當作是“鞋”。

但在現實世界裡,在訓練數據集中,沒有一招鮮能吃遍天。如何才能用含有潛在偏差的數據集,進行持久而有效的數據分析?如果我們的數據集不夠全面,在此之上搭建的分類器又將表現何如?

給數據把脈

上月發佈的開源工具Facets,Google的PAIR項目的一部分,可以快速的表達大數據集中存在的模式。我們的目標是,高效、可視化地診斷代表性大數據集(比如Quick Draw!)。

下圖是Quick Draw!數據集在Facets中的截圖。該工具根據樣本在多個維度的特徵值擺放圖片的位置,特徵值可能是國家,用戶也可以自定義特徵如“隨機面孔”等進一步過濾。簡單一看便能獲知各個國家所佔的比例,放大還能看到每張圖的細節。對於Quick Draw!這樣的大型數據集,這樣方便的可視化工具有用的很,它使得研究者能夠探索數據集中微妙的差異或異常,或者見微知著地發現大數據集中的模式。

這是來自94個國家的Quick Draw!“隨機面孔”數據,換了個角度來看。很明顯,美國和歐洲國家的畫作數量呈絕對優勢,這樣很好理解,因為Quick Draw!現在只有英文版,之後我們會推出更多語言的版本。同時我們也看到巴西和泰國是非英語國家中較為突出的,這就給我們的設計師提了個醒,或許可以深入研究某些界面元素的設計受到對這兩個國家的人民喜聞樂見。我們可以利用這些信息進一步優化Quick Draw!,以饗全球非英語國家受眾。這些數據裡的趨勢也為我們未來的翻譯語言選擇提供重要參考。

Quick Draw!數據的另一診斷結果,就是捋出了幾條路線,可以讓每個人都優化數據多樣性,並且檢查潛在的偏差。優化點可能是: 根據地域,修改人為評分或內容生成的協議,如此數據可以更精確地體現出當地或全球的模式。 分組分析數據,建立能夠在視覺模式上交叉驗證的數據庫。 進行數據增廣,且重定義權重以使數據集兼容性更強。

通過發佈數據集和Facets這樣的工具,我們希望促進探索機器學習更泛用的方法,並將這些觀察轉化為創新機會。我們也是剛剛開始Quick Draw!和Facets的探究,也歡迎更多有志者加入。

相關推薦

推薦中...