'一文濃縮20年:帶你瞭解訓練數據發展史'

"
全文共1536字,預計學習時長3分鐘


"
全文共1536字,預計學習時長3分鐘


一文濃縮20年:帶你瞭解訓練數據發展史

圖片來源:pexels.com/@markusspiske


如今,機器學習受到萬千矚目,但目前科技公司的領導層中卻很少有人既具備建構機器學習模型的專業能力,又已經設計出能夠大力推動機器學習投入實際運用的機器學習系統。

很多商業大咖都認為,數據與算法一樣,是他們個人成功的關鍵所在。那麼,訓練數據經過了哪些發展過程?


"
全文共1536字,預計學習時長3分鐘


一文濃縮20年:帶你瞭解訓練數據發展史

圖片來源:pexels.com/@markusspiske


如今,機器學習受到萬千矚目,但目前科技公司的領導層中卻很少有人既具備建構機器學習模型的專業能力,又已經設計出能夠大力推動機器學習投入實際運用的機器學習系統。

很多商業大咖都認為,數據與算法一樣,是他們個人成功的關鍵所在。那麼,訓練數據經過了哪些發展過程?


一文濃縮20年:帶你瞭解訓練數據發展史

訓練數據簡史


1. 20年的訓練數據史


訓練數據的歷史裡存在妙趣橫生的循環。20世紀90年代,機器學習還未主導AI產業,程序員都是根據模型行為來編寫硬代碼,以改善系統。約20年後,機器學習主導了AI產業,較為相似的“人機迴圈”系統開始流行,只不過這次基於模型行為建構訓練數據的是非專業的註釋員。


而在20世紀90年代到本世紀初這20年間,標註訓練數據所需費用高昂,大大限制了機器學習的發展。這導致學術界專注於在相對較少的規範數據集上測試不同算法,而且時至今日這一趨勢還未有太大轉變。


本世紀前10年後期,亞馬遜的MTurk掀起了一股訓練數據現收現付的潮流,這改變了人們對訓練數據建構的看法。此時學術界也興起了一場小規模的運動,主動學習崛起為一種人工標註的策略,用於幫助註釋員挑選正確的數據。


但這一時期最大的改變並不在於學術界,而在於產業。自那時起,人們在真實世界中構建機器學習模型時,訓練數據和算法已經變得同等重要。


在21世紀前5年裡還出現了另一個循環——當時的神經元模型也需要大量的訓練數據,而且這往往會產生高昂成本。這就導致神經元方法在初創產業的普及應用十分緩慢,除了少數的計算機視覺項目。但這一方法足以大大提高機器學習的精準性,甚至有助於創造新的實用案例。


如今,自適應神經元模型和遷移學習已有所發展,這意味著更小的數據集也可以在機器學習的集中應用中展現出先進性能。


2. 訓練數據架構


"
全文共1536字,預計學習時長3分鐘


一文濃縮20年:帶你瞭解訓練數據發展史

圖片來源:pexels.com/@markusspiske


如今,機器學習受到萬千矚目,但目前科技公司的領導層中卻很少有人既具備建構機器學習模型的專業能力,又已經設計出能夠大力推動機器學習投入實際運用的機器學習系統。

很多商業大咖都認為,數據與算法一樣,是他們個人成功的關鍵所在。那麼,訓練數據經過了哪些發展過程?


一文濃縮20年:帶你瞭解訓練數據發展史

訓練數據簡史


1. 20年的訓練數據史


訓練數據的歷史裡存在妙趣橫生的循環。20世紀90年代,機器學習還未主導AI產業,程序員都是根據模型行為來編寫硬代碼,以改善系統。約20年後,機器學習主導了AI產業,較為相似的“人機迴圈”系統開始流行,只不過這次基於模型行為建構訓練數據的是非專業的註釋員。


而在20世紀90年代到本世紀初這20年間,標註訓練數據所需費用高昂,大大限制了機器學習的發展。這導致學術界專注於在相對較少的規範數據集上測試不同算法,而且時至今日這一趨勢還未有太大轉變。


本世紀前10年後期,亞馬遜的MTurk掀起了一股訓練數據現收現付的潮流,這改變了人們對訓練數據建構的看法。此時學術界也興起了一場小規模的運動,主動學習崛起為一種人工標註的策略,用於幫助註釋員挑選正確的數據。


但這一時期最大的改變並不在於學術界,而在於產業。自那時起,人們在真實世界中構建機器學習模型時,訓練數據和算法已經變得同等重要。


在21世紀前5年裡還出現了另一個循環——當時的神經元模型也需要大量的訓練數據,而且這往往會產生高昂成本。這就導致神經元方法在初創產業的普及應用十分緩慢,除了少數的計算機視覺項目。但這一方法足以大大提高機器學習的精準性,甚至有助於創造新的實用案例。


如今,自適應神經元模型和遷移學習已有所發展,這意味著更小的數據集也可以在機器學習的集中應用中展現出先進性能。


2. 訓練數據架構


一文濃縮20年:帶你瞭解訓練數據發展史

目前訓練數據面臨的問題


在面對訓練數據的不同應用實例時,經常會用到相似的策略,例如,我們需要多少數據?誰來標註比較合適?如何衡量標註質量?是否可以用合成數據或者預先訓練過的模型來標註數據,以降低人工註釋的薪水成本?在算法方面,如何迅速使模型適應新的標註數據?又如何解釋模型的不確定性,以幫助人們在檢查中對未標註數據進行正確採樣?


算法的建構方式在過去20年裡有巨大的演變,訓練數據的建構方法也同樣發生了翻天覆地的變化。在討論會上分享這些十分有趣,因為目前在機器學習的圈子裡,對訓練數據的討論遠遠沒有對算法的討論來得廣泛。


3. AI多樣性如何適應訓練數據?


如今一個最大的開放性問題是:AI多樣性如何適應訓練數據?


在《歧視系統:AI中的性別、種族和權力》這篇文章中,MyersWest、Whittaker和Crawford就AI設計者族群多樣的重要性進行了討論,他們主要聚焦於算法和機器學習模型的創建者。


文章傳送門:https://ainowinstitute.org/discriminatingsystems.pdf


如果要延續這一討論,其實在機器學習中,訓練數據領域存在的族群差異更加明顯。以算法為中心的技術往往更有利於富人的生活,對於程序員來說,一旦創建的模型投入應用,收入就很可能會增加。但是以訓練數據為中心的技術卻往往會壓榨那些相對不那麼富裕的人群的價值,如果你為一個模型建構了訓練數據,很可能只會收到一次酬金,但為數據建構算法的程序員卻能有源源不斷的收入。


20世紀90年代,建構算法的人也同時建構了數據(或稱規則),因此必須均等地衡量他們在這兩方面的貢獻。我希望這也能形成一個循環,以便迴歸到一個更為公平的產業系統之中,使在訓練數據領域創造價值的人們也能獲得相應的補償。

"
全文共1536字,預計學習時長3分鐘


一文濃縮20年:帶你瞭解訓練數據發展史

圖片來源:pexels.com/@markusspiske


如今,機器學習受到萬千矚目,但目前科技公司的領導層中卻很少有人既具備建構機器學習模型的專業能力,又已經設計出能夠大力推動機器學習投入實際運用的機器學習系統。

很多商業大咖都認為,數據與算法一樣,是他們個人成功的關鍵所在。那麼,訓練數據經過了哪些發展過程?


一文濃縮20年:帶你瞭解訓練數據發展史

訓練數據簡史


1. 20年的訓練數據史


訓練數據的歷史裡存在妙趣橫生的循環。20世紀90年代,機器學習還未主導AI產業,程序員都是根據模型行為來編寫硬代碼,以改善系統。約20年後,機器學習主導了AI產業,較為相似的“人機迴圈”系統開始流行,只不過這次基於模型行為建構訓練數據的是非專業的註釋員。


而在20世紀90年代到本世紀初這20年間,標註訓練數據所需費用高昂,大大限制了機器學習的發展。這導致學術界專注於在相對較少的規範數據集上測試不同算法,而且時至今日這一趨勢還未有太大轉變。


本世紀前10年後期,亞馬遜的MTurk掀起了一股訓練數據現收現付的潮流,這改變了人們對訓練數據建構的看法。此時學術界也興起了一場小規模的運動,主動學習崛起為一種人工標註的策略,用於幫助註釋員挑選正確的數據。


但這一時期最大的改變並不在於學術界,而在於產業。自那時起,人們在真實世界中構建機器學習模型時,訓練數據和算法已經變得同等重要。


在21世紀前5年裡還出現了另一個循環——當時的神經元模型也需要大量的訓練數據,而且這往往會產生高昂成本。這就導致神經元方法在初創產業的普及應用十分緩慢,除了少數的計算機視覺項目。但這一方法足以大大提高機器學習的精準性,甚至有助於創造新的實用案例。


如今,自適應神經元模型和遷移學習已有所發展,這意味著更小的數據集也可以在機器學習的集中應用中展現出先進性能。


2. 訓練數據架構


一文濃縮20年:帶你瞭解訓練數據發展史

目前訓練數據面臨的問題


在面對訓練數據的不同應用實例時,經常會用到相似的策略,例如,我們需要多少數據?誰來標註比較合適?如何衡量標註質量?是否可以用合成數據或者預先訓練過的模型來標註數據,以降低人工註釋的薪水成本?在算法方面,如何迅速使模型適應新的標註數據?又如何解釋模型的不確定性,以幫助人們在檢查中對未標註數據進行正確採樣?


算法的建構方式在過去20年裡有巨大的演變,訓練數據的建構方法也同樣發生了翻天覆地的變化。在討論會上分享這些十分有趣,因為目前在機器學習的圈子裡,對訓練數據的討論遠遠沒有對算法的討論來得廣泛。


3. AI多樣性如何適應訓練數據?


如今一個最大的開放性問題是:AI多樣性如何適應訓練數據?


在《歧視系統:AI中的性別、種族和權力》這篇文章中,MyersWest、Whittaker和Crawford就AI設計者族群多樣的重要性進行了討論,他們主要聚焦於算法和機器學習模型的創建者。


文章傳送門:https://ainowinstitute.org/discriminatingsystems.pdf


如果要延續這一討論,其實在機器學習中,訓練數據領域存在的族群差異更加明顯。以算法為中心的技術往往更有利於富人的生活,對於程序員來說,一旦創建的模型投入應用,收入就很可能會增加。但是以訓練數據為中心的技術卻往往會壓榨那些相對不那麼富裕的人群的價值,如果你為一個模型建構了訓練數據,很可能只會收到一次酬金,但為數據建構算法的程序員卻能有源源不斷的收入。


20世紀90年代,建構算法的人也同時建構了數據(或稱規則),因此必須均等地衡量他們在這兩方面的貢獻。我希望這也能形成一個循環,以便迴歸到一個更為公平的產業系統之中,使在訓練數據領域創造價值的人們也能獲得相應的補償。

一文濃縮20年:帶你瞭解訓練數據發展史

留言 點贊 關注

我們一起分享AI學習與發展的乾貨

歡迎關注全平臺AI垂類自媒體 “讀芯術”

"

相關推薦

推薦中...