'AI發展自驅動,這家公司如何用AI成就人工智能裡更智能的人工?'

"

2019年,人們再次談起人工智能時,最常聊到的便是其如何應用。因為大家心裡都清楚,人工智能要想服務於企業和社會,必須先從實驗室中走出來,放下它那神祕高貴的外表,腳踏實地。

然而,就像半導體技術一樣,在誕生之初,它沒有得到產業的認可,主要是因為高昂的製作費用,一顆電晶體成本高達10美元,被戲稱作實驗室裡的玩具。直到硅提純、精密加工等技術的發展,才有了由傑克·基爾比所研發的現代集成電路,目前10美元可以買數千萬甚至上億顆電晶體。

人工智能的成本又由何組成呢?它不像芯片一樣擁有明碼標價的BOM,普遍認為其主要來自於研發人員及工程師的薪資和服務器維護,事實上這個想法不夠全面。絕大多數企業所採取的人工智能技術名為機器學習,需要有脫敏的訓練數據支撐才得以運行。哪怕是實現Hopfield,也需要遠超想象的數據量,更何況是現如今那些擁有強魯棒性的模型了。

數據採集標註看起來很簡單,無非就是拍個照片標個點,但是真正要操作起來卻根本不是那麼一回事。首先要想在足夠短的週期內採集到足夠的數據量,必須要有足夠的人手配置。假若要10萬張人臉表情照片並且要有300個點需要標註,每人每天貢獻20張合格的素材算是一個較為平均的水平,企業數據採集標註團隊擁有50個人,那麼完成這一單生意就需要100天的時長,也就是3個多月。

拿到數據後再去複審、訓練,到最後功能上線,少說也要將近半年的時間。這顯然對不上軟件疊代更新的理念。再加上這些人員的培訓組織運營成本等等,一筆合格的數據採集業務的交付可能高達幾萬甚至數十萬元。這也是為什麼會有一種觀點表示,人工智能不僅不會替代勞動力,反而會增加就業。

在海外,率先察覺到由人工智能所催生的新一片藍海——數據採集和數據標註,最早由Appen為代表,後來隨著MightyAI、Scale這樣的公司出現,逐漸走向穩定。這個爆發點大約是在2016年,諸如後者這樣的公司,均是在2015、2016這兩年間出現的。而就在最近,Scale AI創始人,華裔22歲青年Alexandr Wang宣佈獲得1億美金C輪融資,公司估值超10億美金,成為硅谷新晉獨角獸。

反觀國內,人工智能的浪潮其實要比國外更為洶湧,然而專業從事數據採集標註的公司發展卻比較滯後。即便是有幾家相關的公司,卻多半為自營狀態,和海外服務眾多AI企業的平臺模式截然相反。當然,誰都是吃客單生意的,不同並不代表做錯了。

國內有一家公司名為龍貓數據,是國內首家以眾包的形式運營採集標註業務的。眾包形式的好處就在於人員調用足夠充沛,相較於傳統的員工制,眾包形式更為靈活。同時,淡季的時候也不用支付員工薪資,減輕了運營成本。

但是眾包形式的缺點在於用戶管理,數據採集成員和龍貓之間並沒有勞務合同,只有平臺運營規範作為制約。龍貓數據因此採取了精細化管理的方式,對用戶進行能力畫像,將不同用戶分配到多個不同環節,包括數據採集和標註、數據審查等等。

為了提高數據產出的質量與效率,配合龍貓數據的眾包模式和精細化用戶運營,龍貓數據採用了預標註工具和人機交叉數據驗證這兩種措施。前者是指,龍貓眾包平臺的AI工具會先對需要標註的數據進行預標註,然後再由標註人員對預標註結果進行微調;後者則指的是龍貓數據會對標註好的數據進行機器和人的雙重交叉審核,加上合理數量的抽檢,最終滿足數據交付的要求。

借用眾包的模式,從任務發佈到數據交付,這樣一個流程下來,即便是幾十萬數據規模的大單,短短一兩週也就能搞定。

龍貓數據也有頭疼的地方,他們有一個客戶是全球非常知名的通信設備商。根據GDPR的規定,凡是消費到GDPR所保護地區的產品,必須要遵守相關規定。這也就使得龍貓在數據採集時也要合乎GDPR的標準。為此,龍貓招納了深入瞭解GDPR的相關人士。

人工智能飛速發展為數據行業帶來了大量不同的基礎數據需求,龍貓數據的客單總體分為兩類:採集標註過的數據和沒有采集標註過的數據。已有的數據再次採集標註是一種資源浪費。於是龍貓數據推出了一項數據商城服務,即用戶可直接在商城中購買已經存在的數據集,以便快速拿到數據。當然了,數據商城的數據在復售前都會與客戶簽訂一定的協議,已保證龍貓數據依然合法享有這批數據的銷售權。

類似於知識產權,數據在銷售以後還是存在的,也就是說某一企業在購買數據後,它可以將其複製給其他公司。相當於多個企業只要買一份數據就能完成所有的訓練了,在經濟學的角度來講,哪怕是購買方銷售了一次數據,這對於龍貓數據來說都是一種損失。區塊鏈或許是一種解決辦法,不過當下,龍貓把注意力放在了另一件事上。

龍貓數據將自己目前的發展分為了三個層次,第一層次為龍貓1.0,即數據標註工具集合。1.0時期,龍貓開發了基於視覺、音頻、文本這三大領域的標註工具,用於對數據進行手動處理,以服務於機器學習的訓練。第二層為龍貓2.0,在這段時間裡,龍貓開始從整體流程上對數據採集標註進行優化,實現了從接到需求到完成需求的全過程自動化管理,其中非常重要的一部分是對數據採集標註任務的細化拆分,將一個複雜的任務細化拆分成顆粒度極小的需求,極大提升了需求滿足的時間。

2019年,龍貓數據進入了3.0時期,開發AI預標註工具。目前這種預標註工具主要應用在視覺層面,而音頻和文本這兩項業務應用較少。龍貓數據3.0所代表的是全面採用預標註技術和工具,能夠讓所有數據採集標註人員都能使用,從而提高效率,對於龍貓數據來說,這種工具的應用能夠極大縮短交付週期。

龍貓數據3.0會持續一段時間,隨後便進入4.0時期。在那個時期裡,龍貓會全面採用自動化標註工具,用戶只需要對採集數據和預標註結果進行微調,標註及審核、質檢工作全面由人工智能所代替。只是這個道路還較為遙遠,現在不好估量。

然而不難想象的是,未來的數據採集公司必須要通過工具和預標註來形成自己的技術壁壘。採集過程主要依靠人來完成,其規模和效率主要來自於市場運營和任務獎勵,這也就意味著從採集到產出之間,勞動時間越短,成本也就越少,能夠完成的客單數量也就越多。

從客戶數量來看,龍貓現有約200家客戶左右,基於眾包形式的優勢,這種數量級是合理的。畢竟從外部看,在質量合格的前提下,自然會選擇產品週期最短,價格最便宜的公司。這種模式也造就了龍貓數據客戶復購量大,核心客戶客單價高的局面。

從內部看,龍貓數據的模式沒有大幅度變更,反倒是流程發生了變化,最根本的原因還是在於工具的進化。同時,龍貓自3.0時期開始也不再是一家傳統的數據採集標註公司,而是一家人工智能公司。

或許他們想要的是從數據基礎服務到人工智能的發展轉變,由單純的AI數據服務延伸到細分領域整體AI落地。藉助AI的力量,將人工智能裡最需要人工的部分解放出來,成就人工智能領域最智能的人工。這是他們最擅長的,畢竟他們是人工智能領域的築基者,他們也最明白如何用好AI這股強大的原生力量。

“只有退潮了才知道誰沒穿褲衩。”這句話被人們說了無數次,最早能追溯到豆你玩、姜你軍時期。無論是VR、O2O、人工智能都是一樣的道理。

話又說回來了,數據採集標註作為人工智能的上游,它也需要人工智能開發能力,最終形成了一種閉環。未來會怎樣,沒人說得清楚,但是人工智能的未來絕對不是吹噓自己的算法能有99%的補償、能解決幾百億數據量求梯度,而是要從每一比特的數據開始積累,直至幾十乃至幾百ZB。

"

相關推薦

推薦中...