'AIの幕後人:探祕“硬核英雄”的超級武器'

"

作者 | 雲計算的阿晶

出品 | AI科技大本營(ID:rgznai100)

掐指一算八年之前,那時正是國內互聯網卯足勁頭起飛的一年,各行各業表現都很突出,尤其是與人們生活密切相關的手機,正大踏步地從功能機向智能手機轉型,其中的市場需求可想而知,阿晶覺得那種爆炸程度完全不亞於如今人們對5G的狂熱追逐。

伴隨智能手機的迅速普及並大舉助力產業化發展進程,各類 APP 宛如新生。同樣是那一年,一家名為雲測的企業在業內初現,迎著移動互聯網的風口做起了應用測試的業務。回顧當時的雲測,創始團隊幾乎將市面上所有“露頭”的手機機型都採購回來,建立雲真機平臺,提供包括質量測試、自動化測試等在內的諸多服務,為加快移動互聯網產品的迭代無私地貢獻了自己的血汗。

"

作者 | 雲計算的阿晶

出品 | AI科技大本營(ID:rgznai100)

掐指一算八年之前,那時正是國內互聯網卯足勁頭起飛的一年,各行各業表現都很突出,尤其是與人們生活密切相關的手機,正大踏步地從功能機向智能手機轉型,其中的市場需求可想而知,阿晶覺得那種爆炸程度完全不亞於如今人們對5G的狂熱追逐。

伴隨智能手機的迅速普及並大舉助力產業化發展進程,各類 APP 宛如新生。同樣是那一年,一家名為雲測的企業在業內初現,迎著移動互聯網的風口做起了應用測試的業務。回顧當時的雲測,創始團隊幾乎將市面上所有“露頭”的手機機型都採購回來,建立雲真機平臺,提供包括質量測試、自動化測試等在內的諸多服務,為加快移動互聯網產品的迭代無私地貢獻了自己的血汗。

AIの幕後人:探祕“硬核英雄”的超級武器


隨著時間推移,企業發展且技術演進,在雲測積累大量客戶的過程中,一些 AI 企業主動找到雲測提出 AI 數據服務的需求。如果說最初選擇應用測試是行業所趨的話,這次與“數”結緣則完全是需求導向,就這樣雲測開始佈局AI數據服務行業,旗下的 AI 數據服務品牌“雲測數據”就此誕生。

據阿晶瞭解,作為AI數據資源服務的頭部品牌,雲測數據早已走在行業前列。其擁有足夠的方法論和對應的協同工作的處理方式,為智能駕駛、智能家居、智能安防、智慧金融保險等領域提供定製化的數據採集標註服務,可以做到全方位支持文本、語音、圖像、視頻等各類型數據的處理。截至目前,雲測數據在華東、華北、華南都設有數據交付中心和採集基地,已成功為數百家企業提供了一站式AI數據服務。

說到此處,不容忽視的一點,伴隨 AI 應用落地,對於數據種類、質量以及場景匹配程度的要求正逐漸提升,擁有特定場景數據的優勢會逐漸成為 AI 企業在行業內縱橫捭闔的“殺手鐗”之一。

對此,雲測數據總經理賈宇航強調,為了貫徹這種戰略導向,獲取更多特定場景的數據,雲測數據結合多年的項目管理流程能力,在全國多地自建了數據場景實驗室和數據標註基地,並配備多種採集軟、硬件設備,著力打造了一隻專業的定製化採集和高質量的標註隊伍。

"

作者 | 雲計算的阿晶

出品 | AI科技大本營(ID:rgznai100)

掐指一算八年之前,那時正是國內互聯網卯足勁頭起飛的一年,各行各業表現都很突出,尤其是與人們生活密切相關的手機,正大踏步地從功能機向智能手機轉型,其中的市場需求可想而知,阿晶覺得那種爆炸程度完全不亞於如今人們對5G的狂熱追逐。

伴隨智能手機的迅速普及並大舉助力產業化發展進程,各類 APP 宛如新生。同樣是那一年,一家名為雲測的企業在業內初現,迎著移動互聯網的風口做起了應用測試的業務。回顧當時的雲測,創始團隊幾乎將市面上所有“露頭”的手機機型都採購回來,建立雲真機平臺,提供包括質量測試、自動化測試等在內的諸多服務,為加快移動互聯網產品的迭代無私地貢獻了自己的血汗。

AIの幕後人:探祕“硬核英雄”的超級武器


隨著時間推移,企業發展且技術演進,在雲測積累大量客戶的過程中,一些 AI 企業主動找到雲測提出 AI 數據服務的需求。如果說最初選擇應用測試是行業所趨的話,這次與“數”結緣則完全是需求導向,就這樣雲測開始佈局AI數據服務行業,旗下的 AI 數據服務品牌“雲測數據”就此誕生。

據阿晶瞭解,作為AI數據資源服務的頭部品牌,雲測數據早已走在行業前列。其擁有足夠的方法論和對應的協同工作的處理方式,為智能駕駛、智能家居、智能安防、智慧金融保險等領域提供定製化的數據採集標註服務,可以做到全方位支持文本、語音、圖像、視頻等各類型數據的處理。截至目前,雲測數據在華東、華北、華南都設有數據交付中心和採集基地,已成功為數百家企業提供了一站式AI數據服務。

說到此處,不容忽視的一點,伴隨 AI 應用落地,對於數據種類、質量以及場景匹配程度的要求正逐漸提升,擁有特定場景數據的優勢會逐漸成為 AI 企業在行業內縱橫捭闔的“殺手鐗”之一。

對此,雲測數據總經理賈宇航強調,為了貫徹這種戰略導向,獲取更多特定場景的數據,雲測數據結合多年的項目管理流程能力,在全國多地自建了數據場景實驗室和數據標註基地,並配備多種採集軟、硬件設備,著力打造了一隻專業的定製化採集和高質量的標註隊伍。

AIの幕後人:探祕“硬核英雄”的超級武器

“我們要做到能儘可能多的覆蓋 AI 客戶的不同長尾場景,滿足各類場景要求高、採集難度大等採集作業,從源頭提升數據適用性。此外還需憑藉管理、風控等方式,最大程度確保數據精確度、保密性等進而完成企業賦能。”他進一步補充道。

縱觀AI技術以及行業的發展,阿晶覺得其實雲測的“數據戰略”不無道理。

從整體人工智能的發展歷程來說,背後支撐的三大要素分別是數據、算法和算力,當人們將過多的精力聚焦在算法和算力上時,殊不知 AI 數據在人工智能商業化落地中發揮著不可替代的作用。

舉個例子來說,算法模型被設計好後就需要大量標註好的數據進行訓練才能實現更智能的結果;如果希望性能和算法精準度得到進一步提升,細化精準的數據更是必不可少,否則會制約整個數據行業以及人工智能產業的發展。

具體到商業化的落地,賈宇航表示,雖然算法和算力得到巨大提升,但只有擁有貼近真實場景的精準數據,企業才能在AI落地和商業化道路上越走越穩。

"

作者 | 雲計算的阿晶

出品 | AI科技大本營(ID:rgznai100)

掐指一算八年之前,那時正是國內互聯網卯足勁頭起飛的一年,各行各業表現都很突出,尤其是與人們生活密切相關的手機,正大踏步地從功能機向智能手機轉型,其中的市場需求可想而知,阿晶覺得那種爆炸程度完全不亞於如今人們對5G的狂熱追逐。

伴隨智能手機的迅速普及並大舉助力產業化發展進程,各類 APP 宛如新生。同樣是那一年,一家名為雲測的企業在業內初現,迎著移動互聯網的風口做起了應用測試的業務。回顧當時的雲測,創始團隊幾乎將市面上所有“露頭”的手機機型都採購回來,建立雲真機平臺,提供包括質量測試、自動化測試等在內的諸多服務,為加快移動互聯網產品的迭代無私地貢獻了自己的血汗。

AIの幕後人:探祕“硬核英雄”的超級武器


隨著時間推移,企業發展且技術演進,在雲測積累大量客戶的過程中,一些 AI 企業主動找到雲測提出 AI 數據服務的需求。如果說最初選擇應用測試是行業所趨的話,這次與“數”結緣則完全是需求導向,就這樣雲測開始佈局AI數據服務行業,旗下的 AI 數據服務品牌“雲測數據”就此誕生。

據阿晶瞭解,作為AI數據資源服務的頭部品牌,雲測數據早已走在行業前列。其擁有足夠的方法論和對應的協同工作的處理方式,為智能駕駛、智能家居、智能安防、智慧金融保險等領域提供定製化的數據採集標註服務,可以做到全方位支持文本、語音、圖像、視頻等各類型數據的處理。截至目前,雲測數據在華東、華北、華南都設有數據交付中心和採集基地,已成功為數百家企業提供了一站式AI數據服務。

說到此處,不容忽視的一點,伴隨 AI 應用落地,對於數據種類、質量以及場景匹配程度的要求正逐漸提升,擁有特定場景數據的優勢會逐漸成為 AI 企業在行業內縱橫捭闔的“殺手鐗”之一。

對此,雲測數據總經理賈宇航強調,為了貫徹這種戰略導向,獲取更多特定場景的數據,雲測數據結合多年的項目管理流程能力,在全國多地自建了數據場景實驗室和數據標註基地,並配備多種採集軟、硬件設備,著力打造了一隻專業的定製化採集和高質量的標註隊伍。

AIの幕後人:探祕“硬核英雄”的超級武器

“我們要做到能儘可能多的覆蓋 AI 客戶的不同長尾場景,滿足各類場景要求高、採集難度大等採集作業,從源頭提升數據適用性。此外還需憑藉管理、風控等方式,最大程度確保數據精確度、保密性等進而完成企業賦能。”他進一步補充道。

縱觀AI技術以及行業的發展,阿晶覺得其實雲測的“數據戰略”不無道理。

從整體人工智能的發展歷程來說,背後支撐的三大要素分別是數據、算法和算力,當人們將過多的精力聚焦在算法和算力上時,殊不知 AI 數據在人工智能商業化落地中發揮著不可替代的作用。

舉個例子來說,算法模型被設計好後就需要大量標註好的數據進行訓練才能實現更智能的結果;如果希望性能和算法精準度得到進一步提升,細化精準的數據更是必不可少,否則會制約整個數據行業以及人工智能產業的發展。

具體到商業化的落地,賈宇航表示,雖然算法和算力得到巨大提升,但只有擁有貼近真實場景的精準數據,企業才能在AI落地和商業化道路上越走越穩。

AIの幕後人:探祕“硬核英雄”的超級武器

這麼看,數據對 AI 就像水電一樣關鍵,如果從 AI 數據服務的發展進程考量,互聯網沉積數據可被認為是初始期,時間大致可以追溯到 5-10 年前。當時很多 AI 領域的企業依託互聯網上沉積的大量數據投身算法驗證,通過爬蟲和數據清洗等簡單易操作的方式,至此一些主營數據集產品的公司應運而生。

發展到第二階段,主要湧現的是通用型數據產品,催生了以“識別”為主,用於實現簡單數據分析的用途。“第三階段,有些企業發現通用性產品確實存在不小的問題,例如無法解決諸多企業面臨的實際問題,由此定製化需求的產生勢在必行,例如亞馬遜 Amazon Mechanical Turk。”賈宇航總結道。

“發展到第四階段,部分企業為了突破行業內算法的侷限性,選擇通過硬件升級或者數據維度多樣化得角度著手,進一步豐富自己的數據庫存,但有一點困難之處,這些定製化數據很難通過眾包途徑獲得,定製市場機會無限。”

發展到如今,用戶數據進入到沉澱時期。該階段,企業在使用過程中會不斷積累數據,進而讓產品迭代更加智能。值得注意的是,有些產品自帶分享或社交功能,很大程度上會豐富互聯網的數據沉積,助力企業進入到下一個階段並加強其中的循環往復。

總體來看,企業在不同的階段需要不同類型的數據服務,但眾包採集和定製化採集是數據採集行業的兩種常見模式。

其中眾包模式的優勢主要體現在樣本的豐富性上,但對於今日的 AI 數據服務業務的特性,通過眾包模式解決所有數據採集的需求顯然不現實。更關鍵的是,定製化需求的採集任務中,眾包用戶採集到的數據往往差強人意,反倒出現增加審核成本的情況。

此處阿晶蒐羅了一些有關具體企業級數據採集的資料,其顯示 2018 年中國AI公司的總融資規模達到千億元以上,其中數據採標的市場約為 100 億元— 300 億元。具體來說 AI 公司內部的標註部門之間消化,基本佔三分之一;剩下的 25%—33% 則流向專門做數據採標的第三方公司。

如此看來,數據採集對企業來說不但必要而且重要,但如果企業選擇自建團隊進行數據採集和標註,必然面臨耗費大量時間成本、人力成本的局面;另一方面,花錢花時間不說,要做到壁壘般獨享數據,又對數據安全提出更高要求,輕易分享怎麼能行?

"

作者 | 雲計算的阿晶

出品 | AI科技大本營(ID:rgznai100)

掐指一算八年之前,那時正是國內互聯網卯足勁頭起飛的一年,各行各業表現都很突出,尤其是與人們生活密切相關的手機,正大踏步地從功能機向智能手機轉型,其中的市場需求可想而知,阿晶覺得那種爆炸程度完全不亞於如今人們對5G的狂熱追逐。

伴隨智能手機的迅速普及並大舉助力產業化發展進程,各類 APP 宛如新生。同樣是那一年,一家名為雲測的企業在業內初現,迎著移動互聯網的風口做起了應用測試的業務。回顧當時的雲測,創始團隊幾乎將市面上所有“露頭”的手機機型都採購回來,建立雲真機平臺,提供包括質量測試、自動化測試等在內的諸多服務,為加快移動互聯網產品的迭代無私地貢獻了自己的血汗。

AIの幕後人:探祕“硬核英雄”的超級武器


隨著時間推移,企業發展且技術演進,在雲測積累大量客戶的過程中,一些 AI 企業主動找到雲測提出 AI 數據服務的需求。如果說最初選擇應用測試是行業所趨的話,這次與“數”結緣則完全是需求導向,就這樣雲測開始佈局AI數據服務行業,旗下的 AI 數據服務品牌“雲測數據”就此誕生。

據阿晶瞭解,作為AI數據資源服務的頭部品牌,雲測數據早已走在行業前列。其擁有足夠的方法論和對應的協同工作的處理方式,為智能駕駛、智能家居、智能安防、智慧金融保險等領域提供定製化的數據採集標註服務,可以做到全方位支持文本、語音、圖像、視頻等各類型數據的處理。截至目前,雲測數據在華東、華北、華南都設有數據交付中心和採集基地,已成功為數百家企業提供了一站式AI數據服務。

說到此處,不容忽視的一點,伴隨 AI 應用落地,對於數據種類、質量以及場景匹配程度的要求正逐漸提升,擁有特定場景數據的優勢會逐漸成為 AI 企業在行業內縱橫捭闔的“殺手鐗”之一。

對此,雲測數據總經理賈宇航強調,為了貫徹這種戰略導向,獲取更多特定場景的數據,雲測數據結合多年的項目管理流程能力,在全國多地自建了數據場景實驗室和數據標註基地,並配備多種採集軟、硬件設備,著力打造了一隻專業的定製化採集和高質量的標註隊伍。

AIの幕後人:探祕“硬核英雄”的超級武器

“我們要做到能儘可能多的覆蓋 AI 客戶的不同長尾場景,滿足各類場景要求高、採集難度大等採集作業,從源頭提升數據適用性。此外還需憑藉管理、風控等方式,最大程度確保數據精確度、保密性等進而完成企業賦能。”他進一步補充道。

縱觀AI技術以及行業的發展,阿晶覺得其實雲測的“數據戰略”不無道理。

從整體人工智能的發展歷程來說,背後支撐的三大要素分別是數據、算法和算力,當人們將過多的精力聚焦在算法和算力上時,殊不知 AI 數據在人工智能商業化落地中發揮著不可替代的作用。

舉個例子來說,算法模型被設計好後就需要大量標註好的數據進行訓練才能實現更智能的結果;如果希望性能和算法精準度得到進一步提升,細化精準的數據更是必不可少,否則會制約整個數據行業以及人工智能產業的發展。

具體到商業化的落地,賈宇航表示,雖然算法和算力得到巨大提升,但只有擁有貼近真實場景的精準數據,企業才能在AI落地和商業化道路上越走越穩。

AIの幕後人:探祕“硬核英雄”的超級武器

這麼看,數據對 AI 就像水電一樣關鍵,如果從 AI 數據服務的發展進程考量,互聯網沉積數據可被認為是初始期,時間大致可以追溯到 5-10 年前。當時很多 AI 領域的企業依託互聯網上沉積的大量數據投身算法驗證,通過爬蟲和數據清洗等簡單易操作的方式,至此一些主營數據集產品的公司應運而生。

發展到第二階段,主要湧現的是通用型數據產品,催生了以“識別”為主,用於實現簡單數據分析的用途。“第三階段,有些企業發現通用性產品確實存在不小的問題,例如無法解決諸多企業面臨的實際問題,由此定製化需求的產生勢在必行,例如亞馬遜 Amazon Mechanical Turk。”賈宇航總結道。

“發展到第四階段,部分企業為了突破行業內算法的侷限性,選擇通過硬件升級或者數據維度多樣化得角度著手,進一步豐富自己的數據庫存,但有一點困難之處,這些定製化數據很難通過眾包途徑獲得,定製市場機會無限。”

發展到如今,用戶數據進入到沉澱時期。該階段,企業在使用過程中會不斷積累數據,進而讓產品迭代更加智能。值得注意的是,有些產品自帶分享或社交功能,很大程度上會豐富互聯網的數據沉積,助力企業進入到下一個階段並加強其中的循環往復。

總體來看,企業在不同的階段需要不同類型的數據服務,但眾包採集和定製化採集是數據採集行業的兩種常見模式。

其中眾包模式的優勢主要體現在樣本的豐富性上,但對於今日的 AI 數據服務業務的特性,通過眾包模式解決所有數據採集的需求顯然不現實。更關鍵的是,定製化需求的採集任務中,眾包用戶採集到的數據往往差強人意,反倒出現增加審核成本的情況。

此處阿晶蒐羅了一些有關具體企業級數據採集的資料,其顯示 2018 年中國AI公司的總融資規模達到千億元以上,其中數據採標的市場約為 100 億元— 300 億元。具體來說 AI 公司內部的標註部門之間消化,基本佔三分之一;剩下的 25%—33% 則流向專門做數據採標的第三方公司。

如此看來,數據採集對企業來說不但必要而且重要,但如果企業選擇自建團隊進行數據採集和標註,必然面臨耗費大量時間成本、人力成本的局面;另一方面,花錢花時間不說,要做到壁壘般獨享數據,又對數據安全提出更高要求,輕易分享怎麼能行?

AIの幕後人:探祕“硬核英雄”的超級武器

基於 AI 數據發展路徑以及諸多企業痛點,雲測主要瞄準了為企業提供定製化場景的數據採集與提供自建團隊式的高精度標註服務的業務重點。對此賈宇航解釋道,投身做定製化場景數據採集主要在於,目前很多企業已存在的數據維度對於算法提升的效果早就面臨瓶頸,必然需要引入更多維度的數據,例如對應場景的多模態數據,將 2D、3D 數據以及聲音等多維度的數據結合起來提升算法性能,而這樣的數據在互聯網的條件下或者通過已有的眾包數據採集很難獲得。

此外有些企業為了提升算法精度自研了一些硬件,而這些硬件只能通過定製化場景去實現更好的效果。所以幫助企業還原想要的定製化場景是顯示業務優勢的手段之一,這項實踐被賈宇航稱之為場景實驗室。

據阿晶瞭解,這些場景實驗室目前主要分佈在華東、華北和華南。在場景實驗室中,雲測數據會根據客戶需求,邀請特定模特到實驗室中進行數據採集。可以這樣定義,場景實驗室是雲測數據佈局高度定製化、多模態的 AI 數據服務的重要組成部分,藉此能使得其交付能力與客戶需求平行,甚至領先客戶的需求一點點。

當然除了很智慧的場景實驗室之外,雲測數據的核心優勢還可總結為三方面。

從人才專業性角度出發,目前雲測數據主要服務於智能駕駛、金融、智能生活、安防等四大領域,每一領域均由不同的項目經理組負責。

其中項目經理都經過包括 AI 基礎、作業管理、場景搭建、突發事件處理等至少 350 小時的職前培訓,完全能夠做到為客戶梳理項目需求文檔並提供專業諮詢服務,從源頭上保證高質量輸出。

更重要的是,雲測數據配備了專業的軟硬件設備,針對客戶不同的定製化需求持續優化工具、迭代產品,滿足技術要求高、採集難度大的採集任務,如此一來工具層面確實很給力。

"

作者 | 雲計算的阿晶

出品 | AI科技大本營(ID:rgznai100)

掐指一算八年之前,那時正是國內互聯網卯足勁頭起飛的一年,各行各業表現都很突出,尤其是與人們生活密切相關的手機,正大踏步地從功能機向智能手機轉型,其中的市場需求可想而知,阿晶覺得那種爆炸程度完全不亞於如今人們對5G的狂熱追逐。

伴隨智能手機的迅速普及並大舉助力產業化發展進程,各類 APP 宛如新生。同樣是那一年,一家名為雲測的企業在業內初現,迎著移動互聯網的風口做起了應用測試的業務。回顧當時的雲測,創始團隊幾乎將市面上所有“露頭”的手機機型都採購回來,建立雲真機平臺,提供包括質量測試、自動化測試等在內的諸多服務,為加快移動互聯網產品的迭代無私地貢獻了自己的血汗。

AIの幕後人:探祕“硬核英雄”的超級武器


隨著時間推移,企業發展且技術演進,在雲測積累大量客戶的過程中,一些 AI 企業主動找到雲測提出 AI 數據服務的需求。如果說最初選擇應用測試是行業所趨的話,這次與“數”結緣則完全是需求導向,就這樣雲測開始佈局AI數據服務行業,旗下的 AI 數據服務品牌“雲測數據”就此誕生。

據阿晶瞭解,作為AI數據資源服務的頭部品牌,雲測數據早已走在行業前列。其擁有足夠的方法論和對應的協同工作的處理方式,為智能駕駛、智能家居、智能安防、智慧金融保險等領域提供定製化的數據採集標註服務,可以做到全方位支持文本、語音、圖像、視頻等各類型數據的處理。截至目前,雲測數據在華東、華北、華南都設有數據交付中心和採集基地,已成功為數百家企業提供了一站式AI數據服務。

說到此處,不容忽視的一點,伴隨 AI 應用落地,對於數據種類、質量以及場景匹配程度的要求正逐漸提升,擁有特定場景數據的優勢會逐漸成為 AI 企業在行業內縱橫捭闔的“殺手鐗”之一。

對此,雲測數據總經理賈宇航強調,為了貫徹這種戰略導向,獲取更多特定場景的數據,雲測數據結合多年的項目管理流程能力,在全國多地自建了數據場景實驗室和數據標註基地,並配備多種採集軟、硬件設備,著力打造了一隻專業的定製化採集和高質量的標註隊伍。

AIの幕後人:探祕“硬核英雄”的超級武器

“我們要做到能儘可能多的覆蓋 AI 客戶的不同長尾場景,滿足各類場景要求高、採集難度大等採集作業,從源頭提升數據適用性。此外還需憑藉管理、風控等方式,最大程度確保數據精確度、保密性等進而完成企業賦能。”他進一步補充道。

縱觀AI技術以及行業的發展,阿晶覺得其實雲測的“數據戰略”不無道理。

從整體人工智能的發展歷程來說,背後支撐的三大要素分別是數據、算法和算力,當人們將過多的精力聚焦在算法和算力上時,殊不知 AI 數據在人工智能商業化落地中發揮著不可替代的作用。

舉個例子來說,算法模型被設計好後就需要大量標註好的數據進行訓練才能實現更智能的結果;如果希望性能和算法精準度得到進一步提升,細化精準的數據更是必不可少,否則會制約整個數據行業以及人工智能產業的發展。

具體到商業化的落地,賈宇航表示,雖然算法和算力得到巨大提升,但只有擁有貼近真實場景的精準數據,企業才能在AI落地和商業化道路上越走越穩。

AIの幕後人:探祕“硬核英雄”的超級武器

這麼看,數據對 AI 就像水電一樣關鍵,如果從 AI 數據服務的發展進程考量,互聯網沉積數據可被認為是初始期,時間大致可以追溯到 5-10 年前。當時很多 AI 領域的企業依託互聯網上沉積的大量數據投身算法驗證,通過爬蟲和數據清洗等簡單易操作的方式,至此一些主營數據集產品的公司應運而生。

發展到第二階段,主要湧現的是通用型數據產品,催生了以“識別”為主,用於實現簡單數據分析的用途。“第三階段,有些企業發現通用性產品確實存在不小的問題,例如無法解決諸多企業面臨的實際問題,由此定製化需求的產生勢在必行,例如亞馬遜 Amazon Mechanical Turk。”賈宇航總結道。

“發展到第四階段,部分企業為了突破行業內算法的侷限性,選擇通過硬件升級或者數據維度多樣化得角度著手,進一步豐富自己的數據庫存,但有一點困難之處,這些定製化數據很難通過眾包途徑獲得,定製市場機會無限。”

發展到如今,用戶數據進入到沉澱時期。該階段,企業在使用過程中會不斷積累數據,進而讓產品迭代更加智能。值得注意的是,有些產品自帶分享或社交功能,很大程度上會豐富互聯網的數據沉積,助力企業進入到下一個階段並加強其中的循環往復。

總體來看,企業在不同的階段需要不同類型的數據服務,但眾包採集和定製化採集是數據採集行業的兩種常見模式。

其中眾包模式的優勢主要體現在樣本的豐富性上,但對於今日的 AI 數據服務業務的特性,通過眾包模式解決所有數據採集的需求顯然不現實。更關鍵的是,定製化需求的採集任務中,眾包用戶採集到的數據往往差強人意,反倒出現增加審核成本的情況。

此處阿晶蒐羅了一些有關具體企業級數據採集的資料,其顯示 2018 年中國AI公司的總融資規模達到千億元以上,其中數據採標的市場約為 100 億元— 300 億元。具體來說 AI 公司內部的標註部門之間消化,基本佔三分之一;剩下的 25%—33% 則流向專門做數據採標的第三方公司。

如此看來,數據採集對企業來說不但必要而且重要,但如果企業選擇自建團隊進行數據採集和標註,必然面臨耗費大量時間成本、人力成本的局面;另一方面,花錢花時間不說,要做到壁壘般獨享數據,又對數據安全提出更高要求,輕易分享怎麼能行?

AIの幕後人:探祕“硬核英雄”的超級武器

基於 AI 數據發展路徑以及諸多企業痛點,雲測主要瞄準了為企業提供定製化場景的數據採集與提供自建團隊式的高精度標註服務的業務重點。對此賈宇航解釋道,投身做定製化場景數據採集主要在於,目前很多企業已存在的數據維度對於算法提升的效果早就面臨瓶頸,必然需要引入更多維度的數據,例如對應場景的多模態數據,將 2D、3D 數據以及聲音等多維度的數據結合起來提升算法性能,而這樣的數據在互聯網的條件下或者通過已有的眾包數據採集很難獲得。

此外有些企業為了提升算法精度自研了一些硬件,而這些硬件只能通過定製化場景去實現更好的效果。所以幫助企業還原想要的定製化場景是顯示業務優勢的手段之一,這項實踐被賈宇航稱之為場景實驗室。

據阿晶瞭解,這些場景實驗室目前主要分佈在華東、華北和華南。在場景實驗室中,雲測數據會根據客戶需求,邀請特定模特到實驗室中進行數據採集。可以這樣定義,場景實驗室是雲測數據佈局高度定製化、多模態的 AI 數據服務的重要組成部分,藉此能使得其交付能力與客戶需求平行,甚至領先客戶的需求一點點。

當然除了很智慧的場景實驗室之外,雲測數據的核心優勢還可總結為三方面。

從人才專業性角度出發,目前雲測數據主要服務於智能駕駛、金融、智能生活、安防等四大領域,每一領域均由不同的項目經理組負責。

其中項目經理都經過包括 AI 基礎、作業管理、場景搭建、突發事件處理等至少 350 小時的職前培訓,完全能夠做到為客戶梳理項目需求文檔並提供專業諮詢服務,從源頭上保證高質量輸出。

更重要的是,雲測數據配備了專業的軟硬件設備,針對客戶不同的定製化需求持續優化工具、迭代產品,滿足技術要求高、採集難度大的採集任務,如此一來工具層面確實很給力。

AIの幕後人:探祕“硬核英雄”的超級武器

對數據質量和安全的把控方面,雲測數據進行了嚴格的質量風險評估、過程質量控制、質量審核以及質量驗收等,用於輸出高質量的數據作業;據瞭解員工都按照流程協同作業,將採集後的數據傳輸至數據中心,項目交付後直接清毀數據,杜絕員工接觸數據的機會,提升數據安全性。

此外以雲測為背書,企業還針對數據採集業務搭建了定製化採集場景。基於客戶算法模型提出的具體需求定製化搭建採集場景,以達到覆蓋儘可能多的實際場景及邊際場景的目的,保證採集數據契合算法模型,為客戶提供高精度的採集數據。

值得提及的是,此環節備採樣本覆蓋全國及海外的數據採集體系,涵蓋各類型圖片、視頻、音頻和文本數據等,同時配備了專業的備採人群樣本,可依照客戶實際需求快速採集合適的數據樣本。

在高精度的數據標註服務上,雲測數據自建數據基地,所有標註員統一管理、規範生產,在保證數據準確率的同時有效確保標註作業的信息流轉,提升標註效率;而自研標註平臺則聚合了各種數據標註應用場景,配置靈活,可滿足各種數據標註需求,保證標註作業高質量輸出。

在數據的審核機制方面,主要採用工、審分離的審核模式,即審核團隊不參與標註作業;同時將附有標準答案的作業項目無感知地安插在標註人員的正式標註作業中,精準把握標註人員的對標註規則的理解度。

談及宏觀市場,賈宇航認為數據標註和採集的確是一個新興行業,但目前來說整個行業市場足夠大,各家其實並沒有很激烈的競爭關係。一般情況下,企業在面對滿足自身需求的同時,可選擇的形式也變得多種多樣。當下而言,數據行業更像是一個蹣跚學步的孩童,每個階段被不同類型的數據服務所滿足,面對著不斷變化的服務需求,企業服務市場的變革也在同時加速。

在此基礎上,未來雲測數據的發展目標將更多著力在細分領域中,做到領域知識積累更深厚,數據更精準安全。“我們會逐漸將業務向更細分領域場景做深入,以滿足企業的未來需求。” 如此看來,雲測數據的“硬核英雄之路”才剛剛開始…

如果您對雲測數據提供的 AI 數據服務感興趣,或想了解 AI 數據解決方案,歡迎點擊此鏈接

https://jinshuju.net/f/72RPIi

"

相關推薦

推薦中...