AI challenger全球AI挑戰賽開賽 五大公開數據集公佈

DoNews9月5日消息(記者 翟繼茹)4日,由創新工場、搜狗和今日頭條聯合發起的“AI challenger全球AI挑戰賽”正式開賽。大賽官網(challenger.ai)同步上線了訓練數據集以及驗證數據集,供參賽選手下載,進行算法設計、模型訓練及評估。

截至目前,來自高校的參賽者包括清華大學、北京大學、中科院、上海交通大學、復旦大學、香港科技大學、美國康奈爾大學、佐治亞理工、劍橋大學、日本早稻田大學等。

來自公司機構的參賽者包括百度、螞蟻金服、小米、奇虎360、格靈深瞳、馭勢科技、摩拜、微軟、通用電氣、英特爾、eBay、Micron等。

AB雙測試集賽制

賽制方面,此次比賽的五個賽道人體骨骼關鍵點檢測競賽、圖像中文描述競賽、場景分類競賽、英中機器文本翻譯競賽和英中機器同聲傳譯競賽已經全部開通訓練數據集下載和驗證數據集下載。

大賽將採取AB雙集共同測試的模式。測試數據集A集將於9月25日可供下載,選手在本地使用先前訓練的模型進行預測,生成預測結果並提交至平臺。結果提交後,系統會按照評測指標實時反饋分數,並更新榜單排名。大賽規定每隊每週最多可以提交2次結果。榜單以所有參賽隊伍的歷史最優成績進行排名。當有團隊提交新的預測結果之後,榜單將實時更新。最終的成績排名以12月3日23:59:59的排名為準。

大賽組委會介紹,B集部分預計在11月下旬開放,具體開放時間待定。B集開放之後,榜單將採用選手模型在測試數據集的B集上的預測結果,作為排名依據。最終的榜單成績排名以12月3日23:59:59的排名為準。

採用AB雙賽制的好處是可以從不同角度評價一個模型。簡而言之,A集像是一個已知的小測試,知道考題的考生可以不斷“刷題”修改模型,提高自己的準確度。B集則像是大考,一次機會就檢驗考生的綜合能力。

這樣的賽制也說明對於AI模型來說,沒有絕對的優劣和最佳方式之分,完全看所面臨的特定場景為何。

海量公開數據集

創新工場、搜狗和今日頭條希望在中國打造最大的科研數據集與世界級AI競賽平臺,推動中國人工智能領域科研創新。在國外,科研數據集的打造與AI競賽平臺的建設是推動AI發展和新技術公司成熟的重要助推力。因為,數據的質和量是科學研究與產品技術研發的核心。高質量訓練數據對機器學習模型的建立和優化起關鍵性作用。

如谷歌首席科學家,世界頂級AI專家李飛飛推出的ImageNet數據集與ImageNet挑戰賽被行業公認為企業和研究者每年必參加的重要活動。此外,機器學習競賽平臺Kaggle著眼於真實數據和真實問題的解決方案,同樣從中誕生了許多明星企業。

目前,AI challenger提供包括超過1000萬條中英文翻譯數據、70萬個人體骨骼關鍵點標註數據、30萬張圖片場景標註和語義描述數據。這是國內迄今公開的規模最大的科研數據集。

據瞭解,此次競賽獎金超過200萬元人民幣,還將為條件有限的參賽選手提供免費GPU資源的支持,並上線彙集了全球AI技術學習資源的“教程”欄目。(完)

相關推薦

推薦中...