第二屆中國“AI+”創新創業大賽大規模特徵檢索技術創新大賽通知

人工智能技術創業算法數據庫大數據自然語言處理數據挖掘微軟亞洲盜夢空間大學電子科技大學知識產權微軟亞洲研究院中國人工智能學會 2019-05-31

各相關單位：

2019第二屆中國“AI+”創新創業大賽--大規模特徵檢索技術創新大賽（以下簡稱“大賽”）將於2019年5月至11月舉行。

在信息時代，海量數據需要高效的檢索算法進行歸檔。如何又快又好地檢索數據庫中與目標最相近的樣本，是特徵檢索的主要目標。為了促進大規模特徵檢索技術的發展，中國人工智能學會特此主辦本次特徵檢索技術大賽。為從事大規模特徵檢索研究的研究人員、產業界從業人員以及AI技術愛好者提供一個良好的溝通平臺。

現將2019第二屆中國“AI+”創新創業大賽--大規模特徵檢索技術創新大賽通知的有關事項通知如下：

一．大賽機構

1．主辦單位

中國人工智能學會

2．組織單位

電子科技大學

3. 評測委員會

主席團：

宋井寬（電子科技大學）

王井東（微軟亞洲研究院）

劉麗（國防科技大學）

劉力（Inception Institute of Artificial Intelligence）

二．參賽辦法

1．參賽對象

本次大賽是面向全國高校，科研機構，和涉及特徵檢索、哈希、量化等技術的人工智能領域企業的賽事，歡迎各單位積極組織隊伍申報參賽。

2．參賽組隊形式

選手可在網上自行組隊報名，每支隊伍包含 3-5 名隊員，選手的地區、年齡、職業不限，每隊至少有一名中國國籍選手。

以公司為單位參賽，需已註冊成立企業；高校以團隊為單位參賽，需由指導教師帶領。參賽個人及單位要求無不良記錄；參賽項目的產品、技術及相關專利專屬於參賽團隊及個人，與其他任何單位或個人無產權糾紛，如在參賽期間發現有侵犯外單位知識產權或盜用成果等糾紛，一經核實，立即終止該參賽隊參賽資格，取消其已獲得的獎項。

3. 報名方式

2019年6月30日前，參賽隊伍在大賽網站（https://aichina.caai.cn/）的報名系統中在線報名，完成相關信息錄入，完成報名。（有特殊要求的各賽區自行確定後可以向大賽組委會提出需求）

4. 參賽選題

（1）競賽背景

近年來隨著大數據、數據挖掘以及深度學習在語音、圖像、自然語言處理等人工智能任務中的高速發展，伴隨這些生成的特徵數據也極為龐大。在海量的特徵中進行搜索對時間和精度尤其敏感。數據檢索具有重要的實際意義，吸引了眾多研究者的關注。目前，哈希技術和量化技術是特徵檢索中的主要技術。本賽題通過在大規模數據集上進行檢索競賽，檢驗檢索技術的速度、壓縮率和精度等多方面性能指標。

（2）賽題描述

比賽中分為模型訓練，數據集編碼和模型提交測試三個階段。數據集分為訓練集(Training Set)、檢索集(Base Set)、測試集(Query Set)三個部分。選手首先使用訓練集對模型訓練，然後將檢索集的數據壓縮為二進制文件，最後使用二進制文件以及檢索接口在測試集上進行檢索，得到每條測試數據在檢索集中最相近的前K個結果。

(a)初賽流程

我們將在公開數據集上進行評測，選手下載訓練集並訓練完成後，根據比賽要求提供測試接口，之後將代碼、壓縮後的檢索集以及訓練好的模型提交至服務器中用於評測，我們將會根據後述的評價指標進行排名。每組選手最多可提交15次，取最好的作為最終結果。

數據集詳情：

SIFT1M：用於評價近似最近鄰搜索算法性能的經典數據集，其中的樣本來自於SIFT算法生成的128維正整數向量，取值範圍在 [0, 255] 之間。訓練集包含100,000條數據，檢索集包含1,000,000條數據，測試集包含10,000條測試數據，訓練集與檢索集為同一分佈。選手在本地測試代碼時可以使用SIFT1M提供的數據來驗證代碼，但為避免作弊，我們將使用另外生成的測試數據而不是原始測試集。測試時，程序先對整個檢索集進行編碼得到壓縮後的檢索數據，再使用測試集的數據逐條檢索，根據程序返回的前100個結果計算mAP@100、檢索時間以及壓縮率進行加權，得到評分，具體評價指標請見後述。Groundtruth的定義為：一個query在整個檢索集中使用歐式距離遍歷計算得到距離最小的樣本。

下載：http://corpus-texmex.irisa.fr/

(b)決賽流程

決賽將會提供由我們生成的數據集進行評測，評測方式與初賽大致相同。需要注意的是，我們將只提供訓練集，而不會提供測試集(Query Set)、檢索集(Base Set)以及groundtruth。

數據集詳情：

我們將使用ResNet-50在ImageNet上生成的一批2048維浮點向量作為數據集的樣本，其取值範圍在 (-1, 1) 之間。我們從ImageNet上隨機抽取100個類，使用這些類的全部圖片，並提取特徵向量作為檢索集；從檢索集中再隨機抽取5,000條數據作為訓練集；再從ImageNet的驗證集中使用相應100類的圖片作為測試集。測試集將不公開，由我們統一評測，評測指標為mAP@5000、檢索時間以及壓縮率。Groundtruth的定義為：在檢索集中，若數據與query屬於同一分類，則為正樣本，否則為負樣本。需要注意的是，訓練時不提供標籤信息，為無監督訓練。

下載：待補充

5．作品要求

參賽隊的參賽內容應該是參賽隊員獨立設計、開發完成的作品，嚴禁抄襲、剽竊等行為。凡發現抄襲、剽竊等行為，將取消參賽隊伍的參賽資格，並追究相關指導教師和單位的責任。

三．競賽時間安排

2019年5月27日：發佈大賽通知，開始報名

2019年6月1日：發佈比賽訓練集數據和具體評測方案

2019年6月30日：報名截止

2019年8月31日：提交測試集結果截止日

2019年9月05日：提交最終測試結果對應的系統代碼及系統報告

2019年9月25日：決賽名單公佈

2019年10月下旬或11月上旬：決賽和頒獎

四．競賽賽制

1．比賽整體流程

（1）初賽：參賽隊需於2019年6月30日前完成報名，並在數據發佈之後從網站獲取主辦方發佈的比賽用數據集。之後即可開始檢索模型搭建和訓練、編碼，2019年6月20日起可以online提交各自模型和編碼文件參與測試結果評測排名，2019年8月31日為最後系統提交更新日。2019年9月5日前，各參賽隊需要提交源碼，和介紹所提交模型、方法的系統報告。

（2）決賽：決賽將於2019年10月下旬或11月上旬組織，具體形式與初賽類似，根據複賽得分給出最終名次。決賽的具體時間將另行通知。

2．初賽評測規則

(1) 代碼要求

我們將使用統一的運行環境，使用要求之外的代碼庫或語言將不被接受。具體環境為：

a.使用Python 3.6+ 作為編碼語言，也可在 Python 中調用 C/C++ (GCC 5.4.0)，但程序預留接口須為Python。

b.由於特徵檢索算法中仍包含許多非深度學習的算法，因此在進行檢索時將屏蔽GPU只使用CPU進行計算，以便計算檢索時間，訓練和編碼時可不受限制。

c.使用的代碼庫版本要求：Tensorflow 1.9+，PyTorch 1.0+，使用其他的深度學習框架請確保能夠安裝運行。

d.服務器環境：

CPU：2 × Intel Xeon E5-2650 v3 (20C 40T)

GPU：NVIDIA TITAN Xp (12189MiB)

Memory ：256 GiB

(2) 代碼接口

我們要求代碼提供統一的接口以方便評測，要求如下：

建立一個main.py的文件，包含以下函數：

def retrieve(query:np.ndarray, R:int, dbpath:str) -> np.ndarray:

"""Retrieve the database and return the retrieved results by queries.

Arguments:

query {np.ndarray} -- Query features, a [N, D] array with N queries and D dimensions with dtype:float

R {int} -- Number of returned results

dbpath {str} -- The saved encoded database file path, directly from the return result of encode(...)

Returns:

np.ndarray -- The result matrix, a [N, R] array with dtype:int, each row is corresponded to each query, and each column indicates the index in database, results contain R indices which are sorted from the nearest to the furthest. i.e. [[3, 9, 2, ...], ...] means we think for the first query, the 4th sample in database is the closest, then 10th, then 3rd, etc.

"""

pass

最終我們將根據上傳的壓縮後的二進制文件以及retrieve(…) 得到的結果進行評測。

(3)評價指標

算法的性能好壞將從mAP，檢索時間以及壓縮率衡量。

mAP:

mAP (mean Average Precision) 是對所有queries的平均檢索精度的均值。我們在評測時設置R=100並計算mAP@100。

檢索時間：

檢索時間是執行retrieve(…) 的運行時間，計算公式為

，小於0的記為0.

壓縮率：

壓縮率是訓練模型文件加上壓縮後的檢索集文件體積與原始文件體積的比值，原始文件體積計算方式如下：(1) 若數據集為SIFT1M，那麼體積為；(2)若數據集為Deep features, 那麼體積為. 計算公式為

，小於0的記為0.

(4)編碼長度

由於編碼長度不同時，算法的性能也會變化，因此我們將測試12 bits, 24 bits, 36 bits, 48 bits的結果，並對每一組的結果加權得到最終結果。

最終結果計算如下：記mAP@R結果為A，檢索時間結果為B，壓縮率結果為C

Score取值為 (0~1)，越大越好。

(5)上傳文件要求

綜上所述，我們共需上傳的文件如下：

a)訓練好的模型和代碼文件，包括預留好接口的main.py文件。若需編譯或安裝框架，請再添加一份readme；

b)以12 bits, 24 bits, 36 bits, 48 bits長度編碼壓縮後的四個檢索集文件。

3．參賽規則介紹

1)允許使用開源代碼、工具和公開數據集，及參賽隊伍自己以往開發未公開的代碼和數據集。

2) 經組委會評估後確認獲決賽資格；如拒絕或未在規定時間內提供相應代碼和文檔則取消決賽資格。

五．獎項設置

本賽事預選8隊進入決賽，最終角逐出冠軍1隊、亞軍2隊、季軍3隊。

六．競賽管理

1．參賽費用

本次參賽不收取任何費用。

2．餐飲住宿

參加決賽隊伍的教師和學生在決賽期間的食宿費用、交通費用及其他費用均自理。

3．競賽祕書處聯繫方式

報名網站：https://aichina.caai.cn/

報名、賽務等聯繫人：

牛雷、[email protected]

電話：15051540646

2019第二屆中國“AI+”創新創業大賽

--大規模特徵檢索技術創新大賽通知

2019年5月27日

點擊AI+瞭解更多大賽信息~

第二屆中國“AI+”創新創業大賽大規模特徵檢索技術創新大賽通知

相關推薦