500萬照片+20萬地標+30萬獎金,谷歌更新最大地標數據集

Google 人工智能 Kaggle 技術 設計 新智元 2019-05-08


500萬照片+20萬地標+30萬獎金,谷歌更新最大地標數據集

【新智元導讀】谷歌最大的地標數據集更新,開源的Google-Landmarks-v2包含500萬張圖片和200000個地標。同時舉辦兩項總獎金5萬美元(約34萬人民幣)的比賽,鼓勵更多人來為該項目添磚加瓦。

尼亞加拉大瀑布和黃果樹大瀑布無論在地理位置還是在照片裡的呈現形態都是不同的。Google AI部門希望AI不僅能夠區分出兩者,同時還應該將各自對應的座標識別出來,不論照片中的大瀑布是側面照、正面照還是航拍照。

去年,Google發佈了Google-Landmarks,這是當時世界上最大的地標數據集,並舉辦了兩場比賽:Landmark Recognition 2018和Landmark Retrieval 2018,有500多名機器學習研究人員參加。

不到一年的時候,Google就開源了它的升級版:Google-Landmarks-v2。這是一個新的、擁有更大地標識別語料的庫,包含的照片數量是初代的兩倍、地標數據量是初代的七倍。從此,Google朝著更復雜的地標檢測計算機視覺模型的目標邁出了重要的一步。下圖為Google-Landmarks-v2中地標位置的熱圖

500萬照片+20萬地標+30萬獎金,谷歌更新最大地標數據集

緊接著,Google又在機器學習社區Kaggle上,推出了兩項新的挑戰:Landmark Recognition 2019和Landmark Retrieval 2019 ,併發布了Detect-to-Retrieve的源代碼和模型,這是一個區域圖像檢索框架。

Landmark Recognition 2019的參賽者需要設計地標檢測AI模型,Landmark Retrieval 2019的參賽者需要使用一個AI系統,找出指定地標關聯的圖像。兩項賽事都包括總額為50000美元的現金獎勵,獲勝團隊還將獲邀參加CVPR 2019的研討會。

500萬照片+20萬地標+30萬獎金,谷歌更新最大地標數據集

Google AI軟件工程師Bingyi Cao和Tobias Weyand說:“實例識別和圖像檢索方法都需要更大的數據集,包括圖像數量和各種標誌,以便訓練出更好、更強大的系統。我們希望這個數據集能夠幫助推進實例識別和圖像檢索方面的最新技術。”

500萬照片+20萬地標+30萬獎金,谷歌更新最大地標數據集

根據Bingyi和Weyand的說法,Google-Landmarks-v2包含了超過500萬張來自世界各地攝影師收集的20多萬個不同地標的圖像,然後將照片裡的圖像進行標註,比如新天鵝堡、金門大橋、清水寺、哈利法塔、獅身人面像、馬丘比丘和其他著名景點,最後Google的研究人員用來自Wikimedia的免費資源,例如圖像、音頻及其他類型的媒體文件,來補充歷史和鮮為人知的圖像。

那麼Detect-to-Retrieve框架又是用來幹什麼的呢?Bingyi和Weyand表示,已發佈的、由原始地標數據集中的80000個子集進行訓練的模型,利用來自物體檢測模型的邊界框,來為包含感目標項目的圖像區域提供“額外的權重”,從而可以顯著的提高準確性。

500萬照片+20萬地標+30萬獎金,谷歌更新最大地標數據集

目前這個數據集只有訓練集開放下載。測試集等會隨著挑戰賽的進行而逐漸開放。

數據集:

https://github.com/cvdfoundation/google-landmark

挑戰賽:

https://www.kaggle.com/c/landmark-recognition-2019

相關推薦

推薦中...