Google發佈超難問答數據集自然問題:30萬問答,BERT都達不到70分

郭一璞 發自 凹非寺

量子位 報道 | 公眾號 QbitAI

世界上最大的冰蓋在哪裡?

Google現在想到了一個辦法能讓AI來回答這個問題,他們開放了一個名叫自然問題(Natural Questions, NQ)的數據集,能夠訓練AI閱讀維基百科,並找到各種開放領域問題的答案。

就拿“世界上最大的冰蓋在哪裡”這個問題來說,在維基百科“Ice sheet(冰蓋)”詞條,看到“Antarctic ice sheet(南極洲冰蓋)”這個部分的時候,找到了相關的一個自然段的描述,這是該問題的長答案

之後,從這一段中得到“南極洲是世界上最大的冰蓋”這個消息,於是找到了短答案

南極洲。

Google發佈超難問答數據集自然問題:30萬問答,BERT都達不到70分

另外,還有一些問題是直接用長答案回答的。

比如說,“漢語裡的“中國”是什麼意思”這個問題,答案在“Names of China”這個維基百科詞條裡,以一段話的形式解釋。

Google發佈超難問答數據集自然問題:30萬問答,BERT都達不到70分

整個數據集包含三個部分:

1、超過30萬組問答,其中訓練集有307,372組問答,包含152,148組長答案問答和110,724組短答案問答;
2、開發示例問答,包含有7830組“一問五答”的問答,也就是同一個問題,找五個人分別從維基百科中尋找答案,以此來衡量QA問答系統的表現;
3、測試集有7842組問答。

整個標註的過程中,需要標註者閱讀整個維基百科頁面,看看有沒有這個問題的答案,之後一方面要找包含所需信息的長答案自然段,另一方面要從中找一兩個單詞或詞組作為短答案,整個數據集的精確度超過90%。

數據集中所有的問題都是用戶在使用Google搜索時提出的,QA問答系統需要閱讀整篇維基百科相關詞條的文章,也不一定每個問題的答案都能找得到,因此NQ要比以前的QA數據集更具挑戰性。

另外,Google還為這個數據集定製了一個排行,衡量不同算法在NQ數據集上的表現,目前,無論是長答案還是短答案,BERT都處在排行榜上的領先位置。

Google發佈超難問答數據集自然問題:30萬問答,BERT都達不到70分

當然,因為數據集剛剛推出,現在參賽選手比較少,只有Google自家的兩個算法,BERT和DecAtt-DocReader。

不過,在這個數據集上,兩個算法的表現跟人類相比還有不小差距,人類搜尋長答案的F1分數是87%,比BERT高了十幾個百分點;搜尋短答案的F1分數是76%,比BERT高了二十幾個百分點。

最後,這個數據集相關的論文Natural Questions: a Benchmark for Question Answering Research已經發表在了TACL上。

傳送門

NQ數據集

https://ai.google.com/research/NaturalQuestions

論文:Natural Questions: a Benchmark for Question Answering Research

https://storage.googleapis.com/pub-tools-public-publication-data/pdf/b8c26e4347adc3453c15d96a09e6f7f102293f71.pdf

GitHub

https://github.com/google-research-datasets/natural-questions

誠摯招聘

量子位正在招募編輯/記者,工作地點在北京中關村。期待有才氣、有熱情的同學加入我們!相關細節,請在量子位公眾號(QbitAI)對話界面,回覆“招聘”兩個字。

量子位 QbitAI · 頭條號簽約作者

վ'ᴗ' ի 追蹤AI技術和產品新動態

相關推薦

推薦中...