'科大訊飛付瑞吉:成熟應用於大規模考試的智能評閱系統,需要怎樣的技術支撐?| CCF-GAIR 2019'

""科大訊飛付瑞吉:成熟應用於大規模考試的智能評閱系統,需要怎樣的技術支撐?| CCF-GAIR 2019

雷鋒網按:7月12日-7月14日,2019第四屆全球人工智能與機器人峰會(CCF-GAIR 2019)於深圳正式召開。峰會由中國計算機學會(CCF)主辦,雷鋒網、香港中文大學(深圳)承辦,深圳市人工智能與機器人研究院協辦,得到了深圳市政府的大力指導,是國內人工智能和機器人學術界、工業界及投資界三大領域的頂級交流博覽盛會,旨在打造國內人工智能領域極具實力的跨界交流合作平臺。

7月14日,在CCF-GAIR 2019的「智慧教育專場」論壇上,科大訊飛北京研究院副院長、哈工大訊飛聯合實驗室副主任付瑞吉博士做了《智能評閱核心技術及應用簡介》的主題演講。

"科大訊飛付瑞吉:成熟應用於大規模考試的智能評閱系統,需要怎樣的技術支撐?| CCF-GAIR 2019

雷鋒網按:7月12日-7月14日,2019第四屆全球人工智能與機器人峰會(CCF-GAIR 2019)於深圳正式召開。峰會由中國計算機學會(CCF)主辦,雷鋒網、香港中文大學(深圳)承辦,深圳市人工智能與機器人研究院協辦,得到了深圳市政府的大力指導,是國內人工智能和機器人學術界、工業界及投資界三大領域的頂級交流博覽盛會,旨在打造國內人工智能領域極具實力的跨界交流合作平臺。

7月14日,在CCF-GAIR 2019的「智慧教育專場」論壇上,科大訊飛北京研究院副院長、哈工大訊飛聯合實驗室副主任付瑞吉博士做了《智能評閱核心技術及應用簡介》的主題演講。

科大訊飛付瑞吉:成熟應用於大規模考試的智能評閱系統,需要怎樣的技術支撐?| CCF-GAIR 2019

以下為付瑞吉博士的演講全文,雷鋒網進行了不改變原意的編輯:

科大訊飛在教育領域的各個環節都做了很多工作,包括教學、考試、管理等各方面,在去年勇奪全球十二個人工智能技術評測的冠軍,這十二個獎項包括自然語言處理、圖像、語音等各方面,其中語法檢錯、圖文識別和閱讀理解等與智能評閱相關的技術都獲得了冠軍。

2016年,我們和教育部考試中心成立了聯合實驗室,共同推進語音識別、手寫識別、自然語言處理、智能評測、機器翻譯等技術在教育領域的應用。

訊飛教育突破點:從口語評測到智能評閱

接下來我將介紹智能評閱核心技術。

我們從口語評測講起,訊飛從2005年開始研究口語評測。訊飛是做語音起家的,在語音識別和語音合成基礎上的另一個應用點是語音評測。備試的學生說一段話,機器進行自動評測,包括聲學方面的評測,文本內容的評測,最後得到一個綜合分數。

之所以會做這些工作,是因為我們以往的口語考試很難組織,例如普通話水平考試、英語考試,學生在前面說,老師在一直聽,一天聽下來是非常累的,到最後會影響老師的評分準確度。

科大訊飛的機器現在可以做到在學習人工專家評分標準的情況下,評分的總分相關度和平均誤差達到人工水平,我們在30個省市的普通話考試裡應用到這項技術。

此外,我們從口語考試擴展到紙筆考試,現在K12大部分是紙筆考試,我們通過掃描試卷,進行圖片的OCR識別,再進行自動評分,得到一個評分的成績。

口語評測和智能評閱的關係是什麼?

實際上二者很相似。我們做紙筆考試也是從口語評測激發的靈感。口語評測的輸入是一段語音,我們會對這個語音的發音標準進行評測,同時進行語音識別,對文字內容進行評測。我們的智能評閱輸入就變成了掃描或者拍照的圖片,對書寫質量有評價,對圖文識別後的語義層面也有評價,綜合獲得最終的分數,這與口語評測是很相似的。

"科大訊飛付瑞吉:成熟應用於大規模考試的智能評閱系統,需要怎樣的技術支撐?| CCF-GAIR 2019

雷鋒網按:7月12日-7月14日,2019第四屆全球人工智能與機器人峰會(CCF-GAIR 2019)於深圳正式召開。峰會由中國計算機學會(CCF)主辦,雷鋒網、香港中文大學(深圳)承辦,深圳市人工智能與機器人研究院協辦,得到了深圳市政府的大力指導,是國內人工智能和機器人學術界、工業界及投資界三大領域的頂級交流博覽盛會,旨在打造國內人工智能領域極具實力的跨界交流合作平臺。

7月14日,在CCF-GAIR 2019的「智慧教育專場」論壇上,科大訊飛北京研究院副院長、哈工大訊飛聯合實驗室副主任付瑞吉博士做了《智能評閱核心技術及應用簡介》的主題演講。

科大訊飛付瑞吉:成熟應用於大規模考試的智能評閱系統,需要怎樣的技術支撐?| CCF-GAIR 2019

以下為付瑞吉博士的演講全文,雷鋒網進行了不改變原意的編輯:

科大訊飛在教育領域的各個環節都做了很多工作,包括教學、考試、管理等各方面,在去年勇奪全球十二個人工智能技術評測的冠軍,這十二個獎項包括自然語言處理、圖像、語音等各方面,其中語法檢錯、圖文識別和閱讀理解等與智能評閱相關的技術都獲得了冠軍。

2016年,我們和教育部考試中心成立了聯合實驗室,共同推進語音識別、手寫識別、自然語言處理、智能評測、機器翻譯等技術在教育領域的應用。

訊飛教育突破點:從口語評測到智能評閱

接下來我將介紹智能評閱核心技術。

我們從口語評測講起,訊飛從2005年開始研究口語評測。訊飛是做語音起家的,在語音識別和語音合成基礎上的另一個應用點是語音評測。備試的學生說一段話,機器進行自動評測,包括聲學方面的評測,文本內容的評測,最後得到一個綜合分數。

之所以會做這些工作,是因為我們以往的口語考試很難組織,例如普通話水平考試、英語考試,學生在前面說,老師在一直聽,一天聽下來是非常累的,到最後會影響老師的評分準確度。

科大訊飛的機器現在可以做到在學習人工專家評分標準的情況下,評分的總分相關度和平均誤差達到人工水平,我們在30個省市的普通話考試裡應用到這項技術。

此外,我們從口語考試擴展到紙筆考試,現在K12大部分是紙筆考試,我們通過掃描試卷,進行圖片的OCR識別,再進行自動評分,得到一個評分的成績。

口語評測和智能評閱的關係是什麼?

實際上二者很相似。我們做紙筆考試也是從口語評測激發的靈感。口語評測的輸入是一段語音,我們會對這個語音的發音標準進行評測,同時進行語音識別,對文字內容進行評測。我們的智能評閱輸入就變成了掃描或者拍照的圖片,對書寫質量有評價,對圖文識別後的語義層面也有評價,綜合獲得最終的分數,這與口語評測是很相似的。

科大訊飛付瑞吉:成熟應用於大規模考試的智能評閱系統,需要怎樣的技術支撐?| CCF-GAIR 2019

智能評閱難點解讀:作文評分技術框架

我們智能評閱中最難的是作文的評分,下圖是科大訊飛做評閱技術的核心框架。

"科大訊飛付瑞吉:成熟應用於大規模考試的智能評閱系統,需要怎樣的技術支撐?| CCF-GAIR 2019

雷鋒網按:7月12日-7月14日,2019第四屆全球人工智能與機器人峰會(CCF-GAIR 2019)於深圳正式召開。峰會由中國計算機學會(CCF)主辦,雷鋒網、香港中文大學(深圳)承辦,深圳市人工智能與機器人研究院協辦,得到了深圳市政府的大力指導,是國內人工智能和機器人學術界、工業界及投資界三大領域的頂級交流博覽盛會,旨在打造國內人工智能領域極具實力的跨界交流合作平臺。

7月14日,在CCF-GAIR 2019的「智慧教育專場」論壇上,科大訊飛北京研究院副院長、哈工大訊飛聯合實驗室副主任付瑞吉博士做了《智能評閱核心技術及應用簡介》的主題演講。

科大訊飛付瑞吉:成熟應用於大規模考試的智能評閱系統,需要怎樣的技術支撐?| CCF-GAIR 2019

以下為付瑞吉博士的演講全文,雷鋒網進行了不改變原意的編輯:

科大訊飛在教育領域的各個環節都做了很多工作,包括教學、考試、管理等各方面,在去年勇奪全球十二個人工智能技術評測的冠軍,這十二個獎項包括自然語言處理、圖像、語音等各方面,其中語法檢錯、圖文識別和閱讀理解等與智能評閱相關的技術都獲得了冠軍。

2016年,我們和教育部考試中心成立了聯合實驗室,共同推進語音識別、手寫識別、自然語言處理、智能評測、機器翻譯等技術在教育領域的應用。

訊飛教育突破點:從口語評測到智能評閱

接下來我將介紹智能評閱核心技術。

我們從口語評測講起,訊飛從2005年開始研究口語評測。訊飛是做語音起家的,在語音識別和語音合成基礎上的另一個應用點是語音評測。備試的學生說一段話,機器進行自動評測,包括聲學方面的評測,文本內容的評測,最後得到一個綜合分數。

之所以會做這些工作,是因為我們以往的口語考試很難組織,例如普通話水平考試、英語考試,學生在前面說,老師在一直聽,一天聽下來是非常累的,到最後會影響老師的評分準確度。

科大訊飛的機器現在可以做到在學習人工專家評分標準的情況下,評分的總分相關度和平均誤差達到人工水平,我們在30個省市的普通話考試裡應用到這項技術。

此外,我們從口語考試擴展到紙筆考試,現在K12大部分是紙筆考試,我們通過掃描試卷,進行圖片的OCR識別,再進行自動評分,得到一個評分的成績。

口語評測和智能評閱的關係是什麼?

實際上二者很相似。我們做紙筆考試也是從口語評測激發的靈感。口語評測的輸入是一段語音,我們會對這個語音的發音標準進行評測,同時進行語音識別,對文字內容進行評測。我們的智能評閱輸入就變成了掃描或者拍照的圖片,對書寫質量有評價,對圖文識別後的語義層面也有評價,綜合獲得最終的分數,這與口語評測是很相似的。

科大訊飛付瑞吉:成熟應用於大規模考試的智能評閱系統,需要怎樣的技術支撐?| CCF-GAIR 2019

智能評閱難點解讀:作文評分技術框架

我們智能評閱中最難的是作文的評分,下圖是科大訊飛做評閱技術的核心框架。

科大訊飛付瑞吉:成熟應用於大規模考試的智能評閱系統,需要怎樣的技術支撐?| CCF-GAIR 2019

左側是作文試卷圖片輸入後進行圖文轉寫,對內容的相似度和其他異常進行檢測,這部分由於內容和標準很難處理,目前仍是交給人來評測;接下來,進行定標的篩選。

為什麼需要進行定標的篩選?這是因為每次考試後評分標準可能會有一些差異,這種情況下我們會選取一小部分試卷作為定標來打樣卷,請專家進行評分,以專家評分為標準來訓練模型。右側是進行評分的抽取、訓練和評分模型的訓練。

首先,我們進行圖文轉寫,試卷掃描之後的情況如左側所示(如下圖)。右側是進行行的切分、插入符號的識別,還有一些潦草塗抹塊的識別。對於手寫作文識別的最終準確率已經達到98%以上,達到了使用的門檻。在圖文轉寫基礎上,我們會對內容進行評分。

"科大訊飛付瑞吉:成熟應用於大規模考試的智能評閱系統,需要怎樣的技術支撐?| CCF-GAIR 2019

雷鋒網按:7月12日-7月14日,2019第四屆全球人工智能與機器人峰會(CCF-GAIR 2019)於深圳正式召開。峰會由中國計算機學會(CCF)主辦,雷鋒網、香港中文大學(深圳)承辦,深圳市人工智能與機器人研究院協辦,得到了深圳市政府的大力指導,是國內人工智能和機器人學術界、工業界及投資界三大領域的頂級交流博覽盛會,旨在打造國內人工智能領域極具實力的跨界交流合作平臺。

7月14日,在CCF-GAIR 2019的「智慧教育專場」論壇上,科大訊飛北京研究院副院長、哈工大訊飛聯合實驗室副主任付瑞吉博士做了《智能評閱核心技術及應用簡介》的主題演講。

科大訊飛付瑞吉:成熟應用於大規模考試的智能評閱系統,需要怎樣的技術支撐?| CCF-GAIR 2019

以下為付瑞吉博士的演講全文,雷鋒網進行了不改變原意的編輯:

科大訊飛在教育領域的各個環節都做了很多工作,包括教學、考試、管理等各方面,在去年勇奪全球十二個人工智能技術評測的冠軍,這十二個獎項包括自然語言處理、圖像、語音等各方面,其中語法檢錯、圖文識別和閱讀理解等與智能評閱相關的技術都獲得了冠軍。

2016年,我們和教育部考試中心成立了聯合實驗室,共同推進語音識別、手寫識別、自然語言處理、智能評測、機器翻譯等技術在教育領域的應用。

訊飛教育突破點:從口語評測到智能評閱

接下來我將介紹智能評閱核心技術。

我們從口語評測講起,訊飛從2005年開始研究口語評測。訊飛是做語音起家的,在語音識別和語音合成基礎上的另一個應用點是語音評測。備試的學生說一段話,機器進行自動評測,包括聲學方面的評測,文本內容的評測,最後得到一個綜合分數。

之所以會做這些工作,是因為我們以往的口語考試很難組織,例如普通話水平考試、英語考試,學生在前面說,老師在一直聽,一天聽下來是非常累的,到最後會影響老師的評分準確度。

科大訊飛的機器現在可以做到在學習人工專家評分標準的情況下,評分的總分相關度和平均誤差達到人工水平,我們在30個省市的普通話考試裡應用到這項技術。

此外,我們從口語考試擴展到紙筆考試,現在K12大部分是紙筆考試,我們通過掃描試卷,進行圖片的OCR識別,再進行自動評分,得到一個評分的成績。

口語評測和智能評閱的關係是什麼?

實際上二者很相似。我們做紙筆考試也是從口語評測激發的靈感。口語評測的輸入是一段語音,我們會對這個語音的發音標準進行評測,同時進行語音識別,對文字內容進行評測。我們的智能評閱輸入就變成了掃描或者拍照的圖片,對書寫質量有評價,對圖文識別後的語義層面也有評價,綜合獲得最終的分數,這與口語評測是很相似的。

科大訊飛付瑞吉:成熟應用於大規模考試的智能評閱系統,需要怎樣的技術支撐?| CCF-GAIR 2019

智能評閱難點解讀:作文評分技術框架

我們智能評閱中最難的是作文的評分,下圖是科大訊飛做評閱技術的核心框架。

科大訊飛付瑞吉:成熟應用於大規模考試的智能評閱系統,需要怎樣的技術支撐?| CCF-GAIR 2019

左側是作文試卷圖片輸入後進行圖文轉寫,對內容的相似度和其他異常進行檢測,這部分由於內容和標準很難處理,目前仍是交給人來評測;接下來,進行定標的篩選。

為什麼需要進行定標的篩選?這是因為每次考試後評分標準可能會有一些差異,這種情況下我們會選取一小部分試卷作為定標來打樣卷,請專家進行評分,以專家評分為標準來訓練模型。右側是進行評分的抽取、訓練和評分模型的訓練。

首先,我們進行圖文轉寫,試卷掃描之後的情況如左側所示(如下圖)。右側是進行行的切分、插入符號的識別,還有一些潦草塗抹塊的識別。對於手寫作文識別的最終準確率已經達到98%以上,達到了使用的門檻。在圖文轉寫基礎上,我們會對內容進行評分。

科大訊飛付瑞吉:成熟應用於大規模考試的智能評閱系統,需要怎樣的技術支撐?| CCF-GAIR 2019

對於內容的評分,我們會抽取多個維度的特徵。

在議論文篇章結構分析方面,以語文為例,高考中通常是議論文,我們會識別作文主旨、分論點、事實論據等篇章角色。採用的方法是通過整篇文章句子間的語義關聯性來分析其篇章角色。例如整篇作文全局性關聯的句子,在各個段落之間都會出現,通常是貫穿全局的主旨,表示整個文章的核心思想;還有一些局部相關聯的句子,可能是分論點以及對應的論據,是分論點的展開闡述;通過這些句子之間語義的相關性,我們會把整篇文章的篇章角色標註出來。例如,將引論句、主旨句、子論點、論據句都會識別出來。這些分析結果可以作為評分的特徵。

"科大訊飛付瑞吉:成熟應用於大規模考試的智能評閱系統,需要怎樣的技術支撐?| CCF-GAIR 2019

雷鋒網按:7月12日-7月14日,2019第四屆全球人工智能與機器人峰會(CCF-GAIR 2019)於深圳正式召開。峰會由中國計算機學會(CCF)主辦,雷鋒網、香港中文大學(深圳)承辦,深圳市人工智能與機器人研究院協辦,得到了深圳市政府的大力指導,是國內人工智能和機器人學術界、工業界及投資界三大領域的頂級交流博覽盛會,旨在打造國內人工智能領域極具實力的跨界交流合作平臺。

7月14日,在CCF-GAIR 2019的「智慧教育專場」論壇上,科大訊飛北京研究院副院長、哈工大訊飛聯合實驗室副主任付瑞吉博士做了《智能評閱核心技術及應用簡介》的主題演講。

科大訊飛付瑞吉:成熟應用於大規模考試的智能評閱系統,需要怎樣的技術支撐?| CCF-GAIR 2019

以下為付瑞吉博士的演講全文,雷鋒網進行了不改變原意的編輯:

科大訊飛在教育領域的各個環節都做了很多工作,包括教學、考試、管理等各方面,在去年勇奪全球十二個人工智能技術評測的冠軍,這十二個獎項包括自然語言處理、圖像、語音等各方面,其中語法檢錯、圖文識別和閱讀理解等與智能評閱相關的技術都獲得了冠軍。

2016年,我們和教育部考試中心成立了聯合實驗室,共同推進語音識別、手寫識別、自然語言處理、智能評測、機器翻譯等技術在教育領域的應用。

訊飛教育突破點:從口語評測到智能評閱

接下來我將介紹智能評閱核心技術。

我們從口語評測講起,訊飛從2005年開始研究口語評測。訊飛是做語音起家的,在語音識別和語音合成基礎上的另一個應用點是語音評測。備試的學生說一段話,機器進行自動評測,包括聲學方面的評測,文本內容的評測,最後得到一個綜合分數。

之所以會做這些工作,是因為我們以往的口語考試很難組織,例如普通話水平考試、英語考試,學生在前面說,老師在一直聽,一天聽下來是非常累的,到最後會影響老師的評分準確度。

科大訊飛的機器現在可以做到在學習人工專家評分標準的情況下,評分的總分相關度和平均誤差達到人工水平,我們在30個省市的普通話考試裡應用到這項技術。

此外,我們從口語考試擴展到紙筆考試,現在K12大部分是紙筆考試,我們通過掃描試卷,進行圖片的OCR識別,再進行自動評分,得到一個評分的成績。

口語評測和智能評閱的關係是什麼?

實際上二者很相似。我們做紙筆考試也是從口語評測激發的靈感。口語評測的輸入是一段語音,我們會對這個語音的發音標準進行評測,同時進行語音識別,對文字內容進行評測。我們的智能評閱輸入就變成了掃描或者拍照的圖片,對書寫質量有評價,對圖文識別後的語義層面也有評價,綜合獲得最終的分數,這與口語評測是很相似的。

科大訊飛付瑞吉:成熟應用於大規模考試的智能評閱系統,需要怎樣的技術支撐?| CCF-GAIR 2019

智能評閱難點解讀:作文評分技術框架

我們智能評閱中最難的是作文的評分,下圖是科大訊飛做評閱技術的核心框架。

科大訊飛付瑞吉:成熟應用於大規模考試的智能評閱系統,需要怎樣的技術支撐?| CCF-GAIR 2019

左側是作文試卷圖片輸入後進行圖文轉寫,對內容的相似度和其他異常進行檢測,這部分由於內容和標準很難處理,目前仍是交給人來評測;接下來,進行定標的篩選。

為什麼需要進行定標的篩選?這是因為每次考試後評分標準可能會有一些差異,這種情況下我們會選取一小部分試卷作為定標來打樣卷,請專家進行評分,以專家評分為標準來訓練模型。右側是進行評分的抽取、訓練和評分模型的訓練。

首先,我們進行圖文轉寫,試卷掃描之後的情況如左側所示(如下圖)。右側是進行行的切分、插入符號的識別,還有一些潦草塗抹塊的識別。對於手寫作文識別的最終準確率已經達到98%以上,達到了使用的門檻。在圖文轉寫基礎上,我們會對內容進行評分。

科大訊飛付瑞吉:成熟應用於大規模考試的智能評閱系統,需要怎樣的技術支撐?| CCF-GAIR 2019

對於內容的評分,我們會抽取多個維度的特徵。

在議論文篇章結構分析方面,以語文為例,高考中通常是議論文,我們會識別作文主旨、分論點、事實論據等篇章角色。採用的方法是通過整篇文章句子間的語義關聯性來分析其篇章角色。例如整篇作文全局性關聯的句子,在各個段落之間都會出現,通常是貫穿全局的主旨,表示整個文章的核心思想;還有一些局部相關聯的句子,可能是分論點以及對應的論據,是分論點的展開闡述;通過這些句子之間語義的相關性,我們會把整篇文章的篇章角色標註出來。例如,將引論句、主旨句、子論點、論據句都會識別出來。這些分析結果可以作為評分的特徵。

科大訊飛付瑞吉:成熟應用於大規模考試的智能評閱系統,需要怎樣的技術支撐?| CCF-GAIR 2019

在表達方式方面,大家小學都學過表達方式,例如記敘、抒情、議論、描寫等表達方式,我們需要自動識別出來。尤其是描寫,描寫體現出一個人對於語言運用的能力。我們計算過相關性,高分作文中描寫的比例很高,描寫的質量也很高。對於描寫的識別,我們用了多標籤訓練標註的方法來進行識別,也作為評分的特徵使用。

在修辭的識別方面,以比喻為例,在中小學,尤其是記敘文中,恰當的比喻的使用會使作文更加生動形象,作文質量在一定程度上會更高。我們識別比喻用的方法是基於多任務學習的方法,主要分為三個任務:

左側是識別出比喻的本體和喻體,是比喻元素的抽取;

右側上部是判斷是否是比喻,進行二元分類;

右側下部是語言模型的建模。

同時優化這三項任務,可以使比喻的識別達到更好的效果。

"科大訊飛付瑞吉:成熟應用於大規模考試的智能評閱系統,需要怎樣的技術支撐?| CCF-GAIR 2019

雷鋒網按:7月12日-7月14日,2019第四屆全球人工智能與機器人峰會(CCF-GAIR 2019)於深圳正式召開。峰會由中國計算機學會(CCF)主辦,雷鋒網、香港中文大學(深圳)承辦,深圳市人工智能與機器人研究院協辦,得到了深圳市政府的大力指導,是國內人工智能和機器人學術界、工業界及投資界三大領域的頂級交流博覽盛會,旨在打造國內人工智能領域極具實力的跨界交流合作平臺。

7月14日,在CCF-GAIR 2019的「智慧教育專場」論壇上,科大訊飛北京研究院副院長、哈工大訊飛聯合實驗室副主任付瑞吉博士做了《智能評閱核心技術及應用簡介》的主題演講。

科大訊飛付瑞吉:成熟應用於大規模考試的智能評閱系統,需要怎樣的技術支撐?| CCF-GAIR 2019

以下為付瑞吉博士的演講全文,雷鋒網進行了不改變原意的編輯:

科大訊飛在教育領域的各個環節都做了很多工作,包括教學、考試、管理等各方面,在去年勇奪全球十二個人工智能技術評測的冠軍,這十二個獎項包括自然語言處理、圖像、語音等各方面,其中語法檢錯、圖文識別和閱讀理解等與智能評閱相關的技術都獲得了冠軍。

2016年,我們和教育部考試中心成立了聯合實驗室,共同推進語音識別、手寫識別、自然語言處理、智能評測、機器翻譯等技術在教育領域的應用。

訊飛教育突破點:從口語評測到智能評閱

接下來我將介紹智能評閱核心技術。

我們從口語評測講起,訊飛從2005年開始研究口語評測。訊飛是做語音起家的,在語音識別和語音合成基礎上的另一個應用點是語音評測。備試的學生說一段話,機器進行自動評測,包括聲學方面的評測,文本內容的評測,最後得到一個綜合分數。

之所以會做這些工作,是因為我們以往的口語考試很難組織,例如普通話水平考試、英語考試,學生在前面說,老師在一直聽,一天聽下來是非常累的,到最後會影響老師的評分準確度。

科大訊飛的機器現在可以做到在學習人工專家評分標準的情況下,評分的總分相關度和平均誤差達到人工水平,我們在30個省市的普通話考試裡應用到這項技術。

此外,我們從口語考試擴展到紙筆考試,現在K12大部分是紙筆考試,我們通過掃描試卷,進行圖片的OCR識別,再進行自動評分,得到一個評分的成績。

口語評測和智能評閱的關係是什麼?

實際上二者很相似。我們做紙筆考試也是從口語評測激發的靈感。口語評測的輸入是一段語音,我們會對這個語音的發音標準進行評測,同時進行語音識別,對文字內容進行評測。我們的智能評閱輸入就變成了掃描或者拍照的圖片,對書寫質量有評價,對圖文識別後的語義層面也有評價,綜合獲得最終的分數,這與口語評測是很相似的。

科大訊飛付瑞吉:成熟應用於大規模考試的智能評閱系統,需要怎樣的技術支撐?| CCF-GAIR 2019

智能評閱難點解讀:作文評分技術框架

我們智能評閱中最難的是作文的評分,下圖是科大訊飛做評閱技術的核心框架。

科大訊飛付瑞吉:成熟應用於大規模考試的智能評閱系統,需要怎樣的技術支撐?| CCF-GAIR 2019

左側是作文試卷圖片輸入後進行圖文轉寫,對內容的相似度和其他異常進行檢測,這部分由於內容和標準很難處理,目前仍是交給人來評測;接下來,進行定標的篩選。

為什麼需要進行定標的篩選?這是因為每次考試後評分標準可能會有一些差異,這種情況下我們會選取一小部分試卷作為定標來打樣卷,請專家進行評分,以專家評分為標準來訓練模型。右側是進行評分的抽取、訓練和評分模型的訓練。

首先,我們進行圖文轉寫,試卷掃描之後的情況如左側所示(如下圖)。右側是進行行的切分、插入符號的識別,還有一些潦草塗抹塊的識別。對於手寫作文識別的最終準確率已經達到98%以上,達到了使用的門檻。在圖文轉寫基礎上,我們會對內容進行評分。

科大訊飛付瑞吉:成熟應用於大規模考試的智能評閱系統,需要怎樣的技術支撐?| CCF-GAIR 2019

對於內容的評分,我們會抽取多個維度的特徵。

在議論文篇章結構分析方面,以語文為例,高考中通常是議論文,我們會識別作文主旨、分論點、事實論據等篇章角色。採用的方法是通過整篇文章句子間的語義關聯性來分析其篇章角色。例如整篇作文全局性關聯的句子,在各個段落之間都會出現,通常是貫穿全局的主旨,表示整個文章的核心思想;還有一些局部相關聯的句子,可能是分論點以及對應的論據,是分論點的展開闡述;通過這些句子之間語義的相關性,我們會把整篇文章的篇章角色標註出來。例如,將引論句、主旨句、子論點、論據句都會識別出來。這些分析結果可以作為評分的特徵。

科大訊飛付瑞吉:成熟應用於大規模考試的智能評閱系統,需要怎樣的技術支撐?| CCF-GAIR 2019

在表達方式方面,大家小學都學過表達方式,例如記敘、抒情、議論、描寫等表達方式,我們需要自動識別出來。尤其是描寫,描寫體現出一個人對於語言運用的能力。我們計算過相關性,高分作文中描寫的比例很高,描寫的質量也很高。對於描寫的識別,我們用了多標籤訓練標註的方法來進行識別,也作為評分的特徵使用。

在修辭的識別方面,以比喻為例,在中小學,尤其是記敘文中,恰當的比喻的使用會使作文更加生動形象,作文質量在一定程度上會更高。我們識別比喻用的方法是基於多任務學習的方法,主要分為三個任務:

左側是識別出比喻的本體和喻體,是比喻元素的抽取;

右側上部是判斷是否是比喻,進行二元分類;

右側下部是語言模型的建模。

同時優化這三項任務,可以使比喻的識別達到更好的效果。

科大訊飛付瑞吉:成熟應用於大規模考試的智能評閱系統,需要怎樣的技術支撐?| CCF-GAIR 2019

此外,擬人、排比、引用等修辭,我們現在也都可以識別出來,這些特徵可以作為評分的依據。

智能評閱系統的另一功能:防作弊

在考試中還有一個應用,作文的相似檢測,也就是抄襲的檢測。這在大型考試中,人工是很難進行判斷的,所以我們做了這樣一件事情。

我們有幾百萬的範文庫,還有同批作文,有的學生會把閱讀理解的內容抄到作文中湊字數,對於老師來說,做這種檢測是不太可能的,很容易會忽略,我們用機器這套方法來識別,可以很方便、快速、準確地檢測出來。

例如,在兩篇作文中,中間部分寫得基本一樣。這是因為中間部分是背了一些網絡範文或模板。也有可能是把前面的閱讀理解抄在了作文中。

還有其他作文評閱技術,包括體裁分類(議論文、記敘文、散文等)、主題分類、離題檢測、立意判別,這些我們都已有相應技術。

智能評閱系統應用場景:大規模考試、日常教學

剛才介紹的是核心技術的進展,我們看一下這些核心技術在我們的產品中是如何應用的。

智能評閱有兩大應用場景,一方面是大規模考試,像中考、高考、會考、MHK等大型考試,一般是幾萬到幾十萬人,規模比較大。這一應用場景對智能評閱系統有兩類需求:

第一,做評分質檢,因為要保證評分的準確性,所以要做評分質檢,校檢人工的錯誤;

第二,替代一評,對於高利害的考試更多是做質檢,對低利害的考試,鑑於對人工成本節省的考慮,可以用以替代一評。

另一應用場景是,日常教學。日常教學包括平時的作業、周測、月考、期中/期末考試和校際聯考,規模比較小,比如班級作業只有幾十人。這不只需要評分的準確,還需要批改、反饋,對老師來說還需要有詳細的分析報告。可以看到,日常教學中的需求比在考試中的需求更加精細,技術難度也更大。

我們分別來看一下。

首先,大規模考試中的應用主要是做質檢。諸如掃描切圖、客觀評分、專家定標、主觀題人工評分,這些是人工評分過程中要做的一些事情;此外,智能評分、空白卷和異常的檢測等智能複核是智能評閱做的事情。

"科大訊飛付瑞吉:成熟應用於大規模考試的智能評閱系統,需要怎樣的技術支撐?| CCF-GAIR 2019

雷鋒網按:7月12日-7月14日,2019第四屆全球人工智能與機器人峰會(CCF-GAIR 2019)於深圳正式召開。峰會由中國計算機學會(CCF)主辦,雷鋒網、香港中文大學(深圳)承辦,深圳市人工智能與機器人研究院協辦,得到了深圳市政府的大力指導,是國內人工智能和機器人學術界、工業界及投資界三大領域的頂級交流博覽盛會,旨在打造國內人工智能領域極具實力的跨界交流合作平臺。

7月14日,在CCF-GAIR 2019的「智慧教育專場」論壇上,科大訊飛北京研究院副院長、哈工大訊飛聯合實驗室副主任付瑞吉博士做了《智能評閱核心技術及應用簡介》的主題演講。

科大訊飛付瑞吉:成熟應用於大規模考試的智能評閱系統,需要怎樣的技術支撐?| CCF-GAIR 2019

以下為付瑞吉博士的演講全文,雷鋒網進行了不改變原意的編輯:

科大訊飛在教育領域的各個環節都做了很多工作,包括教學、考試、管理等各方面,在去年勇奪全球十二個人工智能技術評測的冠軍,這十二個獎項包括自然語言處理、圖像、語音等各方面,其中語法檢錯、圖文識別和閱讀理解等與智能評閱相關的技術都獲得了冠軍。

2016年,我們和教育部考試中心成立了聯合實驗室,共同推進語音識別、手寫識別、自然語言處理、智能評測、機器翻譯等技術在教育領域的應用。

訊飛教育突破點:從口語評測到智能評閱

接下來我將介紹智能評閱核心技術。

我們從口語評測講起,訊飛從2005年開始研究口語評測。訊飛是做語音起家的,在語音識別和語音合成基礎上的另一個應用點是語音評測。備試的學生說一段話,機器進行自動評測,包括聲學方面的評測,文本內容的評測,最後得到一個綜合分數。

之所以會做這些工作,是因為我們以往的口語考試很難組織,例如普通話水平考試、英語考試,學生在前面說,老師在一直聽,一天聽下來是非常累的,到最後會影響老師的評分準確度。

科大訊飛的機器現在可以做到在學習人工專家評分標準的情況下,評分的總分相關度和平均誤差達到人工水平,我們在30個省市的普通話考試裡應用到這項技術。

此外,我們從口語考試擴展到紙筆考試,現在K12大部分是紙筆考試,我們通過掃描試卷,進行圖片的OCR識別,再進行自動評分,得到一個評分的成績。

口語評測和智能評閱的關係是什麼?

實際上二者很相似。我們做紙筆考試也是從口語評測激發的靈感。口語評測的輸入是一段語音,我們會對這個語音的發音標準進行評測,同時進行語音識別,對文字內容進行評測。我們的智能評閱輸入就變成了掃描或者拍照的圖片,對書寫質量有評價,對圖文識別後的語義層面也有評價,綜合獲得最終的分數,這與口語評測是很相似的。

科大訊飛付瑞吉:成熟應用於大規模考試的智能評閱系統,需要怎樣的技術支撐?| CCF-GAIR 2019

智能評閱難點解讀:作文評分技術框架

我們智能評閱中最難的是作文的評分,下圖是科大訊飛做評閱技術的核心框架。

科大訊飛付瑞吉:成熟應用於大規模考試的智能評閱系統,需要怎樣的技術支撐?| CCF-GAIR 2019

左側是作文試卷圖片輸入後進行圖文轉寫,對內容的相似度和其他異常進行檢測,這部分由於內容和標準很難處理,目前仍是交給人來評測;接下來,進行定標的篩選。

為什麼需要進行定標的篩選?這是因為每次考試後評分標準可能會有一些差異,這種情況下我們會選取一小部分試卷作為定標來打樣卷,請專家進行評分,以專家評分為標準來訓練模型。右側是進行評分的抽取、訓練和評分模型的訓練。

首先,我們進行圖文轉寫,試卷掃描之後的情況如左側所示(如下圖)。右側是進行行的切分、插入符號的識別,還有一些潦草塗抹塊的識別。對於手寫作文識別的最終準確率已經達到98%以上,達到了使用的門檻。在圖文轉寫基礎上,我們會對內容進行評分。

科大訊飛付瑞吉:成熟應用於大規模考試的智能評閱系統,需要怎樣的技術支撐?| CCF-GAIR 2019

對於內容的評分,我們會抽取多個維度的特徵。

在議論文篇章結構分析方面,以語文為例,高考中通常是議論文,我們會識別作文主旨、分論點、事實論據等篇章角色。採用的方法是通過整篇文章句子間的語義關聯性來分析其篇章角色。例如整篇作文全局性關聯的句子,在各個段落之間都會出現,通常是貫穿全局的主旨,表示整個文章的核心思想;還有一些局部相關聯的句子,可能是分論點以及對應的論據,是分論點的展開闡述;通過這些句子之間語義的相關性,我們會把整篇文章的篇章角色標註出來。例如,將引論句、主旨句、子論點、論據句都會識別出來。這些分析結果可以作為評分的特徵。

科大訊飛付瑞吉:成熟應用於大規模考試的智能評閱系統,需要怎樣的技術支撐?| CCF-GAIR 2019

在表達方式方面,大家小學都學過表達方式,例如記敘、抒情、議論、描寫等表達方式,我們需要自動識別出來。尤其是描寫,描寫體現出一個人對於語言運用的能力。我們計算過相關性,高分作文中描寫的比例很高,描寫的質量也很高。對於描寫的識別,我們用了多標籤訓練標註的方法來進行識別,也作為評分的特徵使用。

在修辭的識別方面,以比喻為例,在中小學,尤其是記敘文中,恰當的比喻的使用會使作文更加生動形象,作文質量在一定程度上會更高。我們識別比喻用的方法是基於多任務學習的方法,主要分為三個任務:

左側是識別出比喻的本體和喻體,是比喻元素的抽取;

右側上部是判斷是否是比喻,進行二元分類;

右側下部是語言模型的建模。

同時優化這三項任務,可以使比喻的識別達到更好的效果。

科大訊飛付瑞吉:成熟應用於大規模考試的智能評閱系統,需要怎樣的技術支撐?| CCF-GAIR 2019

此外,擬人、排比、引用等修辭,我們現在也都可以識別出來,這些特徵可以作為評分的依據。

智能評閱系統的另一功能:防作弊

在考試中還有一個應用,作文的相似檢測,也就是抄襲的檢測。這在大型考試中,人工是很難進行判斷的,所以我們做了這樣一件事情。

我們有幾百萬的範文庫,還有同批作文,有的學生會把閱讀理解的內容抄到作文中湊字數,對於老師來說,做這種檢測是不太可能的,很容易會忽略,我們用機器這套方法來識別,可以很方便、快速、準確地檢測出來。

例如,在兩篇作文中,中間部分寫得基本一樣。這是因為中間部分是背了一些網絡範文或模板。也有可能是把前面的閱讀理解抄在了作文中。

還有其他作文評閱技術,包括體裁分類(議論文、記敘文、散文等)、主題分類、離題檢測、立意判別,這些我們都已有相應技術。

智能評閱系統應用場景:大規模考試、日常教學

剛才介紹的是核心技術的進展,我們看一下這些核心技術在我們的產品中是如何應用的。

智能評閱有兩大應用場景,一方面是大規模考試,像中考、高考、會考、MHK等大型考試,一般是幾萬到幾十萬人,規模比較大。這一應用場景對智能評閱系統有兩類需求:

第一,做評分質檢,因為要保證評分的準確性,所以要做評分質檢,校檢人工的錯誤;

第二,替代一評,對於高利害的考試更多是做質檢,對低利害的考試,鑑於對人工成本節省的考慮,可以用以替代一評。

另一應用場景是,日常教學。日常教學包括平時的作業、周測、月考、期中/期末考試和校際聯考,規模比較小,比如班級作業只有幾十人。這不只需要評分的準確,還需要批改、反饋,對老師來說還需要有詳細的分析報告。可以看到,日常教學中的需求比在考試中的需求更加精細,技術難度也更大。

我們分別來看一下。

首先,大規模考試中的應用主要是做質檢。諸如掃描切圖、客觀評分、專家定標、主觀題人工評分,這些是人工評分過程中要做的一些事情;此外,智能評分、空白卷和異常的檢測等智能複核是智能評閱做的事情。

科大訊飛付瑞吉:成熟應用於大規模考試的智能評閱系統,需要怎樣的技術支撐?| CCF-GAIR 2019

我們會在人工評分的同時進行機器的自動評分,得到評分結果後,進行評分結果的複核,發現一些人機評分大分差的情況,我們會對大分差進行專家複核,對成績進行確認,複核以後做最終成績發佈。加入智能評閱環節後,可以使整個評分更加準確。

包括前面提到的語文作文、英語作文、數學解答題、文綜簡答題,其中理綜的簡答題比較少,其他科目已經達到比較高的比例。近年已經在全國多地大規模考試中應用。

總體來說,各地評卷專家對智能評閱技術在考試中的應用非常認可,形成了一個良好的應用示範,可以繼續深化推廣。

在日常教學中的應用,像我剛才強調的,應用反饋的難度會比大規模考試的評分難度更大,儘管如此,仍得到了廣泛的應用。例如,英語的填空題、英文作文的反饋,在實際學校中的應用,已經有2000多所學校常態化使用,三年來增長量提高了將近10餘倍,實現為近萬名老師減負。

老師平時在批改作文的過程中是非常費時費力的,在科大訊飛的平臺上進行的統計統計顯示,老師在批改過程中可能20秒、10秒,甚至幾秒直接批閱作文,直接給一個評分或者給一個“閱”,對學生的反饋是不足的。這樣的方式對於學生學習興趣的培養是不利的。我們有了智能評閱技術,可以實現自動反饋,可以輔助老師更好地給學生更加詳盡的反饋,提高學生的學習興趣,也提高反饋的效率。

雷鋒網在會後對付瑞吉博士進行了採訪,精彩內容節選如下:

雷鋒網:科大訊飛目前在智慧教育領域有怎樣的整體佈局和版塊劃分?

付瑞吉:科大訊飛在智慧教育領域整體佈局分為以下五大方向:

  • 第一,智慧課堂,我們通過一些智能硬件(諸如平板)將後臺資源,以及我們的一些核心技術連起來。例如,我們在做語音評測時,可以讓學生用平板進行學習,老師以大屏作為中控平臺和顯示平臺,學生現場讀一段話,系統會自動給出評測結果,包括來自哪個地方,哪個地方讀的不準,並給出提示出來。

如果只靠老師一個人來進行教學,一方面,沒有這麼準確,如某些地方老師的普通話水平也有限;另外一方面,老師對於學生的薄弱點的把握沒有那麼迅速。

此外,平臺還會提供大量課程資源,我們後臺有大量的課件資源,優質的課件音視頻材料,這種素材相當於一個大的共享平臺,方便老師進行備課,以及在課堂上及時搜索資源。例如,上歷史課講到一些歷史事件時,我們可以方便地搜索一些歷史事件當時的地形圖,採用動畫的方式展示當時的戰爭狀態、演進過程,使得課堂教學生動活躍,資源豐富。

  • 第二,智能評閱,通過考試,我們一方面是對於大規模考試這種服務,對於評分的公平公正的維護;另一方面我們在日常這種應用中,可以幫助更加精準地分析學生的薄弱點,例如作文中哪些方面不好,我們通過技術服務輔助老師達到精準的診斷,最終實現這種精準的教學。

  • 第三,個性化學習,我們會對題目做一些分析技術,例如數理化這種理科的題目,我們會針對知識點、能力等方面多個維度打上標籤。學生在考完試後,根據題目答對或答錯的情況,我們會個性化地分析出他在知識掌握方面的薄弱點,然後再進一步為學生推薦一些針對性的強化訓練,提供訓練題目和學習資源,做個性化的學習。


個性化學習也是科大訊飛今年非常重視的一大戰略。業界也有很多其他公司在做。這種理念的基礎正是因材施教,節省學生大量時間,提高學生學習效率,有針對性地幫助學生針對薄弱點進行學習,改變重複性海量刷題這種傳統、低效的學習方式。

  • 第四,新高考業務。

主要包括面向新高考的排課與選課。新高考改革帶來了一些新課程,例如,針對「3+1+2」新模式(其中,3指“語、數、外”,1指“物理或歷史,2指“生物、化學、政治、歷史”這四門學科中的兩門,合計為高考科目),這種個性化組合,根據學生自己的能力去選擇,這是新高考改革帶來的一個變化,這樣的變化為教學過程帶來了一些困難,其中一項就是排課。

舊高考模式人工排課基本可以實現,但是這種組合一來以後,學生上的課不一樣,學校排課的難度會非常大,科大訊飛針對排課也設計了一套自動排課算法,可以快速滿足學生學校這種排課的需求。

另外選哪些科目作為高考科目,也是學生和家長普遍關心的問題。新高考改革後,在選課之前,學生需要對生涯有一個清晰規劃。此前學生在高中階段可能對於後面自己想幹什麼,或者是大學裡的專業設置情況並不知道,對於自己的能力和哪個專業會匹配、應該學哪些課程也不太清楚。

我們通過測評,會做這樣的一個生涯規劃。通過各種測評,把學生的能力、興趣點測評出來,然後與大學裡的生涯規劃匹配在一起,最終落實就可以幫助學生進行課程的選擇。這使得學生在高中階段學習過程中就會很有目標。

  • 第五,綜合測評。

綜合測評主要是針對學校的綜合管理的一個測評。實際上在新高考的背景下,學校可能會有些管理上的變革。科大訊飛結合高考招生制度改革的迫切需要推出新一代綜合素質評價系統。實現從指標體系、評價工具、採集方案、誠信體系到結果公示的全業務流程覆蓋。通過科學有效的內容監管和誠信體系完整記錄學生過程性與終結性成長數據;並集成自然語言理解、圖形圖像識別、數據可視化等人工智能和大數據技術,輔助教育主管部門科學決策;並形成教師、家庭及時反饋與有效干預的閉環體系,指導與促進學生綜合素質的全面提升與發展。

具體而言,我們需要構建與區校常態化教育教學活動結合的過程性與終結性成長數據採集方案,開展過程性評價和終結性評價,引進學生、家長、學校、第三方等多元評價主體,並能夠基於國家和區域標準提供評價結果的智能試算。從而科學、公平地開展學生綜合素質評價,促進學生核心素養提升。

雷鋒網:智能評閱系統需要怎樣的技術能力支撐,從技術能力發展來看,整體市場現狀如何?

付瑞吉:首先,OCR其實是很關鍵的,也是一個基礎,我們可以通過OCR技術識別出學生寫的比較潦草的文字,目前科大訊飛在這方面已經能夠達到98%以上的識別率;其次,文字識別完後,是NLP文本處理的能力。

其次,整體來看,在NLP方面,閱讀理解這兩年的技術進步是比較快的,國際上也有諸如SQuAD的比賽,引導研究機構去參賽,使這塊的技術進展較快。這其中的技術方案是可以用到我們智能評閱系統中的,幫助機器對於整篇作文宏觀語義的把握。

另外,再加上我們傳統的一些對於語言的應用能力的平臺,諸如我演講中提到的各類修辭、表達方式、篇章結構的分析,智能評閱系統就是將這樣的語言運用能力綜合應用起來。

現在整個市場的技術進展是,在大規模考試場景中,基本上可以達到實用水平,大規模考試中實際上也已有應用。比較難的則是日常教學應用中,實現批改反饋功能的難度較大。這裡科大訊飛現在採用的是人機結合——機器自動評閱的一些結果,再通過人工確認,從而提高老師的工作效率。

雷鋒網:評閱系統評閱中英文作為這樣的主觀題需要怎樣的技術能力,AI模型如何訓練?

付瑞吉:通過前面提到的文本分析技術可以得出作文的一些特徵,然後另外一項重要工作是“定標”。

每次大型考試以後(諸如數萬人到數十萬人規模的考試),我們可以拿出幾百份到一千份的樣卷讓專家打分。專家準確評分的樣卷,我們可以用來訓練智能評閱系統的算法模型,即將專家的評分標準“學”到我們的模型中。

「AI投研邦」將在近期上線CCF GAIR 2019峰會完整視頻與各大主題專場白皮書,包括機器人前沿專場、智能交通專場、智慧城市專場、AI芯片專場、AI金融專場、AI醫療專場、智慧教育專場等。「AI投研邦」會員們可免費觀看全年峰會視頻與研報內容,掃碼進入會員頁面瞭解更多,或私信助教小慕(微信:moocmm)諮詢。

"