'抄襲與反抄襲：她將統計機器學習方法引入抄襲檢測連續多年獲得PAN@CLEF國際評測多項第一'

機器學習信息檢索算法英國法律自然語言處理知識產權搜索引擎大學謝菲爾德大學科學出版社 2019-07-24

對於抄襲，有許多不同的概念和觀點。通常情況下，抄襲是公開的照搬照抄，而剽竊主要指將他人的語言文字、圖、表、公式或研究觀點，經過編輯、拼湊、修改後加入自己的論文、著作、項目申請書、結題報告、數據文件、計算機程序代碼等材料當中，並以作者自居。在著作權法用語中，抄襲亦稱為剽竊。本文不區分這兩個詞，一律使用抄襲這個詞。

互聯網的高速發展，特別是越來越豐富的文獻資源庫、搜索引擎、機器翻譯的應用，使抄襲變得越來越容易。近年來，抄襲檢測已經引起了學術界和工業界的廣泛關注。

抄襲與反抄襲：她將統計機器學習方法引入抄襲檢測連續多年獲得PAN@CLEF國際評測多項第一

基於Web 的抄襲模式（Potthast et al., 2013.）

在應用中，隨著對知識產權和科學道德的重視，抄襲檢測系統獲得了廣泛的應用，許多學校和機構都制定了各種學術規範和標準來檢測抄襲，內容涉及學術發表、學位論文、項目申請、結題，甚至學生的日常作業。在工業界，誕生了針對各種目的的抄襲檢測系統，例如，國內中國知網(CNKI)學術不端文獻檢測系統，國外的Turnitin、PlagScan、Dupli Checker、Plagiarism Checker、Copyleaks 等。在學術界，研究者們發表了大量以抄襲及抄襲檢測為研究內容的論文。許多機構，如歐盟數字圖書館計劃支持的跨語言評估論壇(Cross-Language Evaluation Forum，CLEF)、致力於亞洲語言信息檢索和自然語言處理的信息檢索論壇(Forum of Information Retrieval Evaluation，FIRE)等，都開展了以評估抄襲檢測算法為主題的評測活動和國際會議。尤其是CLEF，自2009 年起，連續7 年開展了抄襲檢測國際評測PAN@CLEF，吸引了諸多世界五百強大學和著名研究院所(如英國謝菲爾德大學、英國薩里大學、德國弗勞恩霍夫研究院)的參與。在國內，抄襲檢測的相關研究已開展了10 多年，取得了一些有價值的成果。

基於Web 的抄襲模式（Potthast et al., 2013.）

PAN@CLEF 2012 提出的抄襲類型和抄襲檢測框架

同時，我們也看到，抄襲檢測系統的廣泛應用使得抄襲者越來越多地採用高模糊的抄襲手段實施抄襲。這主要包括在龐大的互聯網資源中獲取抄襲源和使用釋義的手段改寫抄襲源文檔。這使得高模糊抄襲檢測成為抄襲檢測研究領域中亟待解決的關鍵問題。

另一方面，與欣欣向榮的抄襲檢測產業及其系統的研發和應用景象不同，不論國內還是國外，抄襲檢測領域高水平的論文還很少見。究其原因，抄襲檢測的大部分研究還停留在應用基於啟發式的方法對信息檢索、自然語言處理理論的淺層應用階段，沒有根據抄襲檢測任務的本質進行建模。當前研究中，僅少部分研究涉及了監督學習的方法，機器學習方法尚未成為主流。抄襲檢測領域尚有大量理論問題沒有解決，這是造成高模糊抄襲檢測系統性能低下的主要原因。

基於Web 的抄襲模式（Potthast et al., 2013.）

PAN@CLEF 2012 提出的抄襲類型和抄襲檢測框架

根據抄襲檢測報告修改論文的過程

目前，國內外研究主要集中在抄襲語料構建、抄襲源檢索和文本對齊三個方向。這些研究主要面臨以下幾方面的挑戰。

▌第一，高質量、反映真實抄襲情況的抄襲語料匱乏。反映真實抄襲文本的語料庫是抄襲檢測研究的基礎，對抄襲現象、規律的分析及抄襲檢測算法的評價起著至關重要的作用。然而，由於涉及個人隱私、道德、法律方面的問題，抄襲語料構建並非易事。構建高質量、反映真實抄襲情況的抄襲語料庫是當前迫切需要解決、具有挑戰的任務。

▌第二，以龐大的互聯網資源為抄襲源的現狀極大地增加了抄襲檢測的難度。現有解決Web 環境下的高模糊抄襲源檢索方法還停留在基於啟發式的源檢索方法階段。基於啟發式的源檢索方法主要根據專家經驗開發，具有很大的定製性和隨機性，其性能的改進只能依賴專家的經驗和參數的調整。因此，如何改善源檢索的模型和框架，提出有理論指導的源檢索方法是提升源檢索性能的關鍵。

▌第三，高模糊抄襲檢測的文本對齊性能有待進一步提升。在高模糊抄襲中，文本通常使用詞或短語的同義詞替換，句法修改，句子的縮減、組合、重組，概念泛化和特化、解釋、意譯等釋義抄襲手段來躲避抄襲檢測，這使得抄襲句對存在外表極不相似而語義相同的現象。實踐證明，面對釋義抄襲中可疑文檔對源文檔的釋義修改，在大部分的單詞和短語都被替換的情況下，現有方法難以獲得令人滿意的性能。高模糊抄襲檢測性能較低是抄襲檢測面臨的迫切需要解決的問題。

基於Web 的抄襲模式（Potthast et al., 2013.）

PAN@CLEF 2012 提出的抄襲類型和抄襲檢測框架

根據抄襲檢測報告修改論文的過程

目前，國內外研究主要集中在抄襲語料構建、抄襲源檢索和文本對齊三個方向。這些研究主要面臨以下幾方面的挑戰。

跨語言抄襲檢測的過程框架

在上述背景下，《抄襲檢測研究》（孔蕾蕾著．北京：科學出版社，2019.6）一書以文本抄襲的檢測為研究對象，將統計機器學習方法引入抄襲檢測的研究領域，探索了抄襲檢測的語料庫構建、Web 環境下的抄襲源檢索和高模糊抄襲檢測的文本對齊的問題、數據、架構和模型。針對抄襲語料的構建，提出了基於自然標註的抄襲語料構建方法，解決高質量，反映真實抄襲情況的抄襲語料匱乏問題；針對Web 環境下的抄襲源檢索，提出了基於排序學習的源檢索查詢生成模型和關注檢索結果聚合性的源檢索過濾模型，解決以互聯網為抄襲資源的抄襲源檢索問題；針對抄襲檢測的文本對齊任務，提出了基於排序學習的抄襲文本匹配模型、句法和語義交互的釋義文本深度匹配模型和基於序列標註的文本對齊模型，解決高模糊抄襲檢測的文本對齊問題。同時，本書也較全面地總結了抄襲檢測的概念、類型和框架，綜述了抄襲檢測的方法和抄襲檢測的語料。

基於Web 的抄襲模式（Potthast et al., 2013.）

PAN@CLEF 2012 提出的抄襲類型和抄襲檢測框架

根據抄襲檢測報告修改論文的過程

目前，國內外研究主要集中在抄襲語料構建、抄襲源檢索和文本對齊三個方向。這些研究主要面臨以下幾方面的挑戰。

跨語言抄襲檢測的過程框架

文本對齊的機器學習框架

本研究具有重要的理論意義和應用價值，其成果有助於促進抄襲檢測方法和理論的發展，為高質量的抄襲檢測軟件開發提供保障，為遏制學術研究的低水平重複及保障財政經費在科研中的有效利用提供依據，從而建立公平競爭的學術規則，淨化學術氛圍，弘揚求真務實的科學精神，減少學術不端，提高中國科技界的國際聲譽。這些成果也可廣泛應用於以文本相似為基礎的各個應用領域，促進自然語言處理、信息檢索、機器學習等領域的研究與發展。

本書的研究成果自 2012 年連續 4 年獲得了 CLEF 組織的抄襲檢測評測PAN@CLEF 的多項第一名，獲得了2016 年FIRE 的釋義檢測全部4 種語言的3項第一名、1 項第二名，在國際同行中產生了重要的影響。

值此專著出版之際，將羅伯特·弗羅斯特的詩《未選擇的路》(The Road Not Taken)送給在科研道路上無怨無悔拼搏奮鬥的戰友！

黃色的樹林裡分出兩條路，

可惜我不能同時去涉足，

我在那路口久久佇立，

我向著一條路極目望去，

直到它消失在叢林深處。

但我卻選擇了另外一條路，

它荒草萋萋，十分幽寂，

顯得更誘人，更美麗；

雖然在這條小路上，

很少留下旅人的足跡。

那天清晨落葉滿地，

兩條路都未經腳印汙染。

啊，留下一條路等改日再見!

但我知道路徑延綿無盡頭,

恐怕我難以再回返。

也許多少年後在某個地方，

我將輕聲嘆息將往事回顧：

一片樹林裡分出兩條路，

而我選擇了人跡更少的一條，

從此決定了我一生的道路。

孔蕾蕾

2018 年12 月

本文摘編自《抄襲檢測研究》（孔蕾蕾著．北京：科學出版社，2019.6）一書“前言”，有刪減，文中插圖來自該書正文。標題為編者所加。

ISBN 978-7-03-060197-1

責任編輯：陳靜

本書以文本的抄襲檢測為研究對象，探索了抄襲檢測的語料庫構建、Web 環境下的抄襲源檢索和高模糊抄襲檢測的文本對齊的問題、數據、架構和模型。全書共9 章，第1～3 章介紹了抄襲檢測的概念、類型和框架，綜述了抄襲檢測的方法；第4 章介紹了現有抄襲語料構建方法，提出了基於自然標註的抄襲語料構建方法；第5 和第6 章對抄襲源檢索開展研究，描述了基於排序學習的源檢索查詢生成模型和關注檢索結果聚合性的源檢索過濾模型；第7～9 章，對抄襲檢測的文本對齊開展研究，提出了基於排序學習的抄襲文本匹配模型、句法和語義交互的釋義文本深度匹配模型以及基於序列標註的文本對齊模型。

（本文編輯：劉四旦）

一起閱讀科學!

科學出版社│微信ID：sciencepress-cspm

專業品質學術價值

原創好讀科學品味

'抄襲與反抄襲：她將統計機器學習方法引入抄襲檢測 連續多年獲得PAN@CLEF國際評測多項第一'

'抄襲與反抄襲：她將統計機器學習方法引入抄襲檢測連續多年獲得PAN@CLEF國際評測多項第一'