淺談FRVT人臉識別測評

人臉識別 算法 技術 銀行 金融 人工智能前沿學生論壇 2019-07-12

點擊→https://mp.weixin.qq.com/s/ZnjirGgQdFO3NqJZ9krc3g

關注微信公眾號:人工智能前沿講習

重磅乾貨,第一時間送達

人臉識別的測試集很多,大致發展脈絡是從受控環境向無約束環境發展。早期的AR,YaleB等都是標準的正面人臉照片,隨著識別技術的推進,識別測評集也不斷推陳出新,大家熟知的LFW,IJB,MegaFace等都是一些無約束識別測試集合。這些無約束數據集合的一大顯著特性是從互聯網上下載並且整理的一些圖片,很難反應實際應用中的一些需求。比如,有些算法宣稱在LFW上達到了99.8%的識別率,但在實際的監控環境中表現非常差。當然,這並非否定這些測試集作用,早期時候確實推動了人臉識別技術發展,但是當精度達到一定水準之後,再簡單的刷性能就沒有太大意義。正因為如此,NIST又重啟了多年的人臉識別競賽FRVT。

FRVT簡介

NIST是美國國家標準技術局簡稱(National Institute of Standards and Technology),其隸屬於美國商務部,從事一些應用基礎研究及測量技術和測試方法等,提供標準參考數據及有關服務。NIST經常會組織一些專業人臉識別測評,其主要目的是測試人臉識別算法水準。這些測評由於是相對獨立的第三方測試,受商業因素影響較小,因此相對比較公平公正。值得一提的是FRVT測評不會公佈人臉的訓練集,很難通過擬合訓練集方式參加比賽。參賽者提供算法SDK之後,FRVT直接測試這些算法性能。

值得注意的是,FRVT人臉識別測試集往往有多種測試集合組成(比如受控環境下人臉簽證照片,無約束環境下人臉自拍照片等),FRVT在每次結果報告中都沒有給出綜合性排序,只給出了特定閾值下單項測試集合排名。從人臉識別角度來看,沒有一種人臉識別算法可以做到在任何環境下表現都很優秀,因此通過FRVT結果簡單認為某某公司人臉識別水平第一不嚴謹。FRVT測評在之前一共舉辦過五次(FRVT 2000, FRVT 2002,FRVT 2006, FRVT 2010, FRVT 2013)。早期的人臉識別測評需要在固定的截止日期之前提交自己的算法,以正面人臉照片為主(有一定的姿態、光照等變化),其主要特點是數據量較大。

2017年2月份開始,NIST開始組織新的人臉識別測評,不同於以往的測評,這次測評沒有截止日期,參加測評者可以根據自身進度提交算法,NIST會對算法進行測試,並且每隔一段時間出一次報告。在解讀這份報告之前,我們先介紹下大致評價指標:FNMR(false non-match rate)和FMR(false match rate)。FNMR和FMR在FRVT報告中有嚴格公式說明,在這裡用通俗易懂的語言再解釋一下。FNMR(拒識率,就是把應該相互匹配成功人臉當成不匹配的人臉),FMR(誤識率,就是把不應該匹配成功人臉當成匹配成功人臉)。是不是很繞口?這是因為人臉識別分為類內比對(同一個人不同照片)和類間比對(不同人的照片)。

在實際系統中,拒絕識別(FNMR)和錯誤識別(FMR)代價往往不太一樣,比如金融領域的人臉識別,誤識會是一個很嚴重的事故(想像一下,如果ATM依靠刷臉取款,無需其他信息驗證,如果有人和你長的非常像,則很有可能會進入你的賬戶取款),相比之下,拒識結果相對可以接受(還是ATM刷臉取款,如果完全依靠刷臉取款,本人去ATM機刷臉,ATM無法正確識別你的身份,這時候你無法進入自己的賬戶,但是你的存款相對還是安全的,如果是緊急情況,甚至可以去銀行櫃檯取款)。所以當給出一定的測試集時候,如果只統計識別率,並不能全面反映一個算法性能。通常反映算法性能可以調節算法閾值,得到不同拒識率和誤識率,然後畫出拒識和誤識相關曲線(即ROC曲線)。FRVT測評同樣也是用的這種方式,在測試集上畫出了不同算法的ROC曲線。

FRVT2018共有六個數據集,到目前為止測試算法64種,從測試精度、速度、以及存儲、可靠性等對各個算法進行了測試,整個報告全文在(https://www.nist.gov/sites/default/files/documents/2018/06/21/frvt_report_2018_06_21.pdf),由於篇幅較大,在這裡大致說明一下。FRVT所用測試數據集說明如下

淺談FRVT人臉識別測評

表1. FRVT2018 測試集合

淺談FRVT人臉識別測評

圖1. FRVT2018測試集樣例

在報告全文畫出了多個圖標(參照正式報告https://www.nist.gov/sites/default/files/documents/2018/06/21/frvt_report_2018_06_21.pdf),其中,Table 1和Table 2是參賽者提交算法的說明,包含了算法提交日期,算法包大小,最終比對特徵模板大小及特徵提取時間,比對運行時間等。Table 3和Table 4是測試集上的一些排序,從表格中可以看出,其排序依據是在指定的給定閾值下,當FMR等於某一數值時候(一般比較低,防止錯誤識別情況),FNMR的數值。例如,對於VISA測試集,分別給出了當FMR等於10^-6和10^-4不同算法的FNMR數值。如果對不同算法ROC曲線感興趣,可以進一步參考Figure 4到Figure 12。

FRVT Leaderboard 簡介

下面我們再看下FRVT Leaderboard情況(https://www.nist.gov/programs-projects/face-recognition-vendor-test-frvt-ongoing)。

FRVT之所以給出這個leaderboard,其原因是FRVT測試較為複雜,六個測試集ROC曲線非專業人士很難看明白,因此根據ROC曲線上的一些關鍵點(例如,當FMR等於10^-4點)做了排序,把表現都較好的算法列在了Leaderboard上。假設我們評價不同人臉識別算法也是以這些關鍵點為依據,那麼可以得出如下結論:

1. Leaderborad上最左邊一列序號僅僅是依據在Visa數據集關鍵點排序(FMR等於10^-6數值點),至於Mugshot、Wild、Child exploitation 數據集則沒有考慮,因此不能簡單的看最左邊一列序號評價一個算法好壞,甚至得出錯誤結論“NIST全球權威人臉識別算法測試結果公佈,前五名中三名來自中國”。

2. Ntechlab-004算法在VISA、Mugshot、Wild測試集上全面好過siat-002算法,無論採取哪種加權策略,僅從leaderboard上數據,都不能得出siat-002比ntechlab-004綜合性能排名高結論。

寫了這麼長的一段,可能有讀者心中依然存有疑慮,從FRVT結果看到底哪家算法比較好?其實這又回到了開頭的論述,沒有一種人臉識別算法可以做到在任何環境下表現都很優秀(這也是有很多參賽者提交多個算法原因)。假設我們依然想根據FRVT測評結果做一個綜合性排序,可以簡單的採取平均策略,即根據參賽算法在不同測試集上表現,大致做一個平均,根據平均分數高低確定最終排名。採用簡單平均策略之後(根據Leaderboard所列出數據,我們僅取在Visa、Mugshot、Wild都有參賽算法),重新排名如下:

淺談FRVT人臉識別測評

表2 各種算法平均性能排序

從上述表格中,可以看出依圖提供的yitu-001人臉識別算法性能不錯,尤其是在Visa和Mugshot測試集上均處於前兩名之內,但是其在Wild測試集表現稍微欠缺。俄羅斯NTechLab提供的ntechlab-004人臉識別算法在表中所列出的幾種數據集上表現都處於前3名,因此其綜合排名超越了依圖的001人臉識別算法。其他算法比如siat-002、vocord-004等也都表現不錯。

值得注意的是這種平均策略並不能全面評測一個算法性能,比如曠視科技提供的megvii-001人臉識別算法在Visa數據集上表現不錯,但是其在Mugshot和Wild數據集性能一般,因此整體排名靠後。但是這並不能說明megvii-001人臉識別算法性能差, megvii-001人臉識別算法可能針對受控環境下人臉識別性能較好,而無約束環境下人臉識別性能相對不足。

總之,我們國家在人臉識別上進展確實很快,尤其是近幾年發展速度超出了預期,包括在FRVT競賽中取得了很好的成績,但是僅僅只從FRVT Leaderboard數據看,很多媒體報道不符合事實,有些誇大意味。另外,從實際應用角度來看,人臉識別尤其是監控環境中人臉識別,還需要很長一段時間研究才能符合實際應用的需求。

作者簡介

李琦,中科院自動化所博士,助理研究員,圖形圖像學會會員,圖形圖像學會視覺與大數據專委會委員。2007-2011年在中國石油大學獲得學士學位,2011年-2016年在中科院自動化所模式識別國家重點實驗室獲得博士學位。一直從事計算機視覺、人臉預處理和識別方面的工作。參與的人臉識別系統成功應用於國有商業銀行和地方鐵路系統等。在國際主流期刊和會議(如IEEE Transactions on Information Forensics and Security, Pattern Recognition,NIPS等)發表過多篇文章,申請多項專利,現任《IEEE Transactions on Pattern Recognition and Machine Intelligence》,《International Journal of Automation and Computing》,《Pattern Recognition》等審稿人。

淺談FRVT人臉識別測評

相關推薦

推薦中...