騰訊優圖連奪世界冠軍背後：百萬級人臉識別達83%，人眼只有23%｜新智元專訪

機器學習騰訊雲計算人工智能圖像處理新智元 2017-04-27

新智元原創

連拿兩項人臉識別國際冠軍，刷分只是檢驗技術落地成果副產品

2017年4月，騰訊優圖實驗室就在國際最權威、難度最高的海量人臉識別數據庫MegaFace中，以83.290%的最新成績在100萬級別人臉識別測試（Challenge1/FaceScrub identification）中拔得頭籌。

關於MegaFace：MegaFace是由美國華盛頓大學（University of Washington）計算機科學與工程實驗室發佈並維護的一套公開人臉數據集，MegaFace以海量人臉註冊情況下的識別率為重要指標，MegaFace是目前最為權威熱門的評價人臉識別性能，特別是海量人臉識別檢索性能的基準參照之一。

這也是近期繼 LFW 之後，優圖實驗室再次刷新世界紀錄。此前，在國際權威人臉識別數據庫LFW上，騰訊優圖實驗室在無限制條件下人臉驗證測試（unrestricted labeled outside data）中提交的最新成績為99.80%，提升了上次99.65%的成績。

刷新紀錄的成果介紹；來源：LFW官網Results截圖

在接受新智元的專訪時，針對目前業界廣泛流傳的“刷分無用”論，優圖團隊表示，參加MegaFace比賽，是對於算法、計算平臺、數據的綜合考驗，這是對團隊能力的一種錘鍊，通過挑戰極限，促進技術進步。

他們說：“另外，參加競賽很重要的一點是心態和定位，其實我們參加各種比賽完全是按照我們自己產品落地的節奏進行的，目的更多的是想驗證下我們技術進步的成果，刷分只是檢驗技術落地成果的副產品。競賽只要能夠正確反映技術優劣促進技術發展就是其真正意義所在了。”

在優圖看來，組織好的競賽肯定是有意義的，就像奧林匹克極大促進了世界體育的發展。

優圖團隊進一步對新智元介紹說，大多數比賽中的性能和實際應用中的性能絕對值其實沒有直接的可比性，但會有相對的參考價值。由於優圖的技術研發都是以業務落地為導向的，所以比賽中性能出色的算法必定是其在實際應用中有可取之處的。競賽中產生的新技術也會回饋到實際應用中，創造更大的價值。他們自己的經驗是：競賽中的模型在實際應用中也通常是表現最好的。但實際應用中不僅要考慮準確率，還必須考慮實際數據場景、模型大小、運行速度等更多因素。

100萬級大規模1：N人臉測試：人類平均水平23.9%，機器能做到83.29%

回到本次騰訊優圖登頂世界第一的 MegaFace 比賽。根據騰訊優圖團隊的介紹，MegaFace是業界第一個對海量1:N人臉識別技術進行評測的人臉識別競賽。海量1:N人臉識別技術應用前景更廣，難度也更大。

他們說，作為一支深耕人臉識別技術的團隊，參加這個比賽幾乎是技術發展的必然選擇，也是技術沉澱的最好證明。2015年起，團隊就已經將1:N人臉識別與檢索技術定位成重點研發方向。能夠拿下冠軍，認為最大的優勢是騰訊這個平臺：“因為平臺優勢，我們能夠收集到更多更好的數據；因為平臺優勢我們能快速構建GPU集群，加速我們的訓練；因為平臺優勢我們能吸引更多的人才，這才是在現如今飛速發展的AI領域利於不敗之地的根本”，騰訊優圖團隊對新智元表示。

憑藉騰訊作為互聯網巨頭強大的平臺優勢，即在數據、計算資源、人才上的積累，優圖得以快速進步並且登頂多項AI 競賽世界冠軍。

聊一聊細節，本年度MegaFace 比的是100萬級的大規模1:N人臉識別任務。這一比賽項目難度在哪？

騰訊優圖團隊向新智元解釋說，提到難度總需要一個參照物，AI算法最好的參照物就是人。以前人臉識別算法的標杆是LFW。LFW測試的是1:1人臉驗證的能力，人在這方面的能力在99.2%。目前機器學習算法最好的結果是他們剛提交的99.8%。而在MegaFace這種100萬級的大規模1:N人臉識別任務中，人類的平均準確率在23.9%。而機器學習算法最好結果是他們剛提交的83.29%。這個準確率還是不考慮時間成本的。

“如果說像 LFW 那種1:1人臉驗證場景機器可以替代人類進行工作，那麼 MegaFace 這種1:N人臉識別場景機器就是完成了人類不可能完成的任務”，騰訊優圖團隊對新智元表示。

在圖像識別，或者說人臉識別上，大家瞭解得比較多的是 ImageNet，那麼 ImageNet 和MegaFace 有何區別？騰訊優圖說，二者最大差別就是一個是通用物體識別的評測，一個是特定人臉識別的評測。MegaFace 和 ImageNet是兩個不同領域的比賽。

相比通用物體識別，人臉識別技術在20年前就已經有非常多的業務落地應用，優圖團隊介紹，他們人臉識別落地項目非常多，所以關注LFW、MegaFace比賽也是必然的。他們認為，學術界和工業界還是需要有一些分工的。

他們也談到，許多最新的技術很多都是從 ImageNet 這類競賽裡面產生的，這一競賽對整個業界的推動作用不容忽視的，因此騰訊優圖也會對ImageNet也會持續保持關注。

技術細節：多機多卡的TensorFlow集群訓練平臺

具體到技術細節。優圖團隊介紹，他們使用的是多機多卡的TensorFlow集群訓練平臺，這是優圖工程團隊獨立研發的機器學習集群，基於TensorFlow底層接口，並在上層構建了集群調度、存儲和管理的框架，支持大多數網絡模型以及優圖特殊的網絡模型，通過將分佈式計算引入深度學習，不僅大幅縮短了深度模型訓練的時間，同時提供了訓練超深神經網絡的能力，把深度學習能力提高到單機無法達到的高度。

這一平臺也是通用性的深度學習工具，不僅面向人臉模型訓練，同時可以支持圖像、音頻上的其他研究需求。

本次比賽，優圖的另一個技術亮點則是集成了三個360、540、720層的類似Inception-resnet的深層網絡。被問到為什麼會想到這樣一種設計思路？優圖解釋說，對單個網絡來說深度越深網絡性能越好，但訓練和識別時間也相對更長。不同深度的網絡集成的時候互補性更好。所以他們採用了大網絡和小網絡融合的方式。融合都是會提升效果的，融合準確率比單個模型高。這種方法的優勢就是可以用更短的時間訓練出融合性能更好的一組模型。

另外，騰訊自研的人臉識別引擎Uface是優圖團隊目前公開的技術成果之一。據介紹，模型結構參考了Inception-resnet，但是具體結構都是根據任務需求自研的，比如優圖人臉識別的祖母模型族。關於基於Boosting人臉形狀迴歸模型，他們也基於學術界的論文，進行了很多創新，比如模型的量化壓縮，從100MB到2MB，採用從整臉到器官的層級模型，實現了精度的顯著提升，並用rank-learning算法對多次迴歸結果進行融合，避免出現大的偏差，而且進一步提升了精度。

談到數據，優圖官網上介紹說“立足騰訊社交數據大平臺，收集標註了千萬數據，擁有海量數據分析與人臉、圖片訓練集”。那麼多數據，他們是如何標註的？優圖團隊介紹，在優圖的所有標註任務他們都會通過聚類，視頻跟蹤、非監督學習等技術手段來最大程度的減少人工標註量，大部分的數據，識別模型都是可以很好的進行處理。

他們只人工標註那些目前模型難以區分的數據（所有數據均為公開數據或者已經獲得授權的數據，且已對數據信息進行脫敏處理）。優圖有專業的標註團隊，可以高效的處理這些困難的樣本數據。

活體檢測：騰訊優圖脣語活體檢測

活體檢測是人臉識別商業化的重要一環，目前被廣泛地應用到各類人臉識別APP上，但是這種方法會有一個漏洞，就是難以防住真人視頻或者合成的視頻（例如3D模型或者換臉算法）。2017年的“315”晚會，主持人現場演示了攻破人臉識別手段，其核心就是利用活體識別的漏洞。在演示過程中，一張他人的靜態自拍照，通過技術處理，可以變成能眨眼睛、能微笑的“偽活人”。甚至還可以利用這張自拍照，藉助3D建模技術，讓自己“變臉”成另一個人，輕易騙過登錄系統，成功“黑”進對方賬號。

在採訪中，優圖團隊也對新智元介紹了他們的人臉活體檢測技術：優圖在2014年下半年開始研發人臉活體技術，當時搖頭、眨眼、張嘴隨機動作方式最為普及。經過多方論證後，優圖並沒有採用這種主流方式，而是獨家首創了一套脣語活體檢測技術。

優圖團隊對新智元介紹說，相對主流的方式，脣語活體技術有多項優點：（1）隨機性高：搖頭，眨眼，搖頭集中動作生成隨機序列，其變化方式不足10種，通過預先錄製視頻的方式有很高几率匹配上。但脣語的方式，採用的是隨機數字串方式，隨機的種類有數萬種，因此，通過提前錄製視頻的方式發生匹配的概率極低。（2）交互更自然：閱讀一串8個數字交互簡單自然，用戶更樂於接受。反觀搖頭模式，用戶體驗不自然，而且用戶在搖頭過程中會經常出現人臉離開攝像區域。（3）交互過程人臉穩定，更有利於人臉驗證算法：近幾年人臉驗證算法雖有大幅進展，但對人臉質量仍有一定依賴。人臉越正，畫質越好，人臉驗證的準確性就越高。在採用搖頭、張嘴、眨眼等方式時人臉動作較大，會出現人臉姿態不正或者運動模糊等問題。相對而言，用戶在數字閱讀過程中能更好的保持人臉的問題，有效保證人臉驗證算法的效果。（4）引入語音，聲紋輔助人臉，安全再升級。和一般的運動交互方式不同，脣語活體算法不僅能獲取到圖像序列信息，還能獲取到音頻信息用於聲紋驗證，這在人臉活體基礎上又增加了一道防線，更加安全。

應用：在主流智能手機上耗時可以控制在50ms以內

目前，優圖AI技術已經在QQ ，空間，QQ音樂，微信，騰訊雲，廣點通，全民K歌等眾多明星產品中落地應用。對外，優圖與聯通、南寧公安，蘇州公安，滴滴，微影時代，西鹹工商等眾多政企客戶展開合作，加速智能政務發展，智能城市的建設。

實際應用中的技術細節，騰訊優圖對新智元說，當前優圖大部分的人臉技術都已經在客戶端落地，包括人臉檢測、人臉配準跟蹤、部分人臉活體技術等。

目前，他們的人臉識別系統在主流智能手機上耗時可以控制在50ms以內，人臉識別模型數據可以控制在2MB以內。50ms代表了準實時，優圖的多個人臉算法都達到了準實時，像人臉配準跟蹤算法更是達到了300fps的超實時速度。另外移動端的App對應用包的整體大小或者資源文件的大小有限制，一般人工智能算法的模型都以資源文件方式下載，當前常規網絡環境（wifi,4G）的下載可達到1M/s, 下載一個2M的模型僅需要等待2秒，所以把模型限制在2MB以內更貼近實用。基本上所有的用戶都能接受這樣一個等待時長。

一個開放平臺，To B 也 To C

優圖近年來強調的一個重要理念是“開放性”，在採訪中，優圖團隊表示，團隊的開放性的理念最重要的是打造一個“AI的開放生態”，當前主要體現在“技術和產品的開放”，通過開放平臺以及騰訊雲平臺，將團隊的技術對外輸出。

騰訊優圖開放平臺（open.youtu.qq.com）的核心主旨是將優圖核心技術，前沿的研究成果對外輸出。將深度學習複雜的算法模型轉換為方便，簡單的雲服務，以API和SDK的方式，面向行業開放。

當前通過優圖開放平臺，我們已經對外輸出了20多種API，涵蓋“人臉識別”“圖像識別”“OCR識別”等核心領域。除此之外，還在騰訊雲的大平臺上架設了“萬象優圖”的AI板塊，與騰訊雲現有產品能力打包，增強騰訊雲服務的能力，通過騰訊云為企業級大客戶提供服務。當前優圖開放平臺和騰訊雲*萬象優圖已經為上百家企業提供服務，日均調用量達數十億。

那麼，優圖的模式是不是一個主要為行業提供商業解決方案的To B 平臺？優圖團隊解釋說，為行業提供商業解決方僅僅是團隊所做業務的一塊重點。從產品的角度說，商業級的產品解決方案主要聯合騰訊雲團隊，互聯網+團隊等渠道在聯合推進。與此同時，他們也在探索一些新的方向和合作方式，例如與騰訊內部基建團隊合作的“人臉識別門禁”等產品，很快會在騰訊各地的新辦公樓看到。

在 To C領域，騰訊內部上百產品業務線均有接入優圖的AI服務，日調用量數十億。像騰訊的明星產品QQ，QQ空間，微信，P圖，QQ音樂等，目前都有深入的產品合作。大家熟悉的QQ音樂的哼唱識別，空間直播中的智能美妝，天天P圖這些產品的背後，都是優圖AI技術的落地。

關於騰訊優圖

優圖是騰訊人工智能的三大技術支柱之一，其餘兩個團隊分別是騰訊 AI Lab 和微信 AI 團隊。優圖團隊創立於2012年，專注在圖像處理、模式識別、機器學習、數據挖掘等領域開展技術研發和業務落地，至今已有近5年的歷史。

目前，優圖團隊成員將近百人，大都是來自於清華、北大、中科院、上海交大、浙大等頂級院校的博士、碩士。目前優圖實驗室有研究、產品、工程技術等團隊，分別負責AI領域的研究和技術在產品，業務中的落地應用。

封面圖片說明：2月13日，QQ空間、騰訊優圖攜手唯品會亮相紐約時裝週，舉辦業界首個“AI+時尚”大秀。騰訊優圖藉助AI人臉識別與圖像處理技術，分析2016年QQ空間相冊千億公開照片，結合唯品會95後服裝銷售大數據，發現“95 度黑” 等中國 95後流行色彩及時尚品味。

新智元招聘

職位：客戶總監

職位年薪：30 - 60萬（工資+獎金）

工作地點：北京-海淀區

所屬部門：客戶部

彙報對象：COO

下屬人數：8 人

年齡要求：25 歲至 40 歲

性別要求：不限

工作年限：5 年

語言：英語 + 普通話

學歷要求：全日制統招本科

職位描述：

熱愛人工智能，在行業內有一定的人脈資源和影響力；
為客戶制定媒體關係策略和公關活動策劃，達成客戶的市場或傳播目標；
負責監督公關項目的計劃和實施，使項目能按期在預算內完成；
積極拓展客戶資源，開發公司業務，與既有客戶保持緊密的業務聯絡和溝通；
監督、管理及考核客戶服務團隊，全面提升公司客戶服務質量；
理工科背景優先，有知名企業或知名媒體機構工作經驗者優先。