'人臉識別+深度學習,水平遠超人類大腦'

"
全文共3342字,預計學習時長7分鐘


"
全文共3342字,預計學習時長7分鐘


人臉識別+深度學習,水平遠超人類大腦


什麼是人臉識別?什麼是深度學習?兩者結合能帶來什麼影響?


如果你認為一篇文章無法涵蓋這麼多問題,這篇文章能夠改變你的想法。本文展示了所有重要的概念。總之,在這篇文章中你將會了解到臉部識別是如何運作的,及其如何和深度學習技術協同工作。


深度學習的基礎


"
全文共3342字,預計學習時長7分鐘


人臉識別+深度學習,水平遠超人類大腦


什麼是人臉識別?什麼是深度學習?兩者結合能帶來什麼影響?


如果你認為一篇文章無法涵蓋這麼多問題,這篇文章能夠改變你的想法。本文展示了所有重要的概念。總之,在這篇文章中你將會了解到臉部識別是如何運作的,及其如何和深度學習技術協同工作。


深度學習的基礎


人臉識別+深度學習,水平遠超人類大腦


深度學習只是機器學習中的一個標準範式,更精確地說,是其中一個算法。深度學習在最大限度上依靠於人腦的概念以及神經之間的相互溝通。在谷歌上搜索“什麼是深度學習”,會發現當時的相關熱詞已經與現在有很大不同。產生這種現象的原因是什麼呢?實際上,“深度學習”這一術語最早出現在19世紀80年代,但直到2012年,人們才具備足夠的能力去運用這項科技,並逐漸開始注意到它。


2012年發生了什麼?這一年,達爾(Dahl)領導的一個團隊利用多任務深度神經網絡預測一種藥物的生物分子目標,贏得了默克分子活動挑戰賽。這引發了大眾媒體的廣泛關注,因此許多其他的研究人員和開發者也開始與之合作。


知名科學家們在科學期刊上發表一系列文章後,這項技術開始風靡。如今,它有著各種各樣的應用,其中人臉識別佔據了重要的位置。首先,深度學習助力構建識別生物特徵軟件,該軟件能夠獨立識別或驗證個體。所有這些都是因為深度學習方法能夠利用非常龐大的人臉數據集,認識多種多樣的袖珍圖片,使現代模型能夠先運行,隨後甚至超越人類的人臉識別能力。


所以,深度學習是如何運作的呢?


"
全文共3342字,預計學習時長7分鐘


人臉識別+深度學習,水平遠超人類大腦


什麼是人臉識別?什麼是深度學習?兩者結合能帶來什麼影響?


如果你認為一篇文章無法涵蓋這麼多問題,這篇文章能夠改變你的想法。本文展示了所有重要的概念。總之,在這篇文章中你將會了解到臉部識別是如何運作的,及其如何和深度學習技術協同工作。


深度學習的基礎


人臉識別+深度學習,水平遠超人類大腦


深度學習只是機器學習中的一個標準範式,更精確地說,是其中一個算法。深度學習在最大限度上依靠於人腦的概念以及神經之間的相互溝通。在谷歌上搜索“什麼是深度學習”,會發現當時的相關熱詞已經與現在有很大不同。產生這種現象的原因是什麼呢?實際上,“深度學習”這一術語最早出現在19世紀80年代,但直到2012年,人們才具備足夠的能力去運用這項科技,並逐漸開始注意到它。


2012年發生了什麼?這一年,達爾(Dahl)領導的一個團隊利用多任務深度神經網絡預測一種藥物的生物分子目標,贏得了默克分子活動挑戰賽。這引發了大眾媒體的廣泛關注,因此許多其他的研究人員和開發者也開始與之合作。


知名科學家們在科學期刊上發表一系列文章後,這項技術開始風靡。如今,它有著各種各樣的應用,其中人臉識別佔據了重要的位置。首先,深度學習助力構建識別生物特徵軟件,該軟件能夠獨立識別或驗證個體。所有這些都是因為深度學習方法能夠利用非常龐大的人臉數據集,認識多種多樣的袖珍圖片,使現代模型能夠先運行,隨後甚至超越人類的人臉識別能力。


所以,深度學習是如何運作的呢?


人臉識別+深度學習,水平遠超人類大腦



深度學習系統根據人腦新皮質的神經網絡建模,在那裡出現了更高層次的認知。在大腦中,神經元是一個傳遞電子或化學信息的細胞。神經元與其他神經元連接時會形成神經網絡。在機器中,神經元是虛擬的——基本上是運行統計迴歸的代碼位。把足夠多的虛擬神經元串在一起就得到了一個虛擬的神經網絡。


與傳統線性的機器學習算法不同,深度學習算法堆疊在一個複雜度和抽象度不斷增加的層次結構中。為了理解深度學習,讀者可以想象一個剛學走路的孩子學習的第一個詞彙是狗。孩子通過指向物體並說出“狗”這個詞來學習什麼是狗或者什麼不是狗。家長說,“是的,那是一隻狗”,或者“不是,那不是一隻狗” 。孩子們通過不斷指認物體來更好地理解所有狗都具有的特徵。孩子本身都沒有意識到,自己正通過構建一個層次結構來理清一個複雜的抽象概念(狗的概念)。在這個層次結構中,每個層次的抽象都是用前一層獲得的知識創建的。


雖然計算機有不同型號,但是它們經歷的過程是一樣的。層次結構中的每個算法對其輸入應用非線性轉換,並使用所學內容創建一個統計模型作為輸出。迭代直至輸出達到可接受的精度水平才停止。數據必須通過的處理層的數量激發了標籤的深度。


人臉識別的基礎


"
全文共3342字,預計學習時長7分鐘


人臉識別+深度學習,水平遠超人類大腦


什麼是人臉識別?什麼是深度學習?兩者結合能帶來什麼影響?


如果你認為一篇文章無法涵蓋這麼多問題,這篇文章能夠改變你的想法。本文展示了所有重要的概念。總之,在這篇文章中你將會了解到臉部識別是如何運作的,及其如何和深度學習技術協同工作。


深度學習的基礎


人臉識別+深度學習,水平遠超人類大腦


深度學習只是機器學習中的一個標準範式,更精確地說,是其中一個算法。深度學習在最大限度上依靠於人腦的概念以及神經之間的相互溝通。在谷歌上搜索“什麼是深度學習”,會發現當時的相關熱詞已經與現在有很大不同。產生這種現象的原因是什麼呢?實際上,“深度學習”這一術語最早出現在19世紀80年代,但直到2012年,人們才具備足夠的能力去運用這項科技,並逐漸開始注意到它。


2012年發生了什麼?這一年,達爾(Dahl)領導的一個團隊利用多任務深度神經網絡預測一種藥物的生物分子目標,贏得了默克分子活動挑戰賽。這引發了大眾媒體的廣泛關注,因此許多其他的研究人員和開發者也開始與之合作。


知名科學家們在科學期刊上發表一系列文章後,這項技術開始風靡。如今,它有著各種各樣的應用,其中人臉識別佔據了重要的位置。首先,深度學習助力構建識別生物特徵軟件,該軟件能夠獨立識別或驗證個體。所有這些都是因為深度學習方法能夠利用非常龐大的人臉數據集,認識多種多樣的袖珍圖片,使現代模型能夠先運行,隨後甚至超越人類的人臉識別能力。


所以,深度學習是如何運作的呢?


人臉識別+深度學習,水平遠超人類大腦



深度學習系統根據人腦新皮質的神經網絡建模,在那裡出現了更高層次的認知。在大腦中,神經元是一個傳遞電子或化學信息的細胞。神經元與其他神經元連接時會形成神經網絡。在機器中,神經元是虛擬的——基本上是運行統計迴歸的代碼位。把足夠多的虛擬神經元串在一起就得到了一個虛擬的神經網絡。


與傳統線性的機器學習算法不同,深度學習算法堆疊在一個複雜度和抽象度不斷增加的層次結構中。為了理解深度學習,讀者可以想象一個剛學走路的孩子學習的第一個詞彙是狗。孩子通過指向物體並說出“狗”這個詞來學習什麼是狗或者什麼不是狗。家長說,“是的,那是一隻狗”,或者“不是,那不是一隻狗” 。孩子們通過不斷指認物體來更好地理解所有狗都具有的特徵。孩子本身都沒有意識到,自己正通過構建一個層次結構來理清一個複雜的抽象概念(狗的概念)。在這個層次結構中,每個層次的抽象都是用前一層獲得的知識創建的。


雖然計算機有不同型號,但是它們經歷的過程是一樣的。層次結構中的每個算法對其輸入應用非線性轉換,並使用所學內容創建一個統計模型作為輸出。迭代直至輸出達到可接受的精度水平才停止。數據必須通過的處理層的數量激發了標籤的深度。


人臉識別的基礎


人臉識別+深度學習,水平遠超人類大腦


讓我們首先關注人類是如何識別人臉的。由於面部表情的識別需要人腦廣泛而多樣部位的參與,面部感知十分複雜。腦成像研究通常顯示顳葉的梭形回區域有大量的活動,梭形回區域在受損時(尤其是兩側受損時)也會引起面容失認症。人們從出生起就學會辨認面孔,四個月大的時候就能清楚地分辨出一個人和另一個人。


人們最關注的是眼睛、顴骨、鼻子、嘴、眉毛,以及皮膚的質地和顏色。同時,我們的大腦將面部作為一個整體來處理,甚至可以通過半張臉來識別一個人。大腦將所得圖像與內部平均模式進行比較,發現特徵差異。


所以臉部識別系統是如何運作的呢?


首先,人臉識別系統需要在圖像中找到人臉並突出顯示該區域。為此,軟件可以使用多種算法:例如,確定比例和膚色的相似性,選擇圖像中的輪廓及其與人臉輪廓的比較,使用神經網絡選擇對稱性。最有效的方法是可以實時使用Viola-Jones方法。有了此方法,即使人臉旋轉30度,系統也能識別臉孔。


該方法基於Haar符號。Haar符號是一組形狀各異的黑白矩形遮罩。遮罩疊加在圖像的不同部分,算法將遮罩的黑白部分下面的圖像的所有像素的亮度相加,然後計算這些值之間的差異。接下來,系統將結果與累積的數據進行比較,並在確定圖像中的人臉後,繼續跟蹤它以選擇最佳角度和圖像質量。因此需使用運動矢量預測算法或相關算法。


系統在選擇了最成功的圖片後,繼續進行人臉識別,並與現有的基礎進行比較。它的工作原理與畫家畫肖像的原理相同,都是在人臉上找到構成個人特徵的參考點。通常,程序分配大約100個這樣的點。


面部識別程序最重要的測量是眼間距、鼻孔的寬度、鼻子的長度、顴骨的高度和形狀、下巴的寬度、前額的高度和其他參數。然後,程序將獲得的數據與數據庫中的可用數據進行比較,如果參數一致,就可以識別與該人臉相一致的人了。


在照片中檢測人臉的關鍵步驟


"
全文共3342字,預計學習時長7分鐘


人臉識別+深度學習,水平遠超人類大腦


什麼是人臉識別?什麼是深度學習?兩者結合能帶來什麼影響?


如果你認為一篇文章無法涵蓋這麼多問題,這篇文章能夠改變你的想法。本文展示了所有重要的概念。總之,在這篇文章中你將會了解到臉部識別是如何運作的,及其如何和深度學習技術協同工作。


深度學習的基礎


人臉識別+深度學習,水平遠超人類大腦


深度學習只是機器學習中的一個標準範式,更精確地說,是其中一個算法。深度學習在最大限度上依靠於人腦的概念以及神經之間的相互溝通。在谷歌上搜索“什麼是深度學習”,會發現當時的相關熱詞已經與現在有很大不同。產生這種現象的原因是什麼呢?實際上,“深度學習”這一術語最早出現在19世紀80年代,但直到2012年,人們才具備足夠的能力去運用這項科技,並逐漸開始注意到它。


2012年發生了什麼?這一年,達爾(Dahl)領導的一個團隊利用多任務深度神經網絡預測一種藥物的生物分子目標,贏得了默克分子活動挑戰賽。這引發了大眾媒體的廣泛關注,因此許多其他的研究人員和開發者也開始與之合作。


知名科學家們在科學期刊上發表一系列文章後,這項技術開始風靡。如今,它有著各種各樣的應用,其中人臉識別佔據了重要的位置。首先,深度學習助力構建識別生物特徵軟件,該軟件能夠獨立識別或驗證個體。所有這些都是因為深度學習方法能夠利用非常龐大的人臉數據集,認識多種多樣的袖珍圖片,使現代模型能夠先運行,隨後甚至超越人類的人臉識別能力。


所以,深度學習是如何運作的呢?


人臉識別+深度學習,水平遠超人類大腦



深度學習系統根據人腦新皮質的神經網絡建模,在那裡出現了更高層次的認知。在大腦中,神經元是一個傳遞電子或化學信息的細胞。神經元與其他神經元連接時會形成神經網絡。在機器中,神經元是虛擬的——基本上是運行統計迴歸的代碼位。把足夠多的虛擬神經元串在一起就得到了一個虛擬的神經網絡。


與傳統線性的機器學習算法不同,深度學習算法堆疊在一個複雜度和抽象度不斷增加的層次結構中。為了理解深度學習,讀者可以想象一個剛學走路的孩子學習的第一個詞彙是狗。孩子通過指向物體並說出“狗”這個詞來學習什麼是狗或者什麼不是狗。家長說,“是的,那是一隻狗”,或者“不是,那不是一隻狗” 。孩子們通過不斷指認物體來更好地理解所有狗都具有的特徵。孩子本身都沒有意識到,自己正通過構建一個層次結構來理清一個複雜的抽象概念(狗的概念)。在這個層次結構中,每個層次的抽象都是用前一層獲得的知識創建的。


雖然計算機有不同型號,但是它們經歷的過程是一樣的。層次結構中的每個算法對其輸入應用非線性轉換,並使用所學內容創建一個統計模型作為輸出。迭代直至輸出達到可接受的精度水平才停止。數據必須通過的處理層的數量激發了標籤的深度。


人臉識別的基礎


人臉識別+深度學習,水平遠超人類大腦


讓我們首先關注人類是如何識別人臉的。由於面部表情的識別需要人腦廣泛而多樣部位的參與,面部感知十分複雜。腦成像研究通常顯示顳葉的梭形回區域有大量的活動,梭形回區域在受損時(尤其是兩側受損時)也會引起面容失認症。人們從出生起就學會辨認面孔,四個月大的時候就能清楚地分辨出一個人和另一個人。


人們最關注的是眼睛、顴骨、鼻子、嘴、眉毛,以及皮膚的質地和顏色。同時,我們的大腦將面部作為一個整體來處理,甚至可以通過半張臉來識別一個人。大腦將所得圖像與內部平均模式進行比較,發現特徵差異。


所以臉部識別系統是如何運作的呢?


首先,人臉識別系統需要在圖像中找到人臉並突出顯示該區域。為此,軟件可以使用多種算法:例如,確定比例和膚色的相似性,選擇圖像中的輪廓及其與人臉輪廓的比較,使用神經網絡選擇對稱性。最有效的方法是可以實時使用Viola-Jones方法。有了此方法,即使人臉旋轉30度,系統也能識別臉孔。


該方法基於Haar符號。Haar符號是一組形狀各異的黑白矩形遮罩。遮罩疊加在圖像的不同部分,算法將遮罩的黑白部分下面的圖像的所有像素的亮度相加,然後計算這些值之間的差異。接下來,系統將結果與累積的數據進行比較,並在確定圖像中的人臉後,繼續跟蹤它以選擇最佳角度和圖像質量。因此需使用運動矢量預測算法或相關算法。


系統在選擇了最成功的圖片後,繼續進行人臉識別,並與現有的基礎進行比較。它的工作原理與畫家畫肖像的原理相同,都是在人臉上找到構成個人特徵的參考點。通常,程序分配大約100個這樣的點。


面部識別程序最重要的測量是眼間距、鼻孔的寬度、鼻子的長度、顴骨的高度和形狀、下巴的寬度、前額的高度和其他參數。然後,程序將獲得的數據與數據庫中的可用數據進行比較,如果參數一致,就可以識別與該人臉相一致的人了。


在照片中檢測人臉的關鍵步驟


人臉識別+深度學習,水平遠超人類大腦



以下是人臉識別過程中的步驟概述,摘自Stan Z.Li和Anil K.Jain於2011年出版的《人臉識別手冊》。

人臉識別其實是一系列相互關聯的步驟:


1. 首先需要查看圖像並找到其中的所有人臉。

2. 第二需要排除不自然的轉頭以及不佳光線的干擾,聚焦於每張臉本身並且判定這是同一個人。

3. 第三需要突出人臉特徵來與他人進行區分,比如說眼睛的大小和臉部的長度等等。

4. 最後需要把一張人臉的特徵與其它人臉進行比較,從而判斷每個人臉所屬的姓名。


人腦能即刻自動完成這些步驟。事實上,人能很好識別人臉並從日常事物中區分人臉。至少目前看來,計算機不能進行如此高程度的泛化,所以只能教授它們每一步該做的事情。

因此有必要構建一個管道,在此能分別在人臉識別過程的每個步驟找到解決方案,並將當前步驟的結果傳輸到下一個步驟。也就是說,需要將多個機器學習算法組合到一條鏈中。


人臉識別中的深度學習


事實上,對人類而言顯而易見的特徵,如眼睛顏色,對計算機分析圖像中的單個像素沒有意義。研究人員發現,最合適的方法是使計算機能夠確定需要收集的特徵。與此相反,深度學習可以更好更快地識別。


而最近,這個可能性出現了,或者說是被發現了。最開始每個人都不相信神經網絡的表現可以接近人類水平。但在2014年,一切都發生了變化。科學家們決定利用目前最好的兩個網絡——AlexNet、以及Matthew D.Zeiler和Rob Fergus開發的網絡。科學家們將它們與猴子大腦不同區域的反應進行了比較。猴子大腦經過訓練可以識別對象。並且選取的物品都來自動物世界,這樣猴子就不會混淆。


顯然我們不可能從猴子身上獲得反應,因此我們植入了電極,並直接測量每個神經元的反應。結果發現,在正常情況下,腦細胞的反應和當時最先進的模型Matthew Zeiler網絡表現一致。


但是,隨著展示物體的速度加快,圖像中的噪聲和物體數量增加,人類和靈長類動物大腦的識別率和質量顯著下降。而在這種情況下,即使最簡單的卷積神經網絡也能更好地識別物體。也就是說,官方的神經網絡比人類大腦工作得更好。


除了AlexNet和Matthew Zeiler網絡在人臉識別深度學習方面的突破之外,還有其他里程碑式的系統,如DeepFace、DeepID系列系統、VGGFace和FaceNet。如果想更好地理解人臉識別和深度學習是如何一起產生的,瞭解它們的歷史十分必要:


DeepFace是一個基於深度卷積神經網絡的面部識別系統,由Facebook的一個研究小組於2014年創建。它可以識別數字圖像中的人臉,準確率高達97%,是利用深度學習進行人臉識別的重大飛躍。

DeepID(深層隱藏身份特徵)是由Yi Sun等人在2014年題為《預測10000個的預測深度學習面部表徵》的論文中首先提出的一系列系統(DeepID、Deepid2等)。該系統起初和DeepFace相似,但後來出版的論文擴展了該系統,通過對比損失的培訓來支持識別和驗證任務。


VGGface由來自牛津大學視覺幾何學組(VGG)的Omkar Parkhi等人開發,並發表在在2015年的論文——《深層人臉識別》中。工作重點除了放在更好的調整後模型外,還放在如何收集一個非常大的訓練數據集,並用它訓練一個非常深層的CNN人臉識別模型。這一模型使得他們能夠在標準數據集上獲得當時最先進的結果。


FaceNet是一個由谷歌研究人員於2015年開發的人臉識別系統,基於一系列人臉識別基準數據集,在當時是最先進的系統。。得益於模型的多個第三方開放源碼實現和預培訓模型的可用性,FaceNet系統可以廣泛使用。

"
全文共3342字,預計學習時長7分鐘


人臉識別+深度學習,水平遠超人類大腦


什麼是人臉識別?什麼是深度學習?兩者結合能帶來什麼影響?


如果你認為一篇文章無法涵蓋這麼多問題,這篇文章能夠改變你的想法。本文展示了所有重要的概念。總之,在這篇文章中你將會了解到臉部識別是如何運作的,及其如何和深度學習技術協同工作。


深度學習的基礎


人臉識別+深度學習,水平遠超人類大腦


深度學習只是機器學習中的一個標準範式,更精確地說,是其中一個算法。深度學習在最大限度上依靠於人腦的概念以及神經之間的相互溝通。在谷歌上搜索“什麼是深度學習”,會發現當時的相關熱詞已經與現在有很大不同。產生這種現象的原因是什麼呢?實際上,“深度學習”這一術語最早出現在19世紀80年代,但直到2012年,人們才具備足夠的能力去運用這項科技,並逐漸開始注意到它。


2012年發生了什麼?這一年,達爾(Dahl)領導的一個團隊利用多任務深度神經網絡預測一種藥物的生物分子目標,贏得了默克分子活動挑戰賽。這引發了大眾媒體的廣泛關注,因此許多其他的研究人員和開發者也開始與之合作。


知名科學家們在科學期刊上發表一系列文章後,這項技術開始風靡。如今,它有著各種各樣的應用,其中人臉識別佔據了重要的位置。首先,深度學習助力構建識別生物特徵軟件,該軟件能夠獨立識別或驗證個體。所有這些都是因為深度學習方法能夠利用非常龐大的人臉數據集,認識多種多樣的袖珍圖片,使現代模型能夠先運行,隨後甚至超越人類的人臉識別能力。


所以,深度學習是如何運作的呢?


人臉識別+深度學習,水平遠超人類大腦



深度學習系統根據人腦新皮質的神經網絡建模,在那裡出現了更高層次的認知。在大腦中,神經元是一個傳遞電子或化學信息的細胞。神經元與其他神經元連接時會形成神經網絡。在機器中,神經元是虛擬的——基本上是運行統計迴歸的代碼位。把足夠多的虛擬神經元串在一起就得到了一個虛擬的神經網絡。


與傳統線性的機器學習算法不同,深度學習算法堆疊在一個複雜度和抽象度不斷增加的層次結構中。為了理解深度學習,讀者可以想象一個剛學走路的孩子學習的第一個詞彙是狗。孩子通過指向物體並說出“狗”這個詞來學習什麼是狗或者什麼不是狗。家長說,“是的,那是一隻狗”,或者“不是,那不是一隻狗” 。孩子們通過不斷指認物體來更好地理解所有狗都具有的特徵。孩子本身都沒有意識到,自己正通過構建一個層次結構來理清一個複雜的抽象概念(狗的概念)。在這個層次結構中,每個層次的抽象都是用前一層獲得的知識創建的。


雖然計算機有不同型號,但是它們經歷的過程是一樣的。層次結構中的每個算法對其輸入應用非線性轉換,並使用所學內容創建一個統計模型作為輸出。迭代直至輸出達到可接受的精度水平才停止。數據必須通過的處理層的數量激發了標籤的深度。


人臉識別的基礎


人臉識別+深度學習,水平遠超人類大腦


讓我們首先關注人類是如何識別人臉的。由於面部表情的識別需要人腦廣泛而多樣部位的參與,面部感知十分複雜。腦成像研究通常顯示顳葉的梭形回區域有大量的活動,梭形回區域在受損時(尤其是兩側受損時)也會引起面容失認症。人們從出生起就學會辨認面孔,四個月大的時候就能清楚地分辨出一個人和另一個人。


人們最關注的是眼睛、顴骨、鼻子、嘴、眉毛,以及皮膚的質地和顏色。同時,我們的大腦將面部作為一個整體來處理,甚至可以通過半張臉來識別一個人。大腦將所得圖像與內部平均模式進行比較,發現特徵差異。


所以臉部識別系統是如何運作的呢?


首先,人臉識別系統需要在圖像中找到人臉並突出顯示該區域。為此,軟件可以使用多種算法:例如,確定比例和膚色的相似性,選擇圖像中的輪廓及其與人臉輪廓的比較,使用神經網絡選擇對稱性。最有效的方法是可以實時使用Viola-Jones方法。有了此方法,即使人臉旋轉30度,系統也能識別臉孔。


該方法基於Haar符號。Haar符號是一組形狀各異的黑白矩形遮罩。遮罩疊加在圖像的不同部分,算法將遮罩的黑白部分下面的圖像的所有像素的亮度相加,然後計算這些值之間的差異。接下來,系統將結果與累積的數據進行比較,並在確定圖像中的人臉後,繼續跟蹤它以選擇最佳角度和圖像質量。因此需使用運動矢量預測算法或相關算法。


系統在選擇了最成功的圖片後,繼續進行人臉識別,並與現有的基礎進行比較。它的工作原理與畫家畫肖像的原理相同,都是在人臉上找到構成個人特徵的參考點。通常,程序分配大約100個這樣的點。


面部識別程序最重要的測量是眼間距、鼻孔的寬度、鼻子的長度、顴骨的高度和形狀、下巴的寬度、前額的高度和其他參數。然後,程序將獲得的數據與數據庫中的可用數據進行比較,如果參數一致,就可以識別與該人臉相一致的人了。


在照片中檢測人臉的關鍵步驟


人臉識別+深度學習,水平遠超人類大腦



以下是人臉識別過程中的步驟概述,摘自Stan Z.Li和Anil K.Jain於2011年出版的《人臉識別手冊》。

人臉識別其實是一系列相互關聯的步驟:


1. 首先需要查看圖像並找到其中的所有人臉。

2. 第二需要排除不自然的轉頭以及不佳光線的干擾,聚焦於每張臉本身並且判定這是同一個人。

3. 第三需要突出人臉特徵來與他人進行區分,比如說眼睛的大小和臉部的長度等等。

4. 最後需要把一張人臉的特徵與其它人臉進行比較,從而判斷每個人臉所屬的姓名。


人腦能即刻自動完成這些步驟。事實上,人能很好識別人臉並從日常事物中區分人臉。至少目前看來,計算機不能進行如此高程度的泛化,所以只能教授它們每一步該做的事情。

因此有必要構建一個管道,在此能分別在人臉識別過程的每個步驟找到解決方案,並將當前步驟的結果傳輸到下一個步驟。也就是說,需要將多個機器學習算法組合到一條鏈中。


人臉識別中的深度學習


事實上,對人類而言顯而易見的特徵,如眼睛顏色,對計算機分析圖像中的單個像素沒有意義。研究人員發現,最合適的方法是使計算機能夠確定需要收集的特徵。與此相反,深度學習可以更好更快地識別。


而最近,這個可能性出現了,或者說是被發現了。最開始每個人都不相信神經網絡的表現可以接近人類水平。但在2014年,一切都發生了變化。科學家們決定利用目前最好的兩個網絡——AlexNet、以及Matthew D.Zeiler和Rob Fergus開發的網絡。科學家們將它們與猴子大腦不同區域的反應進行了比較。猴子大腦經過訓練可以識別對象。並且選取的物品都來自動物世界,這樣猴子就不會混淆。


顯然我們不可能從猴子身上獲得反應,因此我們植入了電極,並直接測量每個神經元的反應。結果發現,在正常情況下,腦細胞的反應和當時最先進的模型Matthew Zeiler網絡表現一致。


但是,隨著展示物體的速度加快,圖像中的噪聲和物體數量增加,人類和靈長類動物大腦的識別率和質量顯著下降。而在這種情況下,即使最簡單的卷積神經網絡也能更好地識別物體。也就是說,官方的神經網絡比人類大腦工作得更好。


除了AlexNet和Matthew Zeiler網絡在人臉識別深度學習方面的突破之外,還有其他里程碑式的系統,如DeepFace、DeepID系列系統、VGGFace和FaceNet。如果想更好地理解人臉識別和深度學習是如何一起產生的,瞭解它們的歷史十分必要:


DeepFace是一個基於深度卷積神經網絡的面部識別系統,由Facebook的一個研究小組於2014年創建。它可以識別數字圖像中的人臉,準確率高達97%,是利用深度學習進行人臉識別的重大飛躍。

DeepID(深層隱藏身份特徵)是由Yi Sun等人在2014年題為《預測10000個的預測深度學習面部表徵》的論文中首先提出的一系列系統(DeepID、Deepid2等)。該系統起初和DeepFace相似,但後來出版的論文擴展了該系統,通過對比損失的培訓來支持識別和驗證任務。


VGGface由來自牛津大學視覺幾何學組(VGG)的Omkar Parkhi等人開發,並發表在在2015年的論文——《深層人臉識別》中。工作重點除了放在更好的調整後模型外,還放在如何收集一個非常大的訓練數據集,並用它訓練一個非常深層的CNN人臉識別模型。這一模型使得他們能夠在標準數據集上獲得當時最先進的結果。


FaceNet是一個由谷歌研究人員於2015年開發的人臉識別系統,基於一系列人臉識別基準數據集,在當時是最先進的系統。。得益於模型的多個第三方開放源碼實現和預培訓模型的可用性,FaceNet系統可以廣泛使用。

人臉識別+深度學習,水平遠超人類大腦

留言 點贊 關注

我們一起分享AI學習與發展的乾貨

歡迎關注全平臺AI垂類自媒體 “讀芯術”

"

相關推薦

推薦中...