'新技術背後的道德困境:利用人臉識別技術尋找被拐兒童,為何還無法大規模推廣?'

"

本文刊載於《三聯生活週刊》2019年第29期,原文標題《AI尋親的進步與難題》

今年上半年,全國多個省份都傳來了被拐或走失者尋親成功的消息,這得益於人臉識別技術的進步。但在“科技向善”背後,如何避免新技術的負面影響是對技術使用者的巨大考驗。

記者/王梓輝

"

本文刊載於《三聯生活週刊》2019年第29期,原文標題《AI尋親的進步與難題》

今年上半年,全國多個省份都傳來了被拐或走失者尋親成功的消息,這得益於人臉識別技術的進步。但在“科技向善”背後,如何避免新技術的負面影響是對技術使用者的巨大考驗。

記者/王梓輝

新技術背後的道德困境:利用人臉識別技術尋找被拐兒童,為何還無法大規模推廣?

通過新的跨年齡人臉識別技術,已經有一些被拐已久的兒童找到了他們的親生父母

用一張10年前的照片找到他

如果一個兒童被拐賣了,想找回他有多難?放在當前這個遍佈攝像頭的環境中,也許希望很大;但在10年前,答案是殘酷的。

直到2017年12月,公安部刑偵局副局長陳士渠還記著他幾年前曾督辦過的那個拐賣兒童的案子。主犯在2014年落網前先後拐賣了13個兒童,只找回來了當年拐賣的3個,2008~2010年拐走的10名兒童仍無下落,據說原因是“主犯只交代了3個,如果再交代第4個刑責就有可能加重到死刑”。

負責打拐的警察們不是不努力,他們想過不少辦法。根據專案組自己透露的歷史,2015年,他們曾聯繫了著名刑事相貌專家、中國刑警學院的趙成文教授,依照孩子們的童年照片,畫出他們十幾歲的樣子,專案組再帶著這些畫像到兒童們被賣去的廣東省,提取適齡兒童照片,“用肉眼找出覺得和這個像的”。看了10天,專案組帶回了300餘份疑似照片,組織家長辨認,最終確定了176個疑似對象,但最終無一命中。他們還曾經用肉眼嘗試從十幾萬張可能的照片中拿走失兒童的照片進行比對,就那麼一張一張看,還是沒能找出來。而這就是傳統尋找被拐兒童的方法。

這也讓湯海鵬在2017年12月聽到這個案子後提了一嘴,說騰訊正在做一些跨年齡人臉識別的算法,也許可以試試。當時陳士渠正在騰訊調研,而湯海鵬是騰訊安全管理部安全專家。就這樣,在對話發生千里之外的廣東,籠罩在10名被拐兒童身邊的迷霧終於被撕開了一道縫。

但事情沒有湯海鵬想得那麼容易。簡單來說,人臉識別技術指的是通過比較人臉的視覺特徵信息從而進行身份鑑別的技術。但我們手機上用到的人臉識別技術應用難度沒那麼大,因為它識別的對象就是當下的你,你的臉部特徵不會在短時間內發生劇烈變化。而跨年齡的人臉識別就要難得多,特別是青少年階段,人臉特徵變化最大,許多人長大後回看自己小時候的照片都認不出來。

拿到這個項目之後,湯海鵬回來和騰訊內部負責圖像識別技術研發的優圖團隊交流,他才發現出了很大的問題,因為他們當時根本就不具備這個能力。“當時我們可能也就能夠做到在幾百張成人照片中間,通過一張嬰兒時期的照片找出一個人。”湯海鵬對本刊說。而這種能力顯然無法滿足在幾十萬張照片中找到一個人的需求。

事後回憶起來,其實也只有一線希望。但因為這個項目的特殊性,他們決定盡最大努力試試。辦法只有一個。“就是要讓機器知道,當一個人的面部隨年齡演變時,不變的那些量是什麼。”研究員曉程說。然後他們再把這些面部特徵轉化為對應的計算機語言。

具體來說,這個由十幾位博士組成的團隊自己研發出了一套算法,對0~18歲的人臉成長變化進行了模擬建模,生成可供學習的人臉樣本,然後利用深度神經網絡算法讓機器來學習這些人臉在成長過程中的變化。學習的材料不好找,就用研發人員自己小時候不同時期的照片,分別告訴計算機,“這是一個人1歲的樣子、5歲的樣子、10歲的樣子、20歲的樣子”。

還好計算機技術的進步一般是指數型的。2018年3月,AI比對的成功率提升到了可以一試的程度,第一次比對的時刻也來了。但沒有預想到的問題出現了。“一開始,我們拿到的照片其實是家長自己用手機翻拍的那種,我們拿過來發現信息量損失非常大,根本沒辦法用。”湯海鵬回憶說。只好又跟四川警方商量,說能不能讓這一部分家長把原片送過來,沒想到這個過程又掙扎了幾周。

湯海鵬說,很多家長是不願意送原片的,因為這麼多年過去了,那一張照片可能是他們唯一留下來的孩子的物品,可能沒有其他任何的能夠留下來的東西了,而且這些照片又是分佈在四川好幾個地市不同的家長手上。但沒辦法,警方也只能硬著頭皮去勸說家長們能夠把照片提供過來。湯海鵬現在還記得一個細節,當四川警方收集完了照片,統一拿到上海漕河涇開發區軟件園的優圖實驗室裡時,他們慢慢打開袋子,看到的是好幾個油紙包裹,把油紙一層一層地拆開,裡面才是那一張小小的照片。他們再用數字化高清儀器將照片提取出來,每張照片的大小能從之前的幾百KB變成10MB,終於讓對比有了可行性。

2018年4月,在由警方提供的房間裡,優圖團隊的研究人員把那10張照片放到廣東省方面提供的數據庫裡開始檢測。兩個小時後,電腦上生成了10個文件夾壓縮包,每個文件夾裡有101張照片。第一張照片是被拐兒童的原照片,剩下的100張照片是100個十二三歲左右的兒童,他們以滿分100分制降序排列,分數基本都在75分以上。“75分是萬分之一閾值,80分是十萬分之一閾值,85分是百萬分之一閾值”,湯海鵬說,“以75分為例,如果兩個人臉比對分數超過75,則這兩個人臉是萬里挑一的像”。

這1000張照片被交給了四川警方,警方又找來家長一張張去看,看他們覺得哪個像,這樣再刪選到幾十個;最終經過信息篩查,範圍被縮小到了10張以內,而這個過程用了4個月的時間。最後一個環節就是比對DNA,據說在四川省公安廳,參與打拐的警察們都充滿期待,有人很樂觀,猜測可能會比對上幾個;一個幹了多年警察的老刑偵比較保守,猜兩個。“我們當時都在祈禱,覺得如果能找到一個就已經很謝天謝地了。”湯海鵬說。最後的結果是比對上了4個。

"

本文刊載於《三聯生活週刊》2019年第29期,原文標題《AI尋親的進步與難題》

今年上半年,全國多個省份都傳來了被拐或走失者尋親成功的消息,這得益於人臉識別技術的進步。但在“科技向善”背後,如何避免新技術的負面影響是對技術使用者的巨大考驗。

記者/王梓輝

新技術背後的道德困境:利用人臉識別技術尋找被拐兒童,為何還無法大規模推廣?

通過新的跨年齡人臉識別技術,已經有一些被拐已久的兒童找到了他們的親生父母

用一張10年前的照片找到他

如果一個兒童被拐賣了,想找回他有多難?放在當前這個遍佈攝像頭的環境中,也許希望很大;但在10年前,答案是殘酷的。

直到2017年12月,公安部刑偵局副局長陳士渠還記著他幾年前曾督辦過的那個拐賣兒童的案子。主犯在2014年落網前先後拐賣了13個兒童,只找回來了當年拐賣的3個,2008~2010年拐走的10名兒童仍無下落,據說原因是“主犯只交代了3個,如果再交代第4個刑責就有可能加重到死刑”。

負責打拐的警察們不是不努力,他們想過不少辦法。根據專案組自己透露的歷史,2015年,他們曾聯繫了著名刑事相貌專家、中國刑警學院的趙成文教授,依照孩子們的童年照片,畫出他們十幾歲的樣子,專案組再帶著這些畫像到兒童們被賣去的廣東省,提取適齡兒童照片,“用肉眼找出覺得和這個像的”。看了10天,專案組帶回了300餘份疑似照片,組織家長辨認,最終確定了176個疑似對象,但最終無一命中。他們還曾經用肉眼嘗試從十幾萬張可能的照片中拿走失兒童的照片進行比對,就那麼一張一張看,還是沒能找出來。而這就是傳統尋找被拐兒童的方法。

這也讓湯海鵬在2017年12月聽到這個案子後提了一嘴,說騰訊正在做一些跨年齡人臉識別的算法,也許可以試試。當時陳士渠正在騰訊調研,而湯海鵬是騰訊安全管理部安全專家。就這樣,在對話發生千里之外的廣東,籠罩在10名被拐兒童身邊的迷霧終於被撕開了一道縫。

但事情沒有湯海鵬想得那麼容易。簡單來說,人臉識別技術指的是通過比較人臉的視覺特徵信息從而進行身份鑑別的技術。但我們手機上用到的人臉識別技術應用難度沒那麼大,因為它識別的對象就是當下的你,你的臉部特徵不會在短時間內發生劇烈變化。而跨年齡的人臉識別就要難得多,特別是青少年階段,人臉特徵變化最大,許多人長大後回看自己小時候的照片都認不出來。

拿到這個項目之後,湯海鵬回來和騰訊內部負責圖像識別技術研發的優圖團隊交流,他才發現出了很大的問題,因為他們當時根本就不具備這個能力。“當時我們可能也就能夠做到在幾百張成人照片中間,通過一張嬰兒時期的照片找出一個人。”湯海鵬對本刊說。而這種能力顯然無法滿足在幾十萬張照片中找到一個人的需求。

事後回憶起來,其實也只有一線希望。但因為這個項目的特殊性,他們決定盡最大努力試試。辦法只有一個。“就是要讓機器知道,當一個人的面部隨年齡演變時,不變的那些量是什麼。”研究員曉程說。然後他們再把這些面部特徵轉化為對應的計算機語言。

具體來說,這個由十幾位博士組成的團隊自己研發出了一套算法,對0~18歲的人臉成長變化進行了模擬建模,生成可供學習的人臉樣本,然後利用深度神經網絡算法讓機器來學習這些人臉在成長過程中的變化。學習的材料不好找,就用研發人員自己小時候不同時期的照片,分別告訴計算機,“這是一個人1歲的樣子、5歲的樣子、10歲的樣子、20歲的樣子”。

還好計算機技術的進步一般是指數型的。2018年3月,AI比對的成功率提升到了可以一試的程度,第一次比對的時刻也來了。但沒有預想到的問題出現了。“一開始,我們拿到的照片其實是家長自己用手機翻拍的那種,我們拿過來發現信息量損失非常大,根本沒辦法用。”湯海鵬回憶說。只好又跟四川警方商量,說能不能讓這一部分家長把原片送過來,沒想到這個過程又掙扎了幾周。

湯海鵬說,很多家長是不願意送原片的,因為這麼多年過去了,那一張照片可能是他們唯一留下來的孩子的物品,可能沒有其他任何的能夠留下來的東西了,而且這些照片又是分佈在四川好幾個地市不同的家長手上。但沒辦法,警方也只能硬著頭皮去勸說家長們能夠把照片提供過來。湯海鵬現在還記得一個細節,當四川警方收集完了照片,統一拿到上海漕河涇開發區軟件園的優圖實驗室裡時,他們慢慢打開袋子,看到的是好幾個油紙包裹,把油紙一層一層地拆開,裡面才是那一張小小的照片。他們再用數字化高清儀器將照片提取出來,每張照片的大小能從之前的幾百KB變成10MB,終於讓對比有了可行性。

2018年4月,在由警方提供的房間裡,優圖團隊的研究人員把那10張照片放到廣東省方面提供的數據庫裡開始檢測。兩個小時後,電腦上生成了10個文件夾壓縮包,每個文件夾裡有101張照片。第一張照片是被拐兒童的原照片,剩下的100張照片是100個十二三歲左右的兒童,他們以滿分100分制降序排列,分數基本都在75分以上。“75分是萬分之一閾值,80分是十萬分之一閾值,85分是百萬分之一閾值”,湯海鵬說,“以75分為例,如果兩個人臉比對分數超過75,則這兩個人臉是萬里挑一的像”。

這1000張照片被交給了四川警方,警方又找來家長一張張去看,看他們覺得哪個像,這樣再刪選到幾十個;最終經過信息篩查,範圍被縮小到了10張以內,而這個過程用了4個月的時間。最後一個環節就是比對DNA,據說在四川省公安廳,參與打拐的警察們都充滿期待,有人很樂觀,猜測可能會比對上幾個;一個幹了多年警察的老刑偵比較保守,猜兩個。“我們當時都在祈禱,覺得如果能找到一個就已經很謝天謝地了。”湯海鵬說。最後的結果是比對上了4個。

新技術背後的道德困境:利用人臉識別技術尋找被拐兒童,為何還無法大規模推廣?

27年後,走失兒童的親人第一次通過視頻連線的方式見到了已遠在他鄉的孩子

27年後,走失兒童的親人第一次通過視頻連線的方式見到了已遠在他鄉的孩子,幫助他們聯結起彼此的正是跨年齡人臉識別技術

做好事背後的道德困境

第一次成功後,研究員們持續對算法進行了優化。如曉程所說,在現實條件中,照片的質量、人臉的角度、遮擋、光線都有可能對AI的判斷帶來影響,而他們就要去教AI克服其他因素的影響,獲得儘量多的人臉特徵。今年年初,隨著AI的識別精度提升到接近96%,他們又相繼比對出了3名被拐兒童。

四川的案子之後,陸續又有幾個類似的案子開始嘗試使用這樣的跨年齡人臉識別技術。今年6月,深圳市警方也通過這個技術找到了一個被拐賣19年的孩子。但一個問題出現了:這樣的技術為什麼還沒有大規模推廣到全國,只能以個案的形式一個個推進?

“它要想大規模應用起來需要一個複雜的過程,這是一個層面;還有一個層面就是這個事情本身就很複雜。”湯海鵬用好幾個“複雜”不斷在強調這件事棘手的地方。從理論上來說,如果把全國人的DNA都檢測比對一遍,拐賣兒童的案子不會有一件破不了,但人人都知道,這在實際上是不可能實現的。

複雜的不是技術,是難以落到實處卻又更加觸及根本的倫理道德難題,這也讓看起來很實用的新技術推進起來有些艱難。“這個系統雖說現在已經成熟了,但如果想在全國推廣去用,這個過程會很長,因為要涉及很多要協調的事情,你看我們光一個省的一個案子就協調了好幾個月的時間。”湯海鵬說。

這是技術進步給整個社會帶來的全新挑戰。傳統打拐的方法仍以實地探尋及畫像識別為主,基本的需求協調都在政府部門內。但用AI進行跨年齡的人臉識別會牽扯到其他社會領域的數據使用,比如尋找年齡在18歲以下的兒童需要用到教育部門的數據,而使用這些數據的可能是一家商業機構,這些協調與管理工作是整個監管層面的空白地帶。“比如教育部門也會擔心,他們雖然採集了那些兒童的數據,但是並沒有一個法律規定說哪些事情是明確可以做,哪些事情是明確不可以做的。”一位參與了這次尋親行動的人士對本刊說。

這種難題此前沒有過成熟的解決方案,只能試著往前走。有些決策的過程因為敏感性不便流出。“這裡面有很大的倫理道德難題,我們其實壓力非常大。”湯海鵬現在回想起來語氣還有些沉重。有時道德難題要比技術難題更棘手,“我們只能儘量走得謹慎一些,儘量去避免發生一些負面的影響”。

在那4個比對上的結果出來後,整個尋親團隊在狂喜之餘卻又不得不開始了更激烈的討論,他們試圖對可能出現的負面影響做出周全的準備。“比如我們得到了比對出的前10個結果,但我們該如何去獲得他們的DNA?”湯海鵬反問道。再比如,即使比對出了4個被拐兒童是一個毋庸置疑的好消息,但因為只找到了全部10個被拐兒童中的一部分,這時該不該通知那4個家庭的父母?因為消息一旦流出,可能會影響到後續的尋找工作;但找到了被拐兒童卻長時間不通知他們的父母,這是否又有道德爭議?“其實這個事情看起來是‘科技向善’,但你要真正去做到科技向善真的不是那麼容易。”

“我覺得這些爭議主要是因為新技術迅速發展,使得人們對於目前很多的技術工具該如何使用都不是很有把握。”針對這種情況,中國人民大學法學院副教授兼未來法治研究院執行院長張吉豫在接受本刊採訪時如此評價道。作為人工智能法律方面的專家,她告訴本刊,在這種基於公共利益的、具有高度正當性的應用場景下,是不是可以在原有個人數據使用的規範上做出些許平衡的舉措,也是當前學界探討的重要主題。

一些母親就對本刊表示,如果她知道自己孩子上學用的照片被拿去檢索被拐兒童,她的心理當然會不太舒服。而張吉豫的觀點是,在保護個人隱私的基礎之上,一定要對公共利益進行一定的平衡。“一般來講,‘比例原則’會是一個很重要的衡量指標,就是看這種新的技術是不是為我們社會帶來了新的價值;如果帶來了新的價值,它又損害了其他方面的一些利益和價值,那就要看這個手段是不是必要的。”

“在新技術不斷髮展的情況下,我們的倫理道德也需要大家更多地去發展和適應,對這方面的討論也可以更迅速一點。”她總結說。

打通AI尋親平臺

在湯海鵬的設想中,如果要為AI尋親設想一種常規的使用方法,也許打通全國救助站的系統是一個相對可行的辦法。“因為上面基本都是救助站本身的照片以及主動上傳尋人的照片,所以這個數據是沒有太多爭議的。如果能把我們的技術匹配起來,其實我覺得是有機會常規化的。”

但這種應用場景其實面向的又是另一個群體——走失人群。“因為被拐兒童除非對小時候的記憶印象很深刻,否則他們不會主動上傳自己的照片到這些平臺上,就沒有對比的資料了。”湯海鵬說。

目前全國主要的走失人群尋找平臺是民政部旗下的“全國救助尋親網”,上面有全國各地救助管理機構發佈的受助人員尋親公告。事實上,他們也已經上線了“人臉對比尋親”的功能,而他們使用的人臉識別技術是百度提供的。

2016年,民政部與百度建立了合作,隨後百度為民政救助尋親系統提供了一臺部署了人臉識別技術的服務器。一方面,它在民政救助管理系統內增加了人臉識別功能,被救助人員進入救助站之初,工作人員就可以上傳其照片與百萬級歷史救助數據進行人臉比對,如曾經接受過救助,就能根據記錄快速識別身份,幫助走失人員更快回家。另一方面,家屬和志願者也可以上傳走失人員照片到系統裡,一鍵與救助站內全部滯留人員照片進行實時比對,系統會給出相似度排名較高的結果。

過去5年,來自山東的家庭婦女譚英換作為尋親志願者,已經幫助800多個走失者找回了家庭。她主要靠的還是“笨辦法”,在相關尋親群裡收到家屬發來的照片或視頻信息後,她就會到全國救助尋親網這樣的網絡平臺上尋找可能的對象。“走失人員的家屬不會上網的比較多。”譚英換說,“他們好多都是年紀比較大的,或者是在農村的那種。”如果AI人臉識別沒有得到相似的結果,譚英換會自己再去找一遍。主要技巧就是仔細對比五官和臉形,“你再怎麼變,這個耳朵它總不會怎麼變吧?”如果看到有疑似的對象,就打電話過去詢問細節,這也讓她每個月的話費超過了300元。

雖然譚英換有時會覺得AI識別出的相似度沒那麼高,不過AI人臉識別這兩年還是幫像她這樣的尋親志願者節省了不少工夫。2016年,陝西人張軍宏在父母陪同下到北京就醫,因為患有間接性精神疾病,在就醫過程中,張軍宏於8月7日走失。在長達8個月的尋找期間,兩位年過七旬的老人一直守在路口,拿著尋人啟事向路人不停的詢問。2017年4月,在志願者的提醒和幫助下,將僅有的身份證照片上傳到AI尋人平臺後,系統給出了相似程度較高的8張照片。張父張母經初步查看,確定名叫“陶家俊”的人應該是自己的兒子張軍宏,並最終前往北京昌平中西醫結合醫院救助站成功認親。

根據譚英換的經驗,全國救助尋親網的AI人臉識別系統一般能找出的都是近幾年失蹤的,要是走失已經十幾二十多年的就很難了。“因為有的人走失很多年了,年輕的時候的照片和收留時的照片變化得比較大。”譚英換說。

但技術總是在進步。2017年3月份,百度與專業尋親機構“寶貝回家”展開了合作,也開始將跨年齡的人臉識別技術應用於尋找走失兒童中。首批兩萬多條尋親圖片數據接入系統進行對比評測,初步篩選出了30例疑似案例,並已經在4月份成功找到了第一個走失的兒童,那個案例中的“兒童”已經走失27年了。

陳士渠說,這些兒童被找回,“充分證明人工智能對於查找被拐多年兒童能夠發揮重要作用”。而隨著社會監管的加強,目前全國發生的盜竊、搶奪、拐騙等方式拐賣兒童的案件基本可以做到快偵快破。就在近期,發生在浙江的“女童章子欣失蹤案”也在6天內被偵破。

作為曾經的公安工作者,湯海鵬將人臉識別技術的進步稱作“DNA技術出現後的第二次技術突破”。他唯一提醒的是,在做這種技術創新的時候,一定要記得“技術是雙刃劍”這句老話。“對我們來說,怎麼去運用技術會是一個永遠的考驗。”

"

相關推薦

推薦中...