'AI時代的“數據隱私”與“算法歧視”'

人工智能算法大數據技術軟件數據庫智能手機電腦人臉識別萬物嚐鮮節市場營銷 IBM 深度學習 Velocity 讀書舍恩伯格劉志剛 2019-09-09

文：劉志剛@互聯網江湖主編

如果說近二十年來有哪一項科技成果能夠媲美上個世紀電腦的發明，那麼這份榮譽一定屬於基於深度學習算法的AI技術，因為學習算法的誕生，才使得信息時代海量信息與數據第一次能夠完整的為人們提供可商業化的價值，並將由此開啟人類的“人工智能”時代。

但踏入人工智能時代的人們在獲取諸多技術革新成果的同時也付出了自己的代價：在這個數據即生產力的時代，與互聯網時刻鏈接的我們正在數據AI的時代中不停地“裸奔”。

AI智能，算法，和數據

如今，隨處可見的智能手機、街頭監控、地鐵安檢等設備都不同程度上集成了AI技術，而事實上，當下的“AI智能”只是在線性規劃法則下算法對大數據的高效“檢索”的結果，並通過深度學習不斷完善“檢索模式”和“反饋模式”，不具備真正獨立思考能力，因而也被稱為“弱人工智能”或者“輕人工智能”。

然而，即便是不具備思考能力的AI，在海量數據的分析與處理上相比人力而言仍然具有“革命性”的優勢。而數據、算法、算力作為數據驅動的“準人工智能”的三大要素則決定著AI的能力上限以及價值空間，其中，算法、算力是數據載體，如果將AI算法比作是一臺引擎，那麼數據本身則是AI的“燃料”。

對於大數據，百度百科這樣定義：“指無法在一定時間範圍內用常規軟件工具進行捕捉、管理和處理的數據集合，是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。”IBM則通過5V來表示大數據的特點，即：Volume（大量）、Velocity（高速）、Variety（多樣）、Value（低價值密度）、Veracity（真實性）。

AI與數據的聯繫尤為緊密，一方面，大數據為AI提供數據資源，使其不斷成長進化，另一方面，AI通過數學模型分析，對龐大的數據庫進行分析檢索，充分發掘數據背後的潛在價值。維克托.邁爾-舍恩伯格在《大數據時代》中這樣描述道：“大數據提供的不是最終答案，只是參考答案，為我們提供暫時的幫助，以便等待更好的方法和答案出現。這也提醒我們在使用這個工具的時候，應當懷有謙恭之心，銘記人性之本。”

“數據AI”與個人隱私的“二元對立”

毫無疑問的是，如今已經逐步應用的“數據AI”技術已經很大程度上為我們的生活創造了巨大的便利，如線下人臉識別支付系統的便捷性體驗、安防領域的AI人臉識別應用有效提高安檢效率，基於用戶數據畫像的數字化營銷等。基於“數據AI”人們得以實現有效的風險管控以及行為預測，而伴隨著“數據AI”的商業化應用，人們在享受便利的同時也在承擔著隱私洩露的風險和擔憂。

試想一下，在數據的世界裡，最瞭解你家庭和你社交關係的可能是你習慣性使用的社交軟件，最瞭解你財務狀況的可能是你常用的支付軟件，而知道你購物習慣和消費你能力的則是你常常網購的平臺，如果將這些數據綜合起來，則是一個完整、精確的數據畫像，這些數據一旦洩露，將使你“一絲不掛”完完全全暴露在數據的世界中，被陌生人窺視，甚至被用於非法的商業交易。

此前據《華爾街日報》報道，一位英國某集團子公司CEO接到“老闆”電話，要求其必須在一個小時內轉賬給某“供應商”，成功被使用AI語音克技術的犯罪分子騙取22萬歐元，

不僅AI語音存在著隱私以及安全性問題，事實上，AI視頻換臉也同樣有著隱私安全漏洞。以最近刷屏的AI換臉APP：ZAO為例，隨著熱度的飆升，其廣為詬病的用戶協議以及換臉合成視頻的隱私安全問題也使其陷入輿論的漩渦。究其本因是因為換臉合成視頻觸及了人們心中的隱私紅線：當視頻也可偽造之時，還有什麼樣的證據辨別真實？

目前AI技術的發展需要人們開放數據，而另一方面，在現實中個人數據開放必然會導致數據洩露的風險。目前，大多公司通過其軟件蒐集用戶信息必須通知用戶和取得用戶同意，而據一份調查統計顯示，如果要充分閱讀隱私條款則意味著每年消費者需要多花花費200個小時以上的時間，顯然沒有人願意在這件事情上浪費自己的時間。

從本質上來看，數據開放與隱私保護二者之間原本就是二元對立的雙方，一方的收益必定意味著另一方的風險和損失，而就現階段來看來，並沒有一種有效的“數據黑盒”機制來保證個人數據的絕對安全。而對於剛進入人工智能時代的人們來說，數據的開放也成為一種“趨勢”，在數據生產力的時代中，由數據整合、流通、數據反饋等為主體的“數據價值創造”將帶來飛躍式的效率提升。

數據價值與隱私權利的動態均衡“妥協”

人們對於數據的洩露的擔憂源自於對切身利益的擔憂，事實上，開放數據的人們也同樣可以獲得AI帶來的便利服務，一份調查顯示，在對自身沒有任何影響，且能保證數據絕對安全的情況下，還是有相當一部分人願意分享涉及隱私的相關數據。

另一方面，對於一些不願意分享自身數據的人來說，路人無意識的行為也可在AI技術下造成個人數據洩露的可能，比如說在廣場上牌照的人可能會拍到一些路人的面部數據，而在人臉識別技術下這些路人會被識別，數據會被儲存，對於他們來說，未知意願下創造的數據就決定了其在未來有數據洩露的風險。

另外，數據本身的價值也成為數據洩露的原因之一，事實上基於智能手機的信息採集要比其它方式更加容易，通過智能手機的後門軟件，可以採集你的手機號，通訊錄等信息。如果用戶沒有足夠的安全意識，很多軟件安裝都默認採集各種信息的，通過智能手機唯一標識信息很容易做到數據的整合與身份信息定位。

由於AI時代的數據資源屬性，大量的用戶數據是企業機構廣告投放優化的關鍵，因而數據開放則意味著巨大的商業價值，巨頭們在生態佈局下，通過全鏈式數據通路可獲得精準、完整的用戶畫像，而巨頭們在數據的商業化上也更加容易。

對於AI技術的提供者而言，數據價值導向下使得數據蒐集是非常必要的，在初期，人們會因為數據被第三方使用而感到不安，從而主張自身的隱私權，實際上，如果數據本身的應用並沒有給用戶造成困擾，並且為其帶來便利的服務，那麼此時會有部分用戶樂於接受分享數據，因而對於數據價值的商業化應用上，AI技術的提供者應該持有更謹慎的態度。

在筆者看來，AI數據時代中，數據的商業化價值和用戶的隱私權利之間需要達到一種動態均衡，即在法律範圍的臨界點內，數據蒐集方與用戶之間需要有一種連接機制，以確保在數據產生者的掌控下，有限度的使用數據的商業價值發掘，在隱私保護與AI技術的便利之間達成妥協。而對於當前隱私法、物權法等相關法律並沒有對數據歸屬權益等明確立法的現狀下，有限度的使用數據仍然需要依靠企業的意識自覺。

數據算法偏差下的“AI歧視”

在大數據時代，數據有著極底的儲存成本，這也意味著在數據驅動的AI時代，一旦有數據生成便很難徹底消除，在數據儲存成本的規模遞減效應下，徹底刪除數據的成本反而更高，因而，數據存在的時間更長，甚至超過創造數據者本身的壽命。而隨著儲存成本的進一步降低，在不久的將來個人數據可能會實現無限期的儲存。

大數據的意義在於不必深究事物“規律性”的同時對於數據分析結論的直接應用，因而大數據常常被用於結果預測，而事實上，基於數據的預測結果也具有時效性，而時效性失效的結果則是基於數據分析的AI交互失真。

也就是說，如果採集的數據本身就具有某種傾向性，則由此訓練而來的AI也自然帶有這樣的傾向性。一項來自於美國的調查研究證明了這一點，在一項基於數據分析的族群預測算法中，算法在預測族群時，通常會把那些身處有歧視歷史地區的人預測為黑人，而事實上,並非如此。

又如在一則STEM（科學、技術、工程、數學）領域招聘廣告投放中，廣告商發現，則這廣告很少投放給女性，而事實上廣告商則希望這則廣告是性別中立的。而在“雙曲貼現”效應下數據的時效性問題導致數據“失準”，進一步引發“算法歧視”的問題。

雙曲貼現又稱為非理性折現，是行為經濟學的一個概念，這個現象描述折現率並不是一個不變量，具體是指人們在對未來的收益評估其價值時，傾向於對較近的時期採用更低的折現率，對較遠的時期採用更高的折現率。

比如，大多數人可能傾向於選擇今天收益60元，而不是一年後拿到100元，因為今天這60元收入可能更有價值，而如果讓人們選擇一年後拿到60元或者兩年後拿到100元，則大多數人會選擇兩年後拿到100元。即人們會因為收益時間上的差異從而做出不同的決策。

因而，在雙曲貼現的情況下，人們短期決策行為所產生的數據將會導致數據本身失準，從而更加容易導致在數據偏差引發的算法偏差後，在應用層面的“算法歧視”。因此，對於數據型AI的使用者而言，在算法的應用層面上也需多一份謹慎和細心。

結尾：

無論是數據AI時代的個人隱私問題還是數據偏差下的“算法歧視”，都是大數據AI發展之路上不可避免的問題，對於人們來說，不論是數據採集端的隱私侵犯，還是AI應用層面的“算法歧視”都是有悖道德甚至法律的邊緣試探。而對於如今尚處“幼年”中的AI技術而言，如何正確的引導、影響其發展，在符合人類價道德觀念以及道德標準之下創造更大的價值，則是“AI造物主”們值得深思的問題。

科技自媒體劉志剛，訂閱號：互聯網江湖，微信號：13124791216，轉載保留作者版權信息，違者必究。

'AI時代的“數據隱私”與“算法歧視”'

相關推薦