'最基本的對抗攻擊形式,為何如此難以防禦?'

"
全文共2637字,預計學習時長5分鐘
"
全文共2637字,預計學習時長5分鐘
最基本的對抗攻擊形式,為何如此難以防禦?

圖片來源:pexels @pixabay


隨著深度神經網絡的出現,機器學習領域的安全問題日益突出。人們對神經網絡的可解釋性提出了質疑,也自然對深度學習模式的安全後果提出了質疑。


對抗攻擊是一種用來尋找圖像或數據的樣本,機器學習模型在這些樣本上完全隨機地運行。除此之外,這些對抗樣本中的網絡輸出可以被製作成任何期望輸出類。隨之而來的結果尤其令人不安。


本文將探討最基本的對抗攻擊形式,並且解釋它們為何如此有效,更重要的是,為何如此難以防禦。

"
全文共2637字,預計學習時長5分鐘
最基本的對抗攻擊形式,為何如此難以防禦?

圖片來源:pexels @pixabay


隨著深度神經網絡的出現,機器學習領域的安全問題日益突出。人們對神經網絡的可解釋性提出了質疑,也自然對深度學習模式的安全後果提出了質疑。


對抗攻擊是一種用來尋找圖像或數據的樣本,機器學習模型在這些樣本上完全隨機地運行。除此之外,這些對抗樣本中的網絡輸出可以被製作成任何期望輸出類。隨之而來的結果尤其令人不安。


本文將探討最基本的對抗攻擊形式,並且解釋它們為何如此有效,更重要的是,為何如此難以防禦。

最基本的對抗攻擊形式,為何如此難以防禦?

該領域的進步使深度神經網絡遭受到了數學算法層面的攻擊,進而導致圖像分類產生錯誤。這些被稱為對抗樣本。上圖是一個非常有名的對抗樣本,分類器以高置信度(99%)將停止標誌分類為時鐘。顯然,這會對無人駕駛汽車帶來巨大威脅,至於其他領域對於這些攻擊也不具有魯棒性。


"
全文共2637字,預計學習時長5分鐘
最基本的對抗攻擊形式,為何如此難以防禦?

圖片來源:pexels @pixabay


隨著深度神經網絡的出現,機器學習領域的安全問題日益突出。人們對神經網絡的可解釋性提出了質疑,也自然對深度學習模式的安全後果提出了質疑。


對抗攻擊是一種用來尋找圖像或數據的樣本,機器學習模型在這些樣本上完全隨機地運行。除此之外,這些對抗樣本中的網絡輸出可以被製作成任何期望輸出類。隨之而來的結果尤其令人不安。


本文將探討最基本的對抗攻擊形式,並且解釋它們為何如此有效,更重要的是,為何如此難以防禦。

最基本的對抗攻擊形式,為何如此難以防禦?

該領域的進步使深度神經網絡遭受到了數學算法層面的攻擊,進而導致圖像分類產生錯誤。這些被稱為對抗樣本。上圖是一個非常有名的對抗樣本,分類器以高置信度(99%)將停止標誌分類為時鐘。顯然,這會對無人駕駛汽車帶來巨大威脅,至於其他領域對於這些攻擊也不具有魯棒性。


最基本的對抗攻擊形式,為何如此難以防禦?

這是怎麼做到的?


發現構建對抗樣本的過程特別有趣。當時,谷歌的研究人員正在使用CIFAR-10數據集對某些圖像進行分類。他們試圖將卡車類的圖像轉換成飛機類的圖像。做法是通過反覆改變卡車圖像的像素值,使其與飛機圖片相似。他們使用預處理圖像分類器將輸入圖像錯誤地分類為飛機,利用反向傳播調整了輸入圖像(卡車)的像素值。完成後,他們注意到分類器以高置信度將卡車圖像分類為飛機。


他們本來認為要讓分類器將輸入圖像標記為飛機,那麼網絡必須將輸入圖像轉換成類似飛機的圖像。看起來很簡單,不是嗎?


然而,事實情況並非如此。輸入圖像看起來仍然像一輛卡車。於是,對抗樣本和對抗攻擊的想法隨著這個小小的實驗應運而生。


"
全文共2637字,預計學習時長5分鐘
最基本的對抗攻擊形式,為何如此難以防禦?

圖片來源:pexels @pixabay


隨著深度神經網絡的出現,機器學習領域的安全問題日益突出。人們對神經網絡的可解釋性提出了質疑,也自然對深度學習模式的安全後果提出了質疑。


對抗攻擊是一種用來尋找圖像或數據的樣本,機器學習模型在這些樣本上完全隨機地運行。除此之外,這些對抗樣本中的網絡輸出可以被製作成任何期望輸出類。隨之而來的結果尤其令人不安。


本文將探討最基本的對抗攻擊形式,並且解釋它們為何如此有效,更重要的是,為何如此難以防禦。

最基本的對抗攻擊形式,為何如此難以防禦?

該領域的進步使深度神經網絡遭受到了數學算法層面的攻擊,進而導致圖像分類產生錯誤。這些被稱為對抗樣本。上圖是一個非常有名的對抗樣本,分類器以高置信度(99%)將停止標誌分類為時鐘。顯然,這會對無人駕駛汽車帶來巨大威脅,至於其他領域對於這些攻擊也不具有魯棒性。


最基本的對抗攻擊形式,為何如此難以防禦?

這是怎麼做到的?


發現構建對抗樣本的過程特別有趣。當時,谷歌的研究人員正在使用CIFAR-10數據集對某些圖像進行分類。他們試圖將卡車類的圖像轉換成飛機類的圖像。做法是通過反覆改變卡車圖像的像素值,使其與飛機圖片相似。他們使用預處理圖像分類器將輸入圖像錯誤地分類為飛機,利用反向傳播調整了輸入圖像(卡車)的像素值。完成後,他們注意到分類器以高置信度將卡車圖像分類為飛機。


他們本來認為要讓分類器將輸入圖像標記為飛機,那麼網絡必須將輸入圖像轉換成類似飛機的圖像。看起來很簡單,不是嗎?


然而,事實情況並非如此。輸入圖像看起來仍然像一輛卡車。於是,對抗樣本和對抗攻擊的想法隨著這個小小的實驗應運而生。


最基本的對抗攻擊形式,為何如此難以防禦?

什麼使得這些樣本具有對抗性?


這些類型攻擊中具有對抗性的部分指的是,預測類與實際類看起來完全不一樣的部分。人們察覺不到這些輸入網絡的微小變化,但是這些微小的變化卻使得攻擊本質上變得具有對抗性。


"
全文共2637字,預計學習時長5分鐘
最基本的對抗攻擊形式,為何如此難以防禦?

圖片來源:pexels @pixabay


隨著深度神經網絡的出現,機器學習領域的安全問題日益突出。人們對神經網絡的可解釋性提出了質疑,也自然對深度學習模式的安全後果提出了質疑。


對抗攻擊是一種用來尋找圖像或數據的樣本,機器學習模型在這些樣本上完全隨機地運行。除此之外,這些對抗樣本中的網絡輸出可以被製作成任何期望輸出類。隨之而來的結果尤其令人不安。


本文將探討最基本的對抗攻擊形式,並且解釋它們為何如此有效,更重要的是,為何如此難以防禦。

最基本的對抗攻擊形式,為何如此難以防禦?

該領域的進步使深度神經網絡遭受到了數學算法層面的攻擊,進而導致圖像分類產生錯誤。這些被稱為對抗樣本。上圖是一個非常有名的對抗樣本,分類器以高置信度(99%)將停止標誌分類為時鐘。顯然,這會對無人駕駛汽車帶來巨大威脅,至於其他領域對於這些攻擊也不具有魯棒性。


最基本的對抗攻擊形式,為何如此難以防禦?

這是怎麼做到的?


發現構建對抗樣本的過程特別有趣。當時,谷歌的研究人員正在使用CIFAR-10數據集對某些圖像進行分類。他們試圖將卡車類的圖像轉換成飛機類的圖像。做法是通過反覆改變卡車圖像的像素值,使其與飛機圖片相似。他們使用預處理圖像分類器將輸入圖像錯誤地分類為飛機,利用反向傳播調整了輸入圖像(卡車)的像素值。完成後,他們注意到分類器以高置信度將卡車圖像分類為飛機。


他們本來認為要讓分類器將輸入圖像標記為飛機,那麼網絡必須將輸入圖像轉換成類似飛機的圖像。看起來很簡單,不是嗎?


然而,事實情況並非如此。輸入圖像看起來仍然像一輛卡車。於是,對抗樣本和對抗攻擊的想法隨著這個小小的實驗應運而生。


最基本的對抗攻擊形式,為何如此難以防禦?

什麼使得這些樣本具有對抗性?


這些類型攻擊中具有對抗性的部分指的是,預測類與實際類看起來完全不一樣的部分。人們察覺不到這些輸入網絡的微小變化,但是這些微小的變化卻使得攻擊本質上變得具有對抗性。


最基本的對抗攻擊形式,為何如此難以防禦?


上圖顯示的是一個對抗攻擊的例子,只要在其中添加一點干擾信息,圖像的類別就會完全改變。一張被分類器正確歸為豬類的豬圖片,在實現對抗攻擊後被歸為客機類。添加的干擾信息看起來是隨機的,但實際上它是經過精心架構的,專門使網絡將圖像錯誤地分類為“客機”。


這種類型的攻擊被稱為白盒攻擊,攻擊者可以通過神經網絡的權重和梯度直接優化單個圖像。此處的白盒表示攻擊者對神經網絡完全開放的訪問。這些攻擊極其難以防範,並且現有技術的圖像分類器很難將對抗樣本準確度降低到絕對0%。但是,更令人震驚的是:


即使在不太開放的訪問設置下,這些攻擊也表現得效果卓越。黑盒對抗攻擊囊括了許多方法,使攻擊者無權訪問網絡參數。此類情況下,攻擊者會訓練自己的圖像分類(或任何機器學習模型)網絡,並在自己的網絡上構建對抗樣本。這些對抗樣本以極高的攻擊精度傳輸到未知網絡。這種做法相當先進,而且非常有趣。那麼,為何這些攻擊如此有效?為何如此難以防禦?


"
全文共2637字,預計學習時長5分鐘
最基本的對抗攻擊形式,為何如此難以防禦?

圖片來源:pexels @pixabay


隨著深度神經網絡的出現,機器學習領域的安全問題日益突出。人們對神經網絡的可解釋性提出了質疑,也自然對深度學習模式的安全後果提出了質疑。


對抗攻擊是一種用來尋找圖像或數據的樣本,機器學習模型在這些樣本上完全隨機地運行。除此之外,這些對抗樣本中的網絡輸出可以被製作成任何期望輸出類。隨之而來的結果尤其令人不安。


本文將探討最基本的對抗攻擊形式,並且解釋它們為何如此有效,更重要的是,為何如此難以防禦。

最基本的對抗攻擊形式,為何如此難以防禦?

該領域的進步使深度神經網絡遭受到了數學算法層面的攻擊,進而導致圖像分類產生錯誤。這些被稱為對抗樣本。上圖是一個非常有名的對抗樣本,分類器以高置信度(99%)將停止標誌分類為時鐘。顯然,這會對無人駕駛汽車帶來巨大威脅,至於其他領域對於這些攻擊也不具有魯棒性。


最基本的對抗攻擊形式,為何如此難以防禦?

這是怎麼做到的?


發現構建對抗樣本的過程特別有趣。當時,谷歌的研究人員正在使用CIFAR-10數據集對某些圖像進行分類。他們試圖將卡車類的圖像轉換成飛機類的圖像。做法是通過反覆改變卡車圖像的像素值,使其與飛機圖片相似。他們使用預處理圖像分類器將輸入圖像錯誤地分類為飛機,利用反向傳播調整了輸入圖像(卡車)的像素值。完成後,他們注意到分類器以高置信度將卡車圖像分類為飛機。


他們本來認為要讓分類器將輸入圖像標記為飛機,那麼網絡必須將輸入圖像轉換成類似飛機的圖像。看起來很簡單,不是嗎?


然而,事實情況並非如此。輸入圖像看起來仍然像一輛卡車。於是,對抗樣本和對抗攻擊的想法隨著這個小小的實驗應運而生。


最基本的對抗攻擊形式,為何如此難以防禦?

什麼使得這些樣本具有對抗性?


這些類型攻擊中具有對抗性的部分指的是,預測類與實際類看起來完全不一樣的部分。人們察覺不到這些輸入網絡的微小變化,但是這些微小的變化卻使得攻擊本質上變得具有對抗性。


最基本的對抗攻擊形式,為何如此難以防禦?


上圖顯示的是一個對抗攻擊的例子,只要在其中添加一點干擾信息,圖像的類別就會完全改變。一張被分類器正確歸為豬類的豬圖片,在實現對抗攻擊後被歸為客機類。添加的干擾信息看起來是隨機的,但實際上它是經過精心架構的,專門使網絡將圖像錯誤地分類為“客機”。


這種類型的攻擊被稱為白盒攻擊,攻擊者可以通過神經網絡的權重和梯度直接優化單個圖像。此處的白盒表示攻擊者對神經網絡完全開放的訪問。這些攻擊極其難以防範,並且現有技術的圖像分類器很難將對抗樣本準確度降低到絕對0%。但是,更令人震驚的是:


即使在不太開放的訪問設置下,這些攻擊也表現得效果卓越。黑盒對抗攻擊囊括了許多方法,使攻擊者無權訪問網絡參數。此類情況下,攻擊者會訓練自己的圖像分類(或任何機器學習模型)網絡,並在自己的網絡上構建對抗樣本。這些對抗樣本以極高的攻擊精度傳輸到未知網絡。這種做法相當先進,而且非常有趣。那麼,為何這些攻擊如此有效?為何如此難以防禦?


最基本的對抗攻擊形式,為何如此難以防禦?

直覺


已有相對大量的防禦措施來解決對抗攻擊問題。然而,任何新提出的防禦機制似乎都會在下一年因遭受到更先進的攻擊而潰敗。

"
全文共2637字,預計學習時長5分鐘
最基本的對抗攻擊形式,為何如此難以防禦?

圖片來源:pexels @pixabay


隨著深度神經網絡的出現,機器學習領域的安全問題日益突出。人們對神經網絡的可解釋性提出了質疑,也自然對深度學習模式的安全後果提出了質疑。


對抗攻擊是一種用來尋找圖像或數據的樣本,機器學習模型在這些樣本上完全隨機地運行。除此之外,這些對抗樣本中的網絡輸出可以被製作成任何期望輸出類。隨之而來的結果尤其令人不安。


本文將探討最基本的對抗攻擊形式,並且解釋它們為何如此有效,更重要的是,為何如此難以防禦。

最基本的對抗攻擊形式,為何如此難以防禦?

該領域的進步使深度神經網絡遭受到了數學算法層面的攻擊,進而導致圖像分類產生錯誤。這些被稱為對抗樣本。上圖是一個非常有名的對抗樣本,分類器以高置信度(99%)將停止標誌分類為時鐘。顯然,這會對無人駕駛汽車帶來巨大威脅,至於其他領域對於這些攻擊也不具有魯棒性。


最基本的對抗攻擊形式,為何如此難以防禦?

這是怎麼做到的?


發現構建對抗樣本的過程特別有趣。當時,谷歌的研究人員正在使用CIFAR-10數據集對某些圖像進行分類。他們試圖將卡車類的圖像轉換成飛機類的圖像。做法是通過反覆改變卡車圖像的像素值,使其與飛機圖片相似。他們使用預處理圖像分類器將輸入圖像錯誤地分類為飛機,利用反向傳播調整了輸入圖像(卡車)的像素值。完成後,他們注意到分類器以高置信度將卡車圖像分類為飛機。


他們本來認為要讓分類器將輸入圖像標記為飛機,那麼網絡必須將輸入圖像轉換成類似飛機的圖像。看起來很簡單,不是嗎?


然而,事實情況並非如此。輸入圖像看起來仍然像一輛卡車。於是,對抗樣本和對抗攻擊的想法隨著這個小小的實驗應運而生。


最基本的對抗攻擊形式,為何如此難以防禦?

什麼使得這些樣本具有對抗性?


這些類型攻擊中具有對抗性的部分指的是,預測類與實際類看起來完全不一樣的部分。人們察覺不到這些輸入網絡的微小變化,但是這些微小的變化卻使得攻擊本質上變得具有對抗性。


最基本的對抗攻擊形式,為何如此難以防禦?


上圖顯示的是一個對抗攻擊的例子,只要在其中添加一點干擾信息,圖像的類別就會完全改變。一張被分類器正確歸為豬類的豬圖片,在實現對抗攻擊後被歸為客機類。添加的干擾信息看起來是隨機的,但實際上它是經過精心架構的,專門使網絡將圖像錯誤地分類為“客機”。


這種類型的攻擊被稱為白盒攻擊,攻擊者可以通過神經網絡的權重和梯度直接優化單個圖像。此處的白盒表示攻擊者對神經網絡完全開放的訪問。這些攻擊極其難以防範,並且現有技術的圖像分類器很難將對抗樣本準確度降低到絕對0%。但是,更令人震驚的是:


即使在不太開放的訪問設置下,這些攻擊也表現得效果卓越。黑盒對抗攻擊囊括了許多方法,使攻擊者無權訪問網絡參數。此類情況下,攻擊者會訓練自己的圖像分類(或任何機器學習模型)網絡,並在自己的網絡上構建對抗樣本。這些對抗樣本以極高的攻擊精度傳輸到未知網絡。這種做法相當先進,而且非常有趣。那麼,為何這些攻擊如此有效?為何如此難以防禦?


最基本的對抗攻擊形式,為何如此難以防禦?

直覺


已有相對大量的防禦措施來解決對抗攻擊問題。然而,任何新提出的防禦機制似乎都會在下一年因遭受到更先進的攻擊而潰敗。

最基本的對抗攻擊形式,為何如此難以防禦?

圖片來源:pexels @Chokniti Khongchum

關於多年來對抗攻擊和防禦的全球計算機視覺頂會(CVPR)論文,此資源庫中作出了良好的總結,可自行查閱:https://github.com/BardOfCodes/adv_summaries/tree/master/cvpr_2018

原因可能如下:


1. 攻擊者總是存在優勢。在這個攻擊和防禦機器學習模型的遊戲中,防禦首先採取行動。人們提出新的對抗防禦,並使用這種防禦機制武裝網絡。但黑盒攻擊者並不在意!對於攻擊者而言,防禦僅僅只是黑盒的另一部分,該部分可以通過更智能的優化技術或更多計算來打破。此外,可能會創建出專門攻擊以破壞某些防禦機制,但是防禦機制只有強大到足以抵禦所有類型的攻擊(類型種類很多)才能表明真正的魯棒性。


2. 攻擊更加容易:優化圖像輸入比訓練神經網絡容易得多。自然而然地就會認為在高維空間(圖像的像素數量)中找到特定的對抗樣本十分困難。但是通過反向傳播,這項任務就是小菜一碟。這是因為使用ReLU激活函數(線性整流函數)時,網絡的輸出相對於其輸入而言是線性的。“但是神經網絡是高度非線性的,這就是它們如此有效的原因……”是的,就神經網絡的參數而言是非線性的,但是談及的卻不是(再次針對ReLU函數的)輸入。


至於輸入,神經網絡只是一個分段線性函數。每個像素乘以權重,加上偏差和最大像素值,仍舊為0。這種情況一再發生。事實上,這是完全分段線性的。這種線性易於優化線性輸入空間(圖像)以生成對抗樣本。此外,雖然每個像素引起的細微變化不會產生視覺差異(對抗性),但是會導致圖像的L-2範數發生急劇變化,從而使網絡對圖片進行錯誤分類。


3. 第三個主要原因是,構建攻擊神經網絡過程的理論模型非常困難。要解決任何問題,準確的問題描述和導致原因的理論模型非常重要。諸如“使神經網絡對所有對抗攻擊具有魯棒性”這樣的問題描述聽起來確實引人注目,但是事實上卻含糊不清。


截至目前,我們還沒有針對攻擊的固定模型。攻擊以各種各樣的形式呈現;隨機制定防禦策略以應對某些攻擊方式的方法並不可取。目前的防禦提出了應對一種特定攻擊的方法,但是同樣的防禦過程卻會使模型容易受到其他十多種形式的攻擊。


非常關鍵的是,首先構建一個包含所有對抗攻擊的理論模型,比如說,通過這個理論模型,所有的攻擊形式都可以得到解釋。通常情況下,該模型必須集中於一般的攻擊程序,而非特定的攻擊形式,如此,它也可以免遭未來新形式的攻擊。


總結

"
全文共2637字,預計學習時長5分鐘
最基本的對抗攻擊形式,為何如此難以防禦?

圖片來源:pexels @pixabay


隨著深度神經網絡的出現,機器學習領域的安全問題日益突出。人們對神經網絡的可解釋性提出了質疑,也自然對深度學習模式的安全後果提出了質疑。


對抗攻擊是一種用來尋找圖像或數據的樣本,機器學習模型在這些樣本上完全隨機地運行。除此之外,這些對抗樣本中的網絡輸出可以被製作成任何期望輸出類。隨之而來的結果尤其令人不安。


本文將探討最基本的對抗攻擊形式,並且解釋它們為何如此有效,更重要的是,為何如此難以防禦。

最基本的對抗攻擊形式,為何如此難以防禦?

該領域的進步使深度神經網絡遭受到了數學算法層面的攻擊,進而導致圖像分類產生錯誤。這些被稱為對抗樣本。上圖是一個非常有名的對抗樣本,分類器以高置信度(99%)將停止標誌分類為時鐘。顯然,這會對無人駕駛汽車帶來巨大威脅,至於其他領域對於這些攻擊也不具有魯棒性。


最基本的對抗攻擊形式,為何如此難以防禦?

這是怎麼做到的?


發現構建對抗樣本的過程特別有趣。當時,谷歌的研究人員正在使用CIFAR-10數據集對某些圖像進行分類。他們試圖將卡車類的圖像轉換成飛機類的圖像。做法是通過反覆改變卡車圖像的像素值,使其與飛機圖片相似。他們使用預處理圖像分類器將輸入圖像錯誤地分類為飛機,利用反向傳播調整了輸入圖像(卡車)的像素值。完成後,他們注意到分類器以高置信度將卡車圖像分類為飛機。


他們本來認為要讓分類器將輸入圖像標記為飛機,那麼網絡必須將輸入圖像轉換成類似飛機的圖像。看起來很簡單,不是嗎?


然而,事實情況並非如此。輸入圖像看起來仍然像一輛卡車。於是,對抗樣本和對抗攻擊的想法隨著這個小小的實驗應運而生。


最基本的對抗攻擊形式,為何如此難以防禦?

什麼使得這些樣本具有對抗性?


這些類型攻擊中具有對抗性的部分指的是,預測類與實際類看起來完全不一樣的部分。人們察覺不到這些輸入網絡的微小變化,但是這些微小的變化卻使得攻擊本質上變得具有對抗性。


最基本的對抗攻擊形式,為何如此難以防禦?


上圖顯示的是一個對抗攻擊的例子,只要在其中添加一點干擾信息,圖像的類別就會完全改變。一張被分類器正確歸為豬類的豬圖片,在實現對抗攻擊後被歸為客機類。添加的干擾信息看起來是隨機的,但實際上它是經過精心架構的,專門使網絡將圖像錯誤地分類為“客機”。


這種類型的攻擊被稱為白盒攻擊,攻擊者可以通過神經網絡的權重和梯度直接優化單個圖像。此處的白盒表示攻擊者對神經網絡完全開放的訪問。這些攻擊極其難以防範,並且現有技術的圖像分類器很難將對抗樣本準確度降低到絕對0%。但是,更令人震驚的是:


即使在不太開放的訪問設置下,這些攻擊也表現得效果卓越。黑盒對抗攻擊囊括了許多方法,使攻擊者無權訪問網絡參數。此類情況下,攻擊者會訓練自己的圖像分類(或任何機器學習模型)網絡,並在自己的網絡上構建對抗樣本。這些對抗樣本以極高的攻擊精度傳輸到未知網絡。這種做法相當先進,而且非常有趣。那麼,為何這些攻擊如此有效?為何如此難以防禦?


最基本的對抗攻擊形式,為何如此難以防禦?

直覺


已有相對大量的防禦措施來解決對抗攻擊問題。然而,任何新提出的防禦機制似乎都會在下一年因遭受到更先進的攻擊而潰敗。

最基本的對抗攻擊形式,為何如此難以防禦?

圖片來源:pexels @Chokniti Khongchum

關於多年來對抗攻擊和防禦的全球計算機視覺頂會(CVPR)論文,此資源庫中作出了良好的總結,可自行查閱:https://github.com/BardOfCodes/adv_summaries/tree/master/cvpr_2018

原因可能如下:


1. 攻擊者總是存在優勢。在這個攻擊和防禦機器學習模型的遊戲中,防禦首先採取行動。人們提出新的對抗防禦,並使用這種防禦機制武裝網絡。但黑盒攻擊者並不在意!對於攻擊者而言,防禦僅僅只是黑盒的另一部分,該部分可以通過更智能的優化技術或更多計算來打破。此外,可能會創建出專門攻擊以破壞某些防禦機制,但是防禦機制只有強大到足以抵禦所有類型的攻擊(類型種類很多)才能表明真正的魯棒性。


2. 攻擊更加容易:優化圖像輸入比訓練神經網絡容易得多。自然而然地就會認為在高維空間(圖像的像素數量)中找到特定的對抗樣本十分困難。但是通過反向傳播,這項任務就是小菜一碟。這是因為使用ReLU激活函數(線性整流函數)時,網絡的輸出相對於其輸入而言是線性的。“但是神經網絡是高度非線性的,這就是它們如此有效的原因……”是的,就神經網絡的參數而言是非線性的,但是談及的卻不是(再次針對ReLU函數的)輸入。


至於輸入,神經網絡只是一個分段線性函數。每個像素乘以權重,加上偏差和最大像素值,仍舊為0。這種情況一再發生。事實上,這是完全分段線性的。這種線性易於優化線性輸入空間(圖像)以生成對抗樣本。此外,雖然每個像素引起的細微變化不會產生視覺差異(對抗性),但是會導致圖像的L-2範數發生急劇變化,從而使網絡對圖片進行錯誤分類。


3. 第三個主要原因是,構建攻擊神經網絡過程的理論模型非常困難。要解決任何問題,準確的問題描述和導致原因的理論模型非常重要。諸如“使神經網絡對所有對抗攻擊具有魯棒性”這樣的問題描述聽起來確實引人注目,但是事實上卻含糊不清。


截至目前,我們還沒有針對攻擊的固定模型。攻擊以各種各樣的形式呈現;隨機制定防禦策略以應對某些攻擊方式的方法並不可取。目前的防禦提出了應對一種特定攻擊的方法,但是同樣的防禦過程卻會使模型容易受到其他十多種形式的攻擊。


非常關鍵的是,首先構建一個包含所有對抗攻擊的理論模型,比如說,通過這個理論模型,所有的攻擊形式都可以得到解釋。通常情況下,該模型必須集中於一般的攻擊程序,而非特定的攻擊形式,如此,它也可以免遭未來新形式的攻擊。


總結

最基本的對抗攻擊形式,為何如此難以防禦?

圖片來源:pexels @Pablo Punk


總之,目前,防禦神經網絡的對抗攻擊仍然是一個難題。難題背後的主要原因在於:混雜著大量對抗攻擊的輸入與輸出之間的線性問題以及難以解釋的參數問題。


目前,攻擊方在對抗樣本方面比防禦方具有顯著優勢。當我們能夠找到所有對抗攻擊背後的統一邏輯時,也就是找到讓它們如此有效的原因,可以考慮創建一個真正具有魯棒性的對抗防禦。創建該防禦可能需要時間,但這是可以做到的。我們可以從諸如差異隱私和密碼學等防禦佔據上風的領域中獲取靈感。

"
全文共2637字,預計學習時長5分鐘
最基本的對抗攻擊形式,為何如此難以防禦?

圖片來源:pexels @pixabay


隨著深度神經網絡的出現,機器學習領域的安全問題日益突出。人們對神經網絡的可解釋性提出了質疑,也自然對深度學習模式的安全後果提出了質疑。


對抗攻擊是一種用來尋找圖像或數據的樣本,機器學習模型在這些樣本上完全隨機地運行。除此之外,這些對抗樣本中的網絡輸出可以被製作成任何期望輸出類。隨之而來的結果尤其令人不安。


本文將探討最基本的對抗攻擊形式,並且解釋它們為何如此有效,更重要的是,為何如此難以防禦。

最基本的對抗攻擊形式,為何如此難以防禦?

該領域的進步使深度神經網絡遭受到了數學算法層面的攻擊,進而導致圖像分類產生錯誤。這些被稱為對抗樣本。上圖是一個非常有名的對抗樣本,分類器以高置信度(99%)將停止標誌分類為時鐘。顯然,這會對無人駕駛汽車帶來巨大威脅,至於其他領域對於這些攻擊也不具有魯棒性。


最基本的對抗攻擊形式,為何如此難以防禦?

這是怎麼做到的?


發現構建對抗樣本的過程特別有趣。當時,谷歌的研究人員正在使用CIFAR-10數據集對某些圖像進行分類。他們試圖將卡車類的圖像轉換成飛機類的圖像。做法是通過反覆改變卡車圖像的像素值,使其與飛機圖片相似。他們使用預處理圖像分類器將輸入圖像錯誤地分類為飛機,利用反向傳播調整了輸入圖像(卡車)的像素值。完成後,他們注意到分類器以高置信度將卡車圖像分類為飛機。


他們本來認為要讓分類器將輸入圖像標記為飛機,那麼網絡必須將輸入圖像轉換成類似飛機的圖像。看起來很簡單,不是嗎?


然而,事實情況並非如此。輸入圖像看起來仍然像一輛卡車。於是,對抗樣本和對抗攻擊的想法隨著這個小小的實驗應運而生。


最基本的對抗攻擊形式,為何如此難以防禦?

什麼使得這些樣本具有對抗性?


這些類型攻擊中具有對抗性的部分指的是,預測類與實際類看起來完全不一樣的部分。人們察覺不到這些輸入網絡的微小變化,但是這些微小的變化卻使得攻擊本質上變得具有對抗性。


最基本的對抗攻擊形式,為何如此難以防禦?


上圖顯示的是一個對抗攻擊的例子,只要在其中添加一點干擾信息,圖像的類別就會完全改變。一張被分類器正確歸為豬類的豬圖片,在實現對抗攻擊後被歸為客機類。添加的干擾信息看起來是隨機的,但實際上它是經過精心架構的,專門使網絡將圖像錯誤地分類為“客機”。


這種類型的攻擊被稱為白盒攻擊,攻擊者可以通過神經網絡的權重和梯度直接優化單個圖像。此處的白盒表示攻擊者對神經網絡完全開放的訪問。這些攻擊極其難以防範,並且現有技術的圖像分類器很難將對抗樣本準確度降低到絕對0%。但是,更令人震驚的是:


即使在不太開放的訪問設置下,這些攻擊也表現得效果卓越。黑盒對抗攻擊囊括了許多方法,使攻擊者無權訪問網絡參數。此類情況下,攻擊者會訓練自己的圖像分類(或任何機器學習模型)網絡,並在自己的網絡上構建對抗樣本。這些對抗樣本以極高的攻擊精度傳輸到未知網絡。這種做法相當先進,而且非常有趣。那麼,為何這些攻擊如此有效?為何如此難以防禦?


最基本的對抗攻擊形式,為何如此難以防禦?

直覺


已有相對大量的防禦措施來解決對抗攻擊問題。然而,任何新提出的防禦機制似乎都會在下一年因遭受到更先進的攻擊而潰敗。

最基本的對抗攻擊形式,為何如此難以防禦?

圖片來源:pexels @Chokniti Khongchum

關於多年來對抗攻擊和防禦的全球計算機視覺頂會(CVPR)論文,此資源庫中作出了良好的總結,可自行查閱:https://github.com/BardOfCodes/adv_summaries/tree/master/cvpr_2018

原因可能如下:


1. 攻擊者總是存在優勢。在這個攻擊和防禦機器學習模型的遊戲中,防禦首先採取行動。人們提出新的對抗防禦,並使用這種防禦機制武裝網絡。但黑盒攻擊者並不在意!對於攻擊者而言,防禦僅僅只是黑盒的另一部分,該部分可以通過更智能的優化技術或更多計算來打破。此外,可能會創建出專門攻擊以破壞某些防禦機制,但是防禦機制只有強大到足以抵禦所有類型的攻擊(類型種類很多)才能表明真正的魯棒性。


2. 攻擊更加容易:優化圖像輸入比訓練神經網絡容易得多。自然而然地就會認為在高維空間(圖像的像素數量)中找到特定的對抗樣本十分困難。但是通過反向傳播,這項任務就是小菜一碟。這是因為使用ReLU激活函數(線性整流函數)時,網絡的輸出相對於其輸入而言是線性的。“但是神經網絡是高度非線性的,這就是它們如此有效的原因……”是的,就神經網絡的參數而言是非線性的,但是談及的卻不是(再次針對ReLU函數的)輸入。


至於輸入,神經網絡只是一個分段線性函數。每個像素乘以權重,加上偏差和最大像素值,仍舊為0。這種情況一再發生。事實上,這是完全分段線性的。這種線性易於優化線性輸入空間(圖像)以生成對抗樣本。此外,雖然每個像素引起的細微變化不會產生視覺差異(對抗性),但是會導致圖像的L-2範數發生急劇變化,從而使網絡對圖片進行錯誤分類。


3. 第三個主要原因是,構建攻擊神經網絡過程的理論模型非常困難。要解決任何問題,準確的問題描述和導致原因的理論模型非常重要。諸如“使神經網絡對所有對抗攻擊具有魯棒性”這樣的問題描述聽起來確實引人注目,但是事實上卻含糊不清。


截至目前,我們還沒有針對攻擊的固定模型。攻擊以各種各樣的形式呈現;隨機制定防禦策略以應對某些攻擊方式的方法並不可取。目前的防禦提出了應對一種特定攻擊的方法,但是同樣的防禦過程卻會使模型容易受到其他十多種形式的攻擊。


非常關鍵的是,首先構建一個包含所有對抗攻擊的理論模型,比如說,通過這個理論模型,所有的攻擊形式都可以得到解釋。通常情況下,該模型必須集中於一般的攻擊程序,而非特定的攻擊形式,如此,它也可以免遭未來新形式的攻擊。


總結

最基本的對抗攻擊形式,為何如此難以防禦?

圖片來源:pexels @Pablo Punk


總之,目前,防禦神經網絡的對抗攻擊仍然是一個難題。難題背後的主要原因在於:混雜著大量對抗攻擊的輸入與輸出之間的線性問題以及難以解釋的參數問題。


目前,攻擊方在對抗樣本方面比防禦方具有顯著優勢。當我們能夠找到所有對抗攻擊背後的統一邏輯時,也就是找到讓它們如此有效的原因,可以考慮創建一個真正具有魯棒性的對抗防禦。創建該防禦可能需要時間,但這是可以做到的。我們可以從諸如差異隱私和密碼學等防禦佔據上風的領域中獲取靈感。

最基本的對抗攻擊形式,為何如此難以防禦?

留言 點贊 關注

我們一起分享AI學習與發展的乾貨

編譯組:陳仁清、殷睿宣

相關鏈接:

https://medium.com/@smkirthishankar/the-unusual-effectiveness-of-adversarial-attacks-e1314d0fa4d3

如需轉載,請後臺留言,遵守轉載規範

"

相關推薦

推薦中...