雷鋒網 AI 科技評論按:在谷歌大腦做人工智能研究的Ian Goodfellow近日在推特上推薦了一篇關於防禦對抗性樣本的論文。這篇論文的內容剛好與他關於測試與驗證方法的文章相呼應,可謂是對他提出的機器學習模型安全性堪憂觀點的實證。
論文簡介
雷鋒網瞭解到,這篇論文的名字為為「Adversarial Example Defenses: Ensembles of Weak Defenses are not Strong」,“防禦對抗性樣本:弱的防禦方式組合起來也不強”,來自UC伯克利大學。論文關注的是機器學習模型面對攻擊性數據時的防禦表現,也就是模型的魯棒性。論文中用生成式的方法修改MNIST和CIFAR-10中的圖片,形成對抗性的樣本,目的是讓分類器對修改後的樣本產生誤判,藉此對分類器的所用防禦方法的效果進行評價。
論文中測試了五種不同的防禦方式
單獨使用降低色深方法(color-depth-reduction defense,能夠減少對大量像素的微小改動,是效果較弱的特徵壓縮方法)
單獨使用空間平滑方法(spatial smoothing,能夠減少對少量像素的大幅改動,是效果較弱的特徵壓縮方法)
降低色深和空間平滑這兩者的組合(“combination of multiple squeezing techniques”,標題所指的“弱的防禦方式的組合”)
使用一組專用識別器,對分類後的圖像再次檢測攻擊性;如果其中有識別器檢測到其對應的攻擊性特徵,就可以通過對分類結果的置信度體現出來(“ensemble of specialists”)
使用三種對抗性攻擊檢測器的組合(“ensemble of detectors”,三種檢測器分別為Gong、Metzen和Feinman)。
下面幾張圖展示的就是測試結果。第一行是原始圖像,通過生成模型修改出的能夠使分類器錯誤分類的攻擊圖像在第二行。
降低色深法防禦CIFAR-10圖像(左),空間平滑法防禦MNIST圖像(右)
空間平滑法防禦CIFAR-10圖像(左),降低色深和空間平滑組合防禦MNIST圖像(右)
降低色深和空間平滑組合防禦CIFAR-10圖像(左),專用識別器防禦MNIST圖像(右)
可以直觀地看到,四種防禦方式的效果都非常有限,每一組中的第二行圖片只有不大的改動,就已經可以導致分類器對樣本的誤判。由於MNIST圖像比較簡單,對於幾種防禦方式,對抗性處理帶來的失真許多時候已經可以看得出來;但CIFAR-10的圖像來說,能夠騙過分類器的變化仍然都是人眼察覺不到的。
為了量化比較,他們也用把對抗性處理帶來的失真(distortion)進行了數值化,雖然幾種方法都不理想,但是所需的失真數量確實還是有所區別,能夠反映防禦能力的高低。
對於第五種防禦方法,論文中還選取了另一種指標,就是自適應的攻擊圖片生成器除了能夠騙過它本來目標的檢測器之外(為了三種中的一種生成一張攻擊圖片,成功率輕鬆達到100%),能否同樣輕鬆地騙過沒有作為目標的檢測器。結果是為騙Metzen生成的圖片(作為source)最容易同樣騙過另外兩種(作為target),而為Feinman生成的就要差一點。
第五種防禦方法裡,三種檢測器的交叉測試結果
總的來說,現有結果表明弱防禦方式的組合並不能顯著提高系統的魯棒性,想要找到能夠高效防禦對抗性樣本的方法還有很長的路要走。
論文中也介紹了他們在生成攻擊圖像過程中的收穫:1. 評估防禦能力的時候要想辦法生成比較強的攻擊圖像,最好不要用FGSM這樣圖快的方法;2. 評估防禦能力的時候最好用自適應性的攻擊圖像生成器,這樣對於攻擊者知道防禦手段的情況也能夠提高安全性。
雷鋒網 AI 科技評論也會對機器學習模型的安全性和隱私保護問題持續給予關注,請關注更多後續文章。
論文地址:https://arxiv.org/abs/1706.04701