'注意力機制不能提高模型可解釋性?不,你這篇論文搞錯了'

自然語言處理 人工智能 機器之心 2019-09-13
"

選自arXiv

作者:Sarah Wiegreffe、Yuval Pinter

機器之心編譯

參與:魔王、張倩

最近,很多研究人員對注意力機制能否解釋模型預測提出了疑問,比如今年 2 月份的論文《Attention is not Explanation》。而今天要介紹的這項研究針鋒相對地反駁了上述論文,從標題中我們就可以看出來:Attention is not not Explanation VS. Attention is not Explanation。

"

選自arXiv

作者:Sarah Wiegreffe、Yuval Pinter

機器之心編譯

參與:魔王、張倩

最近,很多研究人員對注意力機制能否解釋模型預測提出了疑問,比如今年 2 月份的論文《Attention is not Explanation》。而今天要介紹的這項研究針鋒相對地反駁了上述論文,從標題中我們就可以看出來:Attention is not not Explanation VS. Attention is not Explanation。

注意力機制不能提高模型可解釋性?不,你這篇論文搞錯了

注意力機制在 NLP 系統中起著重要作用,尤其是對於循環神經網絡(RNN)模型。那麼注意力模塊提供的中間表徵能否解釋模型預測的推理過程,進而幫助人們瞭解模型的決策過程呢?近期,很多研究人員對這個話題產生了濃厚的興趣。一篇題目為《Attention is not Explanation》(Jain and Wallace, 2019) 的論文表示,注意力機制並不能提高模型的可解釋性。

這篇論文在多個自然語言處理任務上進行了實驗,以評估注意力權重能夠對模型預測提供何種程度上的有意義的「解釋」。其結果表明:注意力權重基本上無法提高模型可解釋性。例如,學習到的注意力權重通常與基於梯度的特徵重要性度量沒有關聯,而且他們發現非常不同的注意力分佈可以帶來同樣的預測。

來自佐治亞理工學院的 Sarah Wiegreffe 和 Yuval Pinter 挑戰了這篇論文中的一些假設,認為其論斷依賴「解釋」(explanation)的定義,且測試該論斷是否正確需要考慮模型的所有元素,使用更加嚴謹的實驗設計。因此 Wiegreffe 和 Pinter 提出四種替代性測試方法,來確定注意力何時可用作「解釋」、是否能作為「解釋」,這四種方法分別是:簡單的統一權重基線、基於多次隨機種子運行的方差校準、使用預訓練模型固定權重的診斷框架、端到端對抗注意力訓練協議。

每一種方法都證明 RNN 模型中的注意力機制可以提供有意義的「解釋」。該研究證明,即使存在可靠的對抗分佈,它們在簡單的診斷框架上也無法取得很好的性能,這表明《Attention is not Explanation》並沒有駁倒「注意力機制可以提高模型可解釋性」的說法。

《Attention is not not Explanation》寫了啥

目前,注意力機制在 NLP 領域非常常見,它能否為模型預測提供解釋也是一個熱門話題。

近期研究《Attention is not Explanation》指出了一些可能導致研究者誤用注意力分數解釋模型行為的陷阱,其前提是可解釋性注意力分佈應該與其他特徵重要性度量一致且對於給定預測具備排他性。

其核心論點是,如果可以找到使得輸出結果與原始模型輸出類似的其他注意力分佈,則原始模型的注意力分數無法可靠地解釋模型預測。

而 Wiegreffe 和 Pinter 則認為,儘管上述論文提出了一個重要問題,對使用注意力權重解釋模型在英文數據集上的預測結果可能存在潛在誤用提出擔憂,但其實驗設計中使用的一些核心假設在設置上存在很大的自由度,最終導致人們無法採取可行的方式衡量注意力分佈在特定設置下的效用。

Wiegreffe 和 Pinter 提出一種更加模型驅動(model-driven)的方法來解決這一問題。他們證明,在一些數據集上,固定注意力分佈與學習到的注意力權重效果一樣好,從而得出結論:在這些案例中,隨機分佈或對抗擾動分佈不能證明注意力無法作為「解釋」。

《Attention is not Explanation》為什麼認為「注意力機制不能提高模型可解釋性」?

Wiegreffe 和 Pinter 介紹了《Attention is not Explanation》中的實驗設計,並查看了其作者認為可以支撐「注意力不能提高模型可解釋性」的實驗結果。

Jain 和 Wallace 在實驗中選取了八個分類數據集(大部分是二分類)和兩個問答任務。他們首先展示了注意力分數和其他可解釋性度量之間的關聯分析,發現注意力與其他可靠的特徵重要性度量(基於梯度的方法和留一法)之間不具備強相關,而後者彼此之間互相關聯。

他們基於實驗提出了關於一致性的論斷:如果基於注意力的可解釋方法與其他特徵重要性度量之間不具備強相關,則「注意力能夠提高模型可解釋性」的觀點並不準確。

接下來,Jain 和 Wallace 提出了一種替代性對抗注意力分佈,它可以最小程度地改變模型預測結果。為此,他們控制訓練好的模型的注意力分佈(以下稱之為 base),來判別是否存在替代性分佈使得模型輸出接近原始預測。

他們使用這些實驗結果作為論據,來支持「由於注意力分佈不具備排他性,因而它們無法用於解釋模型」的論點。

值得注意的是,Jain 和 Wallace 把注意力分佈和預訓練網絡輸出層與用於計算它們的參數分離開來,將每個注意力分數看作獨立於模型的單獨單元。此外,他們還為每個實例單獨計算對抗分佈。

「注意力機制不能提高模型可解釋性」的觀點錯在哪兒?

佐治亞理工學院的研究使用了四個量化實驗。如下圖 1 所示,左側圖中的每個花括號表示每個實驗中對於標準 RNN-with-attention 架構操縱的組件。Wiegreffe 和 Pinter 鼓勵 NLP 研究人員在自己的注意力模型上使用他們提出的方法,來評估注意力模塊提供模型可解釋性的效果。

  • 研究代碼將於 9 月初開源:https://github.com/sarahwie/attention
"

選自arXiv

作者:Sarah Wiegreffe、Yuval Pinter

機器之心編譯

參與:魔王、張倩

最近,很多研究人員對注意力機制能否解釋模型預測提出了疑問,比如今年 2 月份的論文《Attention is not Explanation》。而今天要介紹的這項研究針鋒相對地反駁了上述論文,從標題中我們就可以看出來:Attention is not not Explanation VS. Attention is not Explanation。

注意力機制不能提高模型可解釋性?不,你這篇論文搞錯了

注意力機制在 NLP 系統中起著重要作用,尤其是對於循環神經網絡(RNN)模型。那麼注意力模塊提供的中間表徵能否解釋模型預測的推理過程,進而幫助人們瞭解模型的決策過程呢?近期,很多研究人員對這個話題產生了濃厚的興趣。一篇題目為《Attention is not Explanation》(Jain and Wallace, 2019) 的論文表示,注意力機制並不能提高模型的可解釋性。

這篇論文在多個自然語言處理任務上進行了實驗,以評估注意力權重能夠對模型預測提供何種程度上的有意義的「解釋」。其結果表明:注意力權重基本上無法提高模型可解釋性。例如,學習到的注意力權重通常與基於梯度的特徵重要性度量沒有關聯,而且他們發現非常不同的注意力分佈可以帶來同樣的預測。

來自佐治亞理工學院的 Sarah Wiegreffe 和 Yuval Pinter 挑戰了這篇論文中的一些假設,認為其論斷依賴「解釋」(explanation)的定義,且測試該論斷是否正確需要考慮模型的所有元素,使用更加嚴謹的實驗設計。因此 Wiegreffe 和 Pinter 提出四種替代性測試方法,來確定注意力何時可用作「解釋」、是否能作為「解釋」,這四種方法分別是:簡單的統一權重基線、基於多次隨機種子運行的方差校準、使用預訓練模型固定權重的診斷框架、端到端對抗注意力訓練協議。

每一種方法都證明 RNN 模型中的注意力機制可以提供有意義的「解釋」。該研究證明,即使存在可靠的對抗分佈,它們在簡單的診斷框架上也無法取得很好的性能,這表明《Attention is not Explanation》並沒有駁倒「注意力機制可以提高模型可解釋性」的說法。

《Attention is not not Explanation》寫了啥

目前,注意力機制在 NLP 領域非常常見,它能否為模型預測提供解釋也是一個熱門話題。

近期研究《Attention is not Explanation》指出了一些可能導致研究者誤用注意力分數解釋模型行為的陷阱,其前提是可解釋性注意力分佈應該與其他特徵重要性度量一致且對於給定預測具備排他性。

其核心論點是,如果可以找到使得輸出結果與原始模型輸出類似的其他注意力分佈,則原始模型的注意力分數無法可靠地解釋模型預測。

而 Wiegreffe 和 Pinter 則認為,儘管上述論文提出了一個重要問題,對使用注意力權重解釋模型在英文數據集上的預測結果可能存在潛在誤用提出擔憂,但其實驗設計中使用的一些核心假設在設置上存在很大的自由度,最終導致人們無法採取可行的方式衡量注意力分佈在特定設置下的效用。

Wiegreffe 和 Pinter 提出一種更加模型驅動(model-driven)的方法來解決這一問題。他們證明,在一些數據集上,固定注意力分佈與學習到的注意力權重效果一樣好,從而得出結論:在這些案例中,隨機分佈或對抗擾動分佈不能證明注意力無法作為「解釋」。

《Attention is not Explanation》為什麼認為「注意力機制不能提高模型可解釋性」?

Wiegreffe 和 Pinter 介紹了《Attention is not Explanation》中的實驗設計,並查看了其作者認為可以支撐「注意力不能提高模型可解釋性」的實驗結果。

Jain 和 Wallace 在實驗中選取了八個分類數據集(大部分是二分類)和兩個問答任務。他們首先展示了注意力分數和其他可解釋性度量之間的關聯分析,發現注意力與其他可靠的特徵重要性度量(基於梯度的方法和留一法)之間不具備強相關,而後者彼此之間互相關聯。

他們基於實驗提出了關於一致性的論斷:如果基於注意力的可解釋方法與其他特徵重要性度量之間不具備強相關,則「注意力能夠提高模型可解釋性」的觀點並不準確。

接下來,Jain 和 Wallace 提出了一種替代性對抗注意力分佈,它可以最小程度地改變模型預測結果。為此,他們控制訓練好的模型的注意力分佈(以下稱之為 base),來判別是否存在替代性分佈使得模型輸出接近原始預測。

他們使用這些實驗結果作為論據,來支持「由於注意力分佈不具備排他性,因而它們無法用於解釋模型」的論點。

值得注意的是,Jain 和 Wallace 把注意力分佈和預訓練網絡輸出層與用於計算它們的參數分離開來,將每個注意力分數看作獨立於模型的單獨單元。此外,他們還為每個實例單獨計算對抗分佈。

「注意力機制不能提高模型可解釋性」的觀點錯在哪兒?

佐治亞理工學院的研究使用了四個量化實驗。如下圖 1 所示,左側圖中的每個花括號表示每個實驗中對於標準 RNN-with-attention 架構操縱的組件。Wiegreffe 和 Pinter 鼓勵 NLP 研究人員在自己的注意力模型上使用他們提出的方法,來評估注意力模塊提供模型可解釋性的效果。

  • 研究代碼將於 9 月初開源:https://github.com/sarahwie/attention
注意力機制不能提高模型可解釋性?不,你這篇論文搞錯了

圖 1:帶注意力的 LSTM 分類模型圖示,圖中包括《Attention is not Explanation》和《Attention is not not Explanation》的實驗部分操縱或替換的組件。

Wiegreffe 和 Pinter 認為,出於以下原因,《Attention is not Explanation》中反事實的注意力權重實驗無法支撐其論文的論點。

1. 注意力分佈不是原語(Primitive)

從建模角度來看,分離模型各部分獲得的注意力分數(即注意力機制)會降低模型性能。base 注意力權重並非由模型隨機分配,而是通過必備組件計算得到,該組件的參數與其他層一同訓練,它們的運行也互相依賴。

《Attention is not Explanation》提供了可帶來類似預測結果的替代性分佈,但是研究過程中移除了激發注意力分佈可解釋性的連接,即注意力模型需要關注其選擇的 token。

2. 存在並不意味著排他

從更偏理論的角度來看,Wiegreffe 和 Pinter 認為注意力分數可以提供可解釋性,但不是唯一的可解釋性。LSTM 模型的最後一層能夠用多種方式輕鬆產生可被聚合為相同預測值的輸出,但是模型仍然使用其訓練得到的注意力模塊選擇特定的權重分佈。

這一具備數學靈活度的輸出能力在二分類器中尤為明顯。二分類器的預測值是一個標量,(IMDB 數據集的)平均實例包含 179 個 token,即模型輸出需要聚合 179 個標量。

在每個實例上單獨執行時,該效應會顯著加強。因此,也難怪 Jain 和 Wallace 在這種自由度下找到了他們尋找的東西。

總之,由於《Attention is not Explanation》中的展示本質上是按實例進行的,且模型參數並非直接學得或操縱,因此 Jain 和 Wallace 並未證明能夠輸出對抗分佈的對抗模型。也就是說,我們不能將這些對抗注意力作為模型預測同等可靠的「解釋」。此外,他們沒有提供學習到的注意力分佈的期望變化基線,這使得讀者疑惑他們發現的對抗分佈到底對抗程度如何。

你需要注意力是什麼樣,它就是什麼樣

注意力能否解釋模型取決於每個人對「解釋」的定義:合理和/或可靠的解釋。Wiegreffe 和 Pinter 認為,《Attention is not Explanation》和《Attention is not not Explanation》的實驗結果都無法證明「注意力機制不能提高模型可解釋性」。

但是,Wiegreffe 和 Pinter 確認了《Attention is not Explanation》中的原始假設:在一些分類任務中,LSTM 模型可以找到對抗分佈。這可以阻止研究人員依靠注意力分佈為模型預測提供可靠的可解釋性。同時,該研究提供了一些實驗,研究人員可以利用這些實驗,在解釋模型預測時,對模型注意力機制的質量做出明智的判斷。

"

相關推薦

推薦中...