Alex Smola論文詳解:準確稀疏可解釋,三大優點兼具的序列數據預測算法LLA| ICML 2017

雷鋒網 AI 科技評論按:近日,ICML2017收錄的一篇論文引起了雷鋒網AI科技評論的注意。這篇關於序列數據預測的論文是 Alex Smola 和他在 CMU 時的兩個博士生 Manzil Zaheer 和 Amr Ahmed 共同完成的,後者目前已經加入谷歌大腦。

Alex Smola是機器學習界的重要人物,他的主要研究領域是可拓展算法、核方法、統計模型和它們的應用,已經發表超過200篇論文並參與編寫多本學術專著。他曾在NICTA、雅虎、谷歌從事研究工作,在2013到2016年間任CMU教授,之後來到亞馬遜任AWS的機器學習總監。MXNet 在去年成為 Amazon AWS 的官方開源平臺,而 MXNet 的主要作者李沐正是 Alex Smola 在 CMU 時的學生。

以下雷鋒網 AI 科技評論就對這篇名為「Latent LSTM Allocation: Joint Clustering and Non-Linear Dynamic Modeling of Sequential Data」(潛LSTM分配:序列數據的聯合聚類和非線性動態建模)的論文做具體的介紹。

Alex Smola論文詳解:準確稀疏可解釋,三大優點兼具的序列數據預測算法LLA| ICML 2017

研究背景

序列數據預測是機器學習領域的一個重要問題,這個問題在文本到用戶行為的各種行為中都會出現。比如在統計學語言建模應用中,研究目標是在給定的語境下預測文本數據的下一個單詞,這和用戶行為建模應用中根據用戶歷史行為預測下一個行為非常類似。準確的用戶行為建模就是提供用戶相關的、個性化的、有用的內容的重要基礎。

一個好的序列數據模型應當準確、稀疏、可解釋,然而目前所有的用戶模型或者文本模型都不能同時滿足這三點要求。目前最先進的序列數據建模方法是使用 LSTM(Long-Short Term Memory)這樣的 RNN 網絡,已經有許多例子證明他們可以有效地捕捉數據中的長模式和短模式,比如捕捉語言中表徵級別的語義,以及捕捉句法規律。但是,這些神經網絡學到的表徵總的來說不具有解釋性,人類也無法訪問。不僅如此,模型所含的參數的數量是和模型能夠預測的單詞類型或者動作類型成正比的,參數數量往往會達到千萬級甚至億級。值得注意的是,在用戶建模任務中,字符級別的 RNN 是不可行的,因為描述用戶行為的往往不是單詞而是 hash 指數或者 URL。

從另一個角度看這個問題,以 LDA 和其它一些變種話題模型為代表的多任務學習潛變量模型,它們是嚴格的非序列數據模型,有潛力很好地從文本和用戶數據中挖掘潛在結構,而且也已經取得了一些商業上的成果。話題模型很熱門,因為它們能夠在不同用戶(或文檔)之間共享統計強度,從而具有把數據組織為一小部分突出的主題(或話題)的能力。這樣的話題表徵總的來說可以供人類訪問,也很容易解釋。

LLA模型

在這篇論文中,作者們提出了 Latent LSTM Allocation(潛LSTM分配,LLA)模型,它把非序列LDA的優點嫁接到了序列RNN上面來。LLA借用了圖模型中的技巧來指代話題(關於一組有關聯的詞語或者用戶行為),方法是在不同用戶(或文檔)和循環神經網絡之間共享統計強度,用來對整個(用戶動作或者文檔)序列中的話題進化變化建模,拋棄了從單個用戶行為或者單詞級別做建模的方法。

LLA 繼承了 LDA 模型的稀疏性和可解釋性,同時還具有 LSTM 的準確率。作者們在文中提供了多個 LLA 的變種,在保持解釋性的前提下嘗試在模型大小和準確率之間找到平衡。如圖1所示,在基於Wikipedia數據集對語言建模的任務中,LLA 取得了接近 LSTM 的準確率,同時從模型大小的角度還保持了與 LDA 相同的稀疏性。作者們提供了一個高效的推理算法用於LLA的參數推理,並在多個數據集中展示了它的功效和解釋性。

Alex Smola論文詳解:準確稀疏可解釋,三大優點兼具的序列數據預測算法LLA| ICML 2017

柱狀圖是參數數量,折線是複雜度。根據圖中示意,在基於 Wikipedia 數據集的語言建模任務中,LLA 比 LDA 的複雜度更低,參數數量也比 LSTM 大大減少。

LLA 把分層貝葉斯模型和 LSTM 結合起來。LLA 會根據用戶的行為序列數據對每個用戶建模,模型還會同時把這些動作分為不同的話題,並且學到所分到的話題序列中的短期動態變化,而不是直接學習行為空間。這樣的結果就是模型的可解釋性非常高、非常簡明,而且能夠捕捉複雜的動態變化。作者們設計了一個生成式分解模型,先用 LSTM 對話題序列建模,然後用 Dirichlet 多項式對單詞散播建模,這一步就和 LDA 很相似。

Alex Smola論文詳解:準確稀疏可解釋,三大優點兼具的序列數據預測算法LLA| ICML 2017

假設話題數目為K、單詞庫大小為V;有一個文檔集D,其中單篇文檔d由Nd個單詞組成。生成式模型的完整流程就可以表示為(上圖 a 的為例):

Alex Smola論文詳解:準確稀疏可解釋,三大優點兼具的序列數據預測算法LLA| ICML 2017

在這樣的模型下,觀察一篇指定的文檔d的邊際概率就可以表示為:

式中,

就是文檔中給定某個話題下的前幾個詞之後,對下一個次生成話題的概率;

則是給定了話題之後生成單詞的概率。這個公式就展現出了對基於 LSTM 和 LDA 的語言模型的簡單改動。

這種修改的好處有兩層,首先這樣可以獲得一個分解模型,參數的數量相比 RRLM 得到了大幅度減少。其次,這個模型的可解釋性非常高。

另一方面,為了實現基於 LLA 的推理算法,作者們用隨機 EM 方法對模型表示進行了近似,並設計了一些加速採樣方法。模型偽碼如下:

Alex Smola論文詳解:準確稀疏可解釋,三大優點兼具的序列數據預測算法LLA| ICML 2017

LLA變體

作者們認為,模型直接使用原始文本會比使用總結出的主題有更好的預測效果。所以在 Topic LLA之外,又提出了兩個變體 Word LLA 和 Char LLA (前文 a、b、c 三個模型),分別能夠直接處理原文本的單詞和字符(Char LLA自己會對字符串做出轉換,從而緩和 Word LLA 單詞庫過大的問題 )。

Alex Smola論文詳解:準確稀疏可解釋,三大優點兼具的序列數據預測算法LLA| ICML 2017

實驗結果

在幾個實驗中,作者們把60%的數據用於訓練模型,讓模型預測其餘40%作為任務目標。同步對比的模型有自動編碼器(解碼器)、單詞級別LSTM、字符級別LSTM、LDA、Distance-dependent LDA。

Alex Smola論文詳解:準確稀疏可解釋,三大優點兼具的序列數據預測算法LLA| ICML 2017Alex Smola論文詳解:準確稀疏可解釋,三大優點兼具的序列數據預測算法LLA| ICML 2017

柱狀圖部分的參數數量用來體現模型大小,折現的複雜度用於體現模型的準確率。可以看到,兩個任務中 LDA 仍然保持了最小的模型大小,而單詞級別LSTM表現出了最高的準確率,但模型大小要高出一個數量級;從單詞級別LSTM到字符級別LSTM,模型大小基本減半,準確度也有所犧牲。

在這樣的對比之下就體現出了 LLA 的特點,在保持了與 LDA 同等的解釋性的狀況下,能夠在模型大小和準確度之間取得更好的平衡(目標並不是達到比LSTM更高的準確率)。

其它方面的對比如下:

收斂速度LLA的收斂速度並沒有什麼劣勢,比快速LDA採樣也只慢了一點點。不過基於字符的LSTM和LLA都要比其它的變體訓練起來慢一些,這是模型本質導致的,需要在單詞和字符層面的LSTM都做反向傳播。

Alex Smola論文詳解:準確稀疏可解釋,三大優點兼具的序列數據預測算法LLA| ICML 2017

特徵效率作者們做了嘗試,只具有250個話題的三種 LLA 模型都比具有1000個話題的 LDA 模型有更高的準確率。這說明 LLA 的特徵效率更高。從另一個角度說,LLA 的表現更好不是因為模型更大,而是因為它對數據中的順序有更好的描述能力。

Alex Smola論文詳解:準確稀疏可解釋,三大優點兼具的序列數據預測算法LLA| ICML 2017

解釋性LLA和LDA都能對全局主題做出揭示,LLA 總結出的要更加明確。如下表,LDA 會總結出“Iowa”,僅僅因為它在不同的文檔中都出現了;而 LLA 追蹤短期動態的特性可以讓它在句子的不同位置正確切換主題。

Alex Smola論文詳解:準確稀疏可解釋,三大優點兼具的序列數據預測算法LLA| ICML 2017

聯合訓練由於論文中的模型可以切分為 LDA 和 LSTM 兩部分,作者們也對比了“聯合訓練”和“先訓練 LDA,再在話題上訓練 LSTM”兩種不同訓練方式的效果。結果表明,聯合訓練的效果要好很多,因為單獨訓練的 LDA 中產生的隨機錯誤也會被之後訓練的 LSTM 學到,LSTM 的學習表現就是由 LDA 的序列生成質量決定的。所以聯合訓練的狀況下可以提高 LDA 的表現,從而提高了整個模型的表現。

Alex Smola論文詳解:準確稀疏可解釋,三大優點兼具的序列數據預測算法LLA| ICML 2017

論文地址:http://proceedings.mlr.press/v70/zaheer17a.html

雷鋒網 AI 科技評論編譯整理。