新聞智能推薦之Tensorflow自動生成標題的研究及應用

FLOW 機器學習圖像處理人工智能極光大數據極光大數據 2017-09-13

引言：

隨著人工智能的快速興起，Google發佈的深度學習框架TensorFlow在短短兩年內，就成為了當前最流行的深度學習項目。

在圖像處理、音頻處理、自然語言處理和推薦系統等場景中，TensorFlow都有著豐富的應用。雖然開源沒多久，但是TensorFlow正在悄然滲透到我們的工作生活當中。

研究背景：

某新聞企業通過接入極光智能推薦系統，在其APP端增加智能推薦模塊,為其用戶私人訂製感興趣的新聞。極光機器學習雲能夠快速、精準的提取每條新聞的主題，並對新聞進行主題分類，藉助極光自有的用戶標籤，向用戶實時的推薦個性化新聞。

通過TensorFlow深度學習框架，在自然語言處理方向，極光已經通過機器學習算法實現了文章標題、摘要和關鍵詞的自動生成功能。

研究方案：

文本自動總結的模型一直都是深度學習中的研究熱點。有一些諸如 TFIDF和TextRank之類常規算法，其基本原理是直接抽取文本中重要的句子。也有一些較為複雜的算法如重新生成新的句子，但效果不佳。目前常用的模型是seq2seq，它是基於Encoder-Decoder的一個結構，首先將原始文本中的句子encode成一個固定大小的向量，然後通過decoder部分一個字符一個字符生成目標句子。

TensorFlow，也就是Tensor和Flow，這就意味著Tensor和Flow是TensorFlow的基礎要素。Tensor意味著數據，Flow意味著流動、計算和映射，這也體現出數據是有向的流動、計算和映射。TensorFlow的結構由會話(session)，圖(graph)，節點(operation)和邊(tensor)組成，它使用圖(graph)來表示計算任務，圖在被稱之為會話(Session)的上下文(context)中執行，其狀態是通過變量(Variable)來維護的，使用feed和fetch可以為任意的操作(arbitrary operation)賦值或者從其中獲取數據。

這篇文章中我們將採用基於Tensorflow的Seq2seq+Attention模型，訓練一個新聞標題自動生成模型。

加入Attention注意力分配機制，是為了使Decoder在生成新的目標句子時，可以得到前面Encoder編碼階段每個字符隱藏層的信息向量，提高生成目標序列的準確度。

數據處理：

樣本數據為該企業新聞客戶端2016年11月份的新聞，超過10M的語料數據，包含新聞標題和新聞正文信息。由於在Encoder編碼階段處理的信息會直接影響到整個模型的效果，所以對新聞數據的預處理工作需要非常細緻。對新聞中的特殊字符、日期、英文、數字以及鏈接都要進行替換處理。

文本預處理後，就是訓練樣本的準備工作。這裡的Source序列，就是新聞的正文內容，待預測的Target目標序列是新聞標題。為了保證效果，正文部分不能過長，這裡設定分詞後的正文不超過100個詞，不足用PAD字符補齊，設定標題不超過20個詞。在生成訓練樣本的時候，定義了create_vocabulary()方法來創建詞典，data_to_id()方法把訓練樣本(train_data.txt)轉化為對應的詞ID。

訓練樣本的數據格式如下：

新聞智能推薦之Tensorflow自動生成標題的研究及應用

算法解析：

Seq2Seq是一個基於輸入的sequence，預測一個未知sequence的模型。模型由Encoder編碼階段和Decoder解碼階段兩部分構成。模型編碼階段Encoder的RNN每次會輸入一個字符代表的向量，將輸入序列編碼成一個固定長度的向量；解碼階段的RNN會一個一個字符地解碼，如預測為X。在訓練階段時會強制將上一步解碼的輸出作為下一步解碼的輸入，即X會作為下一步預測Y時的輸入。

當編碼階段輸入的序列過長時，解碼階段LSTM模型將無法針對最早的輸入序列解碼。Attention注意力分配機制，在解碼階段每一步解碼時，都會有一個輸入，對輸入序列所有隱含層的信息進行加權求和，能夠很好的解決這個問題。

將分詞後的新聞文本數據拆分為訓練樣本和測試樣本，共四個文件:train_data.txt，train_title.txt，test_data.txt，test_title.txt 。新聞正文內容和其對應的新聞標題需要分開存放在兩個文件內，一行為一條新聞樣本。

實證效果：

運行腳本，訓練好的模型將被保存下來，部分預測好的Text Summarizaion如下：

新聞智能推薦之Tensorflow自動生成標題的研究及應用

總結：

隨著互聯網的迅速發展,網絡中的新聞資源呈指數級增長，通過深度學習自動生成的標題往往能很直觀的體現新聞的主題內容，便於讀者快速的瀏覽新聞，準確選擇自己感興趣的內容，節約時間成本，能夠給讀者帶來很好的體驗感。

智能推薦已經成為一種勢不可擋的趨勢，隨著人工智能的發展，算法推薦必將成為內容領域的主流之一。極光即將推出一套完整的智能推薦引擎，模型引入極光用戶標籤，將基於Tensorflow的LSTM主題分類的個性化推薦和非個性化推薦相結合，不僅能很好的解決用戶冷啟動問題，而且可以滿足企業的個性化需求和用戶的實時智能推薦。

相關推薦

'機器學習在智能推薦領域的應用'

"本文所有圖片僅用於交流學習文章作者：翦浩脈脈編輯整理：蔣權內容來源：DataFun AI Talk出品社區：DataFun注：歡迎轉載，轉載請註明出處大家好，今天想和大家討論下相關推薦技術通用的特點及在實踐中的改進點，這也是我們團隊在研發實踐中一些經驗總結。首先，推薦解...

推薦技術人工智能算法新聞技術數學 Spark Python 文章 2019-08-02

偉景智能與咸陽高新區簽署合作協議，建立機器人智能眼應用研究

昨天上午，北京偉景智能科技有限公司與咸陽高新區正式簽署合作協議，公司將在咸陽高新區建立機器人智能眼應用研究中心及生產基地。高新區工會主席王國維、管委會副主...

機器人經濟投資人工智能偉景智能VizumLab 2017-08-28

「MIT研究」AI自動生成維基百科，智能組合互聯網信息

1新智元編譯論文地址：http://people.csail.mit.edu/regina/my_papers/wiki.pdfMIT Computer...

維基百科人工智能麻省理工學院文章新智元 2017-08-26

工業物聯網（IIoT）的應用之發電廠的智能監控與診斷系統

現狀發電行業必須採用新技術來轉變維護和診斷部門的運作方式。美國超過50％的發電能力已超過30年（美國能源協會（EIA）的數據EIA-860，參見：http...

物聯網機器學習能源軟件 2017-05-30

忘掉編程語言吧，微軟想讓計算機自動生成程序｜一週 AI新聞

微軟RobustFill讓計算機自動生成程序| 前沿 |在最近的一項研究中，微軟發佈了自己的深度學習程序生成研究。在該研究中，深度神經網絡學會了遵從用戶的...

編程語言微軟人工智能機器學習 2017-05-04

推薦中...