'用自然語言處理給《了不起的蓋茨比》做個摘要總結'

了不起的蓋茨比比爾·蓋茨自然語言處理人工智能 Facebook 小說通信發現佩奇古騰堡計劃文學 AI中國 2019-09-12

點擊上方關注，All in AI中國

《了不起的蓋茨比》是一部引人入勝且令人興奮的文學作品。它的中心主題貫穿整本小說，其中談論到了社會和階級、財富和地位，現在和過去的主題。

在本文中，我們將使用自然語言處理（NLP）中的一些方法來總結TGG。 NLP是人工智能和機器學習的子領域，分析計算機如何處理和理解有機通信方法（例如書面語言）。雖然這些流行語可能令人生畏，但潛在的概念卻並非如此。

清潔和聚合TGG

在我們做任何總結之前，我們需要實際掌握這本書。我們從Project Gutenberg Australia提供的副本開始。首先，我們需要刪除停用詞，比如，“在”、“面”、“也”、“的”、“它”、“為”等詞。這些詞是創建格式良好的句子所必需的，但它們不會增加容易辨別的含義，並且它們可以扭曲詞頻分析，我們將在這裡使用停用詞列表。其次，我們將TGG分解為（鍵、值）對的映射。我們地圖中的鍵將是完整的句子（帶有停用詞和所有內容），值將是表示句子的清理版本的數組。

點擊上方關注，All in AI中國

清潔和聚合TGG

馬可夫鏈與餘弦相似

對於那些不熟悉圖論的人來說，它非常簡單。基本圖有兩部分：節點和邊。節點代表人、電話號碼或城市等真實世界的概念。邊是兩個節點之間的連接，圖表的一個常見示例是Facebook，節點將是Facebook用戶。如果這兩個Facebook用戶是朋友，那麼兩個節點之間會有一個邊。

點擊上方關注，All in AI中國

清潔和聚合TGG

馬可夫鏈與餘弦相似

出於我們的目的，我們將把TGG表示為一個圖表，我們每個句子都有一個節點，並且兩個節點之間將具有等於其句子相似性的邊緣（我們將在一秒鐘內得到它）。但是，在此之前，為什麼這種表述有幫助？

這允許我們將TGG表示為馬爾可夫鏈。馬爾可夫鏈是一種概率模型，通過定義從一種狀態轉換到另一種狀態的概率來描述狀態序列。

假設我想用馬爾可夫鏈表示駕駛的地方。只標記我只開車往返的4個地方：家、工作、商店和健身房。對於每個可能的位置，我有可能開車到不同的位置。這在下面會以圖形方式說明。如果節點未連接，則概率為0％。在下圖中，我發現我從未在沒有先回家的情況下在商店和健身房之間開車。

點擊上方關注，All in AI中國

清潔和聚合TGG

馬可夫鏈與餘弦相似

這允許我們將TGG表示為馬爾可夫鏈。馬爾可夫鏈是一種概率模型，通過定義從一種狀態轉換到另一種狀態的概率來描述狀態序列。

我們可以使用這個馬爾可夫鏈來找到我將在任何給定位置的平穩概率。在上圖中，直覺上我很可能在任何給定時間都在家。這是因為有很多節點以很高的概率指向家庭。

現在，回到蓋茨比！讓我們將兩個句子之間的轉移概率定義為等於兩個句子之間的餘弦相似度。然後我們將找到馬爾可夫鏈的平穩概率分佈。具有最高靜止概率的句子是在我們的圖中連接最緊密的節點。在下面的示例中，節點A可能具有最高的靜止概率。

點擊上方關注，All in AI中國

清潔和聚合TGG

馬可夫鏈與餘弦相似

這允許我們將TGG表示為馬爾可夫鏈。馬爾可夫鏈是一種概率模型，通過定義從一種狀態轉換到另一種狀態的概率來描述狀態序列。

高度連接的節點將具有高靜止概率。這些節點應該表示關鍵主題的摘要，因為這些節點與許多其他句子最相關。但是，在我們超越自己之前，我們需要定義餘弦相似度。

假設我們有兩句話 - “傑克和吉爾上山”和“吉爾和傑克跑下山”。餘弦相似性將這些句子視為單詞的向量，並使用下面的公式度量它們的重疊。餘弦相似度計算兩個單詞向量的點積，並將其除以每個向量大小的乘積。

點擊上方關注，All in AI中國

清潔和聚合TGG

馬可夫鏈與餘弦相似

這允許我們將TGG表示為馬爾可夫鏈。馬爾可夫鏈是一種概率模型，通過定義從一種狀態轉換到另一種狀態的概率來描述狀態序列。

現在我們都準備好了。我們將把圖表表示為矩陣。索引（X，Y）處的值將是句子X和句子Y之間的餘弦相似度。該值是句子X和句子Y之間的轉換概率。我們將使用這些轉移概率來找到每個節點的平穩概率。

點擊上方關注，All in AI中國

清潔和聚合TGG

馬可夫鏈與餘弦相似

這允許我們將TGG表示為馬爾可夫鏈。馬爾可夫鏈是一種概率模型，通過定義從一種狀態轉換到另一種狀態的概率來描述狀態序列。

在馬爾可夫鏈中找到平穩概率相對簡單。我們可以重複地將轉移概率矩陣乘以它們直到達到一個穩定的狀態 - 當所有轉移概率都收斂到單個值時，一個更有效的解決方案是使用左特徵向量。

既然我們有一個穩態，我們可以尋找最高的概率，具有最高穩態概率的句子在下面。

“我是蓋茨比，”他突然說道。
“你們兩個回家吧，黛西，”湯姆表示， “在蓋茨比先生的車裡。”
“我告訴過你我去了那裡，”蓋茨比說。
“我希望你和黛西過來我家，”他說，“我想帶她去看看。”
她告訴他，她愛他，湯姆布坎南看到了。他很震驚，他的嘴張開了一點，他看著蓋茨比，然後又回頭看了看黛西，好像他剛剛認出她是他很久以前就知道的那個人。

現在，數據科學中最有趣的部分來了，得出我們的數據不支持的結論。我們來評估下面的摘要。

在我們的最後一句話中，黛西告訴蓋茨比她愛他，而她的丈夫湯姆布坎南看到了。這句話捕捉了蓋茨比、黛西和湯姆之間複雜的關係。在我們的第四句中，我們看到蓋茨比希望在他的房子周圍展示黛西。如果黛西看到他現在變得富有並且成功，他會相信黛西會想和他在一起。這抓住了蓋茨比以他目前的成功來掩蓋他過去的掙扎，這是小說的核心主題。我們的第一句話抓住了蓋茨比自我介紹的標誌性時刻。我們的模型已經做到了！我們總結了“了不起的蓋茨比”！

點擊上方關注，All in AI中國

清潔和聚合TGG

馬可夫鏈與餘弦相似

這允許我們將TGG表示為馬爾可夫鏈。馬爾可夫鏈是一種概率模型，通過定義從一種狀態轉換到另一種狀態的概率來描述狀態序列。

既然我們有一個穩態，我們可以尋找最高的概率，具有最高穩態概率的句子在下面。

“我是蓋茨比，”他突然說道。
“你們兩個回家吧，黛西，”湯姆表示， “在蓋茨比先生的車裡。”
“我告訴過你我去了那裡，”蓋茨比說。
“我希望你和黛西過來我家，”他說，“我想帶她去看看。”
她告訴他，她愛他，湯姆布坎南看到了。他很震驚，他的嘴張開了一點，他看著蓋茨比，然後又回頭看了看黛西，好像他剛剛認出她是他很久以前就知道的那個人。

現在，數據科學中最有趣的部分來了，得出我們的數據不支持的結論。我們來評估下面的摘要。

圖片來源：偉大的蓋茨比，華納兄弟，2013年

從我們的分析到上一段，有一種簡單的方法。它只需要一次跳躍，一次跳躍和再一次跳躍。我們的數據絕不意味著上述情況，我們的方法很強大，分析也很周到。但是我引入了很多外部知識才得出上面的結論。

我們強調這一點不是要改變這種方法，而是要認識到我們方法的侷限性。我們可以合理地推斷：蓋茨比、黛西和湯姆是相關人物，蓋茨比和黛西之間存在某種關係。我們當然找到了一些關鍵的想法，但我們還遠遠沒有形成一個完整的總結。

期待

我們當然可以採取一些措施來改進我們的方法，主要圍繞句子相似性的確定。我們可以使用TF * IDF查看哪個單詞在一個句子中最相關，並相應地加權。在度量餘弦相似度時，我們不需要僅考慮嚴格的相等性。我們可以考慮意義有相似但在拼寫上不相似的詞（例如快樂和興高采烈）。如果我們想要更加激烈，我們可以使用Latent Dirichlet Allocation（LDA）等高級主題模型。

自動摘要分為兩個主要領域 - 提取方法和抽象方法。我們在這裡談到的一切都是一種提取方法。我們正試圖從文本本身中提取相關信息。但是，沒有人會像這樣編寫一個提取摘要。人類接受概念、概括它們、考慮模式併產生結果。這是一種抽象方法。

代碼

對於那些感興趣的人，可以在這裡NLPSummarization/src at master · andrewjoliver/NLPSummarization · GitHub找到運行它所需的所有代碼。有Python代碼和Jupyter筆記本。清理數據和計算鄰接矩陣確實需要一點時間。使用Jupyter Notebook，您只需運行一次這些方法。方法定義和代碼結構與本文相似，因此很容易遵循。

點擊上方關注，All in AI中國

清潔和聚合TGG

馬可夫鏈與餘弦相似

這允許我們將TGG表示為馬爾可夫鏈。馬爾可夫鏈是一種概率模型，通過定義從一種狀態轉換到另一種狀態的概率來描述狀態序列。

既然我們有一個穩態，我們可以尋找最高的概率，具有最高穩態概率的句子在下面。

“我是蓋茨比，”他突然說道。
“你們兩個回家吧，黛西，”湯姆表示， “在蓋茨比先生的車裡。”
“我告訴過你我去了那裡，”蓋茨比說。
“我希望你和黛西過來我家，”他說，“我想帶她去看看。”
她告訴他，她愛他，湯姆布坎南看到了。他很震驚，他的嘴張開了一點，他看著蓋茨比，然後又回頭看了看黛西，好像他剛剛認出她是他很久以前就知道的那個人。

現在，數據科學中最有趣的部分來了，得出我們的數據不支持的結論。我們來評估下面的摘要。

圖片來源：偉大的蓋茨比，華納兄弟，2013年

期待

代碼

編譯出品

'用自然語言處理給《了不起的蓋茨比》做個摘要總結'

相關推薦