自然語言處理工具fastText快速入門1.1介紹-簡介

機器學習 Google翻譯 法律 亞馬遜公司 英語 python人工智能大數據 2018-12-17
自然語言處理工具fastText快速入門1.1介紹-簡介

當今互聯的世界中會產生大量的文本數據。該文本信息包括對事物的描述。比如人們在亞馬遜評論產品,或者通過博客撰寫想法。自然語言處理(NLP Natural Language Processing)是應用機器學習和其他計算技術來理解和表示口頭及書面文本。以下是NLP的關注點:

自然語言處理工具fastText快速入門1.1介紹-簡介

主題建模:用於確定隱藏結構或存在於文檔集合中的“抽象主題”。 主題建模 的有效應用是總結。例如法律文件複雜和冗長,系統將幫助讀者獲得文檔的要點和事情的概括描述。

句子分類:分類為不同的標籤。例如系統應該能夠正確地將“Shahrukh Khan在迪拜事件中著火”歸類為“娛樂”,另一句話“火災爆發在商店對面的Breach糖果醫院”進行分類為“新聞”。

機器翻譯:世界上語言至少有3000種。大約有一半的使用者少於10,000,大約25%的使用者少於1,000。目前最好的翻譯系統是谷歌翻譯,但它只涵蓋了100多種語言,所以需要開發機器學習翻譯模型。

問答 (QA) 系統:根據人們在自然語言中的問題自動回答問題。圍繞封閉的域系統構建的QA系統非常準確,因為它們可以檢索與搜索相關的文檔和文本。

情感分析:理解用戶在談論某事時的需求和意圖。人們經常感情用事。

事件提取:以文本形式存儲大量數據。例如一些法律文本可能描述了“犯罪”事件,其後是“調查”事件,其後是多個“聽證”事件。事件本身可以嵌套,使得“聽證”事件可以包括“呈現參數”事件和“呈現證據”事件。

命名實體檢測:根據某些預定義的類別提取分類實體或特定信息,如人,組織,地理等。例如文字:“我們習慣湖南的辣味”,我們可以理解“買家”喜歡“辣味且地點有可能在湖南。如果從湖南的買家那裡收到足夠的證據,更多的這類食品可以在市場上銷售。

關係檢測:解析文本和識別焦點和代理,然後嘗試找到它們之間的關係。例如,句子“邁克有流感”可以轉換為人[關係:有] - >疾病。然後可以在業務環境中探索這些關係,以構建智能應用程序。

自然語言處理工具fastText快速入門1.1介紹-簡介

許多先前方法的建模技術面臨的挑戰是NLP需要大量文本數據,並且數據中存在大量的上下文信息。計算模型很難以有效的方式瞭解所有數據。

目前NLP模型只針主要針對對英語, fastText有可能改變這一切。 fastText團隊已經發布了294種語言的預訓練wor向量

相關推薦

推薦中...