Python中文文本情感分析

Python 機器學習設計鏡音雙子機器不學習 2019-06-22

今天帶大家完成一箇中文文本情感分析的機器學習項目，大概的流程如下：

數據情況和處理

數據情況

這裡的數據為大眾點評上的評論數據（王樹義老師提供），主要就是評論文字和打分。我們首先讀入數據，看下數據的情況：

import numpy as np
import pandas as pd
data = pd.read_csv('data1.csv')
data.head()

情感劃分

對star字段看唯一值，打分有1，2，4，5。

中文文本情感分析屬於我們的分類問題（也就是消極和積極），這裡是分數，那我們設計代碼，讓分數小於3的為消極（0），大於3的就是積極（1）。

定義一個函數，然後用apply方法，這樣就得到了一個新列（數據分析裡的知識點）

def make_label(star):
 if star > 3:
 return 1
 else:
 return 0
 
data['sentiment'] = data.star.apply(make_label)

工具包（snownlp）

我們首先不用機器學習方法，我們用一個第三庫（snownlp），這個庫可以直接對文本進行情感分析（記得安裝），使用方法也是很簡單。返回的是積極性的概率。

from snownlp import SnowNLP
text1 = '這個東西不錯'
text2 = '這個東西很垃圾'
s1 = SnowNLP(text1)
s2 = SnowNLP(text2)
print(s1.sentiments,s2.sentiments)
# result 0.8623218777387431 0.21406279508712744

這樣，我們就定義大於0.6，就是積極的，同樣的方法，就能得到結果。

def snow_result(comemnt):
 s = SnowNLP(comemnt)
 if s.sentiments >= 0.6:
 return 1
 else:
 return 0
 
data['snlp_result'] = data.comment.apply(snow_result)

上面前五行的結果看上去很差（5個就2個是對的），那到底有多少是對的了？我們可以將結果與sentiment字段對比，相等的我就計數，這樣在除以總樣本，就能看大概的精度了。

counts = 0
for i in range(len(data)):
 if data.iloc[i,2] == data.iloc[i,3]:
 counts+=1
print(counts/len(data))
# result 0.763

樸素貝葉斯

前面利用第三庫的方法，結果不是特別理想（0.763），而且這種方法存在一個很大的弊端：針對性差。

什麼意思了？我們都知道，不同場景下，語言表達都是不同的，例如這個在商品評價中有用，在博客評論中可能就不適用了。

所以，我們需要針對這個場景，訓練自己的模型。本文將使用sklearn實現樸素貝葉斯模型（原理在後文中講解）。slearn小抄先送上（下文有高清下載地址）。

大概流程為：

導入數據
切分數據
數據預處理
訓練模型
測試模型

jieba分詞

首先，我們對評論數據分詞。為什麼要分詞了？中文和英文不一樣，例如：i love python，就是通過空格來分詞的；我們中文不一樣，例如：我喜歡編程，我們要分成我/喜歡/編程（通過空格隔開），這個主要是為了後面詞向量做準備。

import jieba
def chinese_word_cut(mytext):
 return " ".join(jieba.cut(mytext))
data['cut_comment'] = data.comment.apply(chinese_word_cut)

劃分數據集

分類問題需要x（特徵），和y（label）。這裡分詞後的評論為x，情感為y。按8:2的比例切分為訓練集和測試集。

X = data['cut_comment']
y = data.sentiment
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=22)

詞向量（數據處理）

電腦是沒法識別文字的，只能識別數字。那文本怎麼處理了，最簡單的就是詞向量。什麼是詞向量，我們通過一個案例來說明下，下面是我們的文本：

I love the dog
I hate the dog

詞向量處理後就是這樣的：

簡單的說，詞向量就是我們將整個文本出現的單詞一一排列，然後每行數據去映射到這些列上，出現的就是1，沒出現就是0，這樣，文本數據就轉換成了01稀疏矩陣（這也是上文中文分詞的原因，這樣一個詞就是一個列）。

好在，sklearn中直接有這樣的方法給我們使用。CountVectorizer方法常用的參數：

max_df：在超過這一比例的文檔中出現的關鍵詞（過於平凡），去除掉。
min_df：在低於這一數量的文檔中出現的關鍵詞（過於獨特），去除掉。
token_pattern：主要是通過正則處理掉數字和標點符號。
stop_words：設置停用詞表，這樣的詞我們就不會統計出來（多半是虛擬詞，冠詞等等），需要列表結構，所以代碼中定義了一個函數來處理停用詞表。

from sklearn.feature_extraction.text import CountVectorizer
def get_custom_stopwords(stop_words_file):
 with open(stop_words_file) as f:
 stopwords = f.read()
 stopwords_list = stopwords.split('\n')
 custom_stopwords_list = [i for i in stopwords_list]
 return custom_stopwords_list
stop_words_file = '哈工大停用詞表.txt'
stopwords = get_custom_stopwords(stop_words_file)
vect = CountVectorizer(max_df = 0.8, 
 min_df = 3, 
 token_pattern=u'(?u)\\b[^\\d\\W]\\w+\\b', 
 stop_words=frozenset(stopwords))

如果想看到底出來的是什麼數據，可通過下面代碼查看。

test = pd.DataFrame(vect.fit_transform(X_train).toarray(), columns=vect.get_feature_names())
test.head()

訓練模型

訓練模型，很簡單，用的是樸素貝葉斯算法，結果為0.899，比之前的snownlp好很多了。

from sklearn.naive_bayes import MultinomialNB
nb = MultinomialNB()
X_train_vect = vect.fit_transform(X_train)
nb.fit(X_train_vect, y_train)
train_score = nb.score(X_train_vect, y_train)
print(train_score)
# result 0.899375

測試數據

當然，我們需要測試數據來驗證精確度了，結果為0.8275，精度還是不錯的。

X_test_vect = vect.transform(X_test)
print(nb.score(X_test_vect, y_test))
# result 0.8275

當然，我們也可以將結果放到data數據中：

X_vec = vect.transform(X)
nb_result = nb.predict(X_vec)
data['nb_result'] = nb_result

討論和不足

樣本量少
模型沒調參
沒有交叉驗證

相關推薦

'成都鏈安漏洞分析連載第十五期：合約編寫規範'

"合約規範問題皮一下後果很嚴重|成都鏈安漏洞分析連載第十五期 —— 合約編寫規範針對區塊鏈安全問題，成都鏈安科技團隊每一週都將出智能合約安全漏洞解析連載，希望能幫助程序員寫出更加安全牢固的合約，防患於未然。引子：以戒為基，止觀相踵。大矩崇規，鏈金烹礦。——《頭陀贊》宋·黃...

成都區塊鏈技術程序員瀏覽器設計 DEX 劍橋商務英語 2019-09-19

'博越PRO競爭力分析：首推1.8TD自動智慧，CS75PLUS成最大對手'

"9月5日，成都車展上，吉利博越Pro正式上市。新車一共推出兩種動力六款車型，官方指導價9.88-15.68萬元，在10月31日完成購車的還可以享受5000元購車優惠，實際支付價為9.38-15.18萬元。相對2016年上市的博越，此次升級而來的博越Pro進一步提升了性價比...

設計吉利博越 Bose 雷達藍牙音箱電腦 2019-09-19

'Python網絡數據採集入門教程'

"在這篇文章中，我們將介紹Python提供的幾乎所有的網絡數據採集工具，你可以將本文看作是我們的《終極網絡數據採集指南》的系列文章。我們將從最基本的工具到最先進的工具進行介紹，並將涵蓋每一個的利弊。當然，我們並不能涵蓋我們討論的每個工具的所有方面，但是這篇文章應該足以讓你瞭...

Python 瀏覽器 Chrome HTML 文章 JavaScript JSON CSS Apache Nginx 操作系統 Reddit OS X 2019-09-19

'悅享版顯然最實用捷達VA3配置差異分析'

"捷達品牌在推出首款SUV車型VS5之後，緊接著又推出了緊湊級轎車VA3。捷達在作為一汽-大眾旗下的車型時，就是一臺緊湊級轎車。顯然VA3的緊湊級定位，能夠獲得一些老用戶的認同感。此次VA3共推出了4款車型，刨除手動自動的區別之後，有三種配置差異。6.58至9.28萬的價格...

原汁原味的德系SUV 轎車大眾汽車電腦設計雷達飛度一汽-大眾汽車 2019-09-18

'Python什麼情況下會生成 pyc文件？通過pyc文件瞭解Python運行原理'

"由於最近一位同學在做分佈式計算時，部分模塊只把 pyc文件拷貝部署至遠程計算節點，導致主節點程序更新後，計算節點拋出了錯誤異常，於是有了這篇文章...示例如下，有兩個py模塊，testops.py 與 testops_imported.py模塊。我們先來看 testops...

Python 分佈式計算 2019-09-18

'錦靈中文教學動畫，在網絡孔子學院正式上線'

"2019年8月24日，北京賽酷雅科技有限公司旗下教育品牌“錦靈中文”中華文化系列課程，在網絡孔子學院正式上線，標誌著“錦靈中文”中華文化系列課程，將攜手網絡孔子學院，為更多熱愛中華文化的海外人士送去專業的漢語文化教學服務。作為漢語學習的綜合性門戶網站，網絡孔子學院已經在全...

孔子動畫文化我和我的孔院故事人生第一份工作設計國學 2019-09-18

'任洪增丁麗麗 | 符號學視野下的兒童繪本及其伴隨文本'

"作者︱任洪增丁麗麗摘要以“圖片＋文字”為版面主要形式的兒童繪本是兒童讀者認識世界、啟迪心智的重要讀物，同時也是一個“合一的表意單元”，即一個文本。從宏觀視野分析兒童繪本的圖文創意並不能清晰地理解該類型文本與文化環境之間的關聯。符號學視野之下的伴隨文本理論可以管窺網絡...

文化兒童文學於文文學讀書設計日本人生第一份工作德國連環畫 2019-09-18

'用Python實現進制轉換，這一篇教程就夠了！這也太完美了'

"前言Python 實現進制轉換一、導言導語：在計算機進行數據交換時，常常會有一個進制轉換的過程，我們知道計算機只認0 和 1.在內存系統中，基本基於二進制進行運算的，但是有時候數據過於龐大，為了方便存儲管理，計算機會使用十六進制存儲數據，但是怎麼實現數據轉換呢？我們人類由...

Python 電腦 C語言腳本語言工程師迪吉多 2019-09-18

'注塑最頭疼的問題——熔接痕(Weld Lines)缺陷分析及排除方法'

"什麼是熔接痕(Weld Lines)？熔接痕(Weld Lines)，在注塑成型製品的眾多缺陷中，熔接痕是最為普遍的，除少數幾何形狀非常簡單的注塑件外，發生在大多數注塑件上（形狀通常為一條線或V形槽），尤其是需要使用多澆口模具和嵌件的大型複雜品。熔接痕不僅使得塑件的外觀質...

設計熱能 2019-09-18

'5個成功、創新的電商案例分析——大神都是這樣玩轉電商的'

"回想一下十年前你是怎麼購物的？你去哪裡買衣服？你是怎麼買到雜貨的？當需要買新床墊的時候，你是怎麼做的？十年後的今天，床墊被裝在箱子裡送到門口，試穿衣服然後免費郵寄到家...... 創新的電商企業改變了我們今天的購物方式，並重新定義了我們所謂的“可能”。在過去的十年裡...

萬物嚐鮮節技術 B2B C2C 電子商務市場營銷投資設計跳槽那些事兒人生第一份工作 Google 易趣 Craigslist 白彪 2019-09-18

'用 Python 寫一個安卓 APP'

"作者：youerning來源：http://youerning.blog.51cto.com/10513771/1733534前言用 Python 寫安卓 APP 肯定不是最好的選擇，目前用Java和 kotlin 寫的居多，但是肯定也是一個很偷懶的選擇，而且實在不想學習...

Python Android Java Linux Windows 虛擬機 Google Apache VirtualBox iOS Kotlin GitHub 設計 VMware 電腦 2019-09-18

'前端設計- JavaScript驗證碼製作及實例分析'

"在網頁設計中，尤其表單填寫提交過程中，為防止機器自動登錄，很多網頁都採用驗證碼技術，允許用戶輸入而儘量避免自動登錄。驗證碼實現的方法有很多，PHP繪圖技術可以在服務端生成驗證碼併發送客戶端，HTML5技術下可以使用canvas與JS腳本實現在客戶端瀏覽器自動生成驗證碼。本...

JavaScript 設計腳本語言 HTML 技術瀏覽器網頁設計鼠標 2019-09-17

'哪款最值得買東風悅達·起亞 K3 PHEV 購買分析'

"9 月 5 日，作為東風悅達·起亞旗下，第二款插電式混合動力車型 K3 PHEV 終於在成都車展正式上市。全系共推出舒適版和智享互聯版兩個配置，補貼後全國統一售價為 16.68 萬元和 17.58 萬元。這款期盼已久的合資品牌插混車型究竟該怎麼選？且看邦老師慢慢分析。■ ...

起亞k3 東風悅達起亞汽車起亞汽車設計原汁原味的德系SUV 深圳上海時尚成都汽車展覽 QQ音樂空調廣州音樂 2019-09-17

'加州特斯拉Autopilot事故報告分析'

"美國國家運輸安全委員會在上個月22日和這個月9號發佈了對2018年1月特斯拉Model S撞上消防局的卡車的報告，這起事故的初步調查結論是追尾事故的起因是特斯拉司機由於疏忽而過度依賴車輛駕駛員輔助系統，從而導致其對前方停著的消防車視若無睹，沒有采取任何應對的措施。特斯拉A...

特斯拉汽車 MODEL S 加利福尼亞設計 Slack 2019-09-17

'Python的概念化知識、優化技巧和常見算法性能優化（高級下篇）'

"6、字典實現原理CPython中使用偽隨機探測的散列表作為字典底層數據結構。只有可哈希對象才能作為字典的鍵。如果一個對象有一個在整個生命週期都不變的散列值，而且這個值可以與其他對象進行比較，那麼這個對象就是可哈希Python中所有不可變的內置類型都是可哈希的。可變（列表，...

Python 算法數據結構 XML 編譯器 2019-09-17

'新買的手機要套手機殼嗎？分析完其中的利弊你就不糾結了'

"新買的手機要不要裝手機套？很多人對這個問題非常的糾結，安裝上感覺失去手感了，而不裝又擔心摔壞，下面就給大家分析下安裝與不安裝手機殼的利弊。 #pgc-card .pgc-card-href { text-decoration: none; ...

設計技術三星集團 2019-09-17

'現代搶佔新能源汽車市場？領動PHEV插電混動版競爭力分析'

"在國內市場，合資A級插電混動轎車車型非常稀少，北京現代看準了這一市場空缺，以領動車型為基礎，推出領動PHEV插電混動車型，拉風炫酷的五幅式低風阻輪轂、更年輕化時尚化的內飾配置，以及榮獲“沃德十佳發動機'的現代1.6L GDI直列四缸自然吸氣發動機，賦予這款插電混動車型十足...

新能源汽車新能源轎車設計能源北京現代汽車良心國貨大賞語音識別技術 2019-09-17

'Python中的Lambda，Map和Filter'

"今天的部分介紹了在Python中使用lambda，map和filter函數。我們將介紹每個的基本語法，並通過一些示例來熟悉使用它們。讓我們開始吧！*** Lambda***lambda運算符或lambda函數用於在Python中創建小型的、一次性的匿名函數對象基本語法la...

Python Java 2019-09-17

'華為秀技術、蘋果秀體驗，各大手機品牌發佈會特點分析'

"在功能時代給新機召開一場盛大的發佈會幾乎是不可能的事，自iPhone第一代手機誕生或者說喬布斯開創了手機發佈會這種形式之後。智能手機凡是有新機發布都會舉行發佈會，重要的機型發佈會還會舉辦好幾場並且都特別的隆重，次要的機型至少也會舉行一個網絡直播的發佈會。看似發佈會的目的相...

華為海思華為手機 iPhone 技術華為公司 OPPO 智能手機三星集團華為榮耀步步高vivo 小米手機攝影羅永浩錘子科技史蒂夫·喬布斯設計我的第一部5G手機硬件 2019-09-17

'8個用於業餘項目的優秀Python庫'

"這些庫可以使你更容易構架個人項目。在Python/Django的世界裡有這樣一個諺語：為語言而來，為社區而留。對絕大多數人來說的確是這樣的，但是，還有一件事情使得我們一直停留在Python的世界裡，不願離開，那就是我們可以很容易地利用一頓午餐或晚上幾個小時的時間，把一個想...

Python Django 數據庫 HTML XML 腳本語言 Java 機器學習搜索引擎編程語言 2019-09-16

推薦中...