繼《仙劍奇俠傳》《琅琊榜》等後,胡歌出演的獵場值得看嗎?

11 月 6 日,湖南衛視現已開播被稱作年度壓軸的大戲“獵場”,敏捷佔據各大榜單,成為一部高熱度的電視劇。但是在豆瓣上卻形成了兩極分化。截止 11 月 8 日,該劇在豆瓣上的評分為 5.7 分。相比較胡歌之前《琅琊榜》的 9.1,《偽裝者》的 8.3 等來說,這一評分的確不高。風趣的是,主頁的評分份額與“短評”、“劇評”的份額存在非常大的差異!

11 月 6 日,湖南衛視現已開播被稱作年度壓軸的大戲“獵場”,敏捷佔據各大榜單,成為一部高熱度的電視劇。但是在豆瓣上卻形成了兩極分化。截止 11 月 8 日,該劇在豆瓣上的評分為 5.7 分。相比較胡歌之前《琅琊榜》的 9.1,《偽裝者》的 8.3 等來說,這一評分的確不高。風趣的是,主頁的評分份額與“短評”、“劇評”的份額存在非常大的差異!

繼《仙劍奇俠傳》《琅琊榜》等後,胡歌出演的獵場值得看嗎?

主頁總評分評分兩級分解嚴峻,“差評”佔主 在現在 11463 個評估中兩級分解嚴峻,“1 星”佔比最高為 28.6%,其次為“5 星”的 25.4%。“好評”(5 星、4 星)佔比為 35.80%,“一般”(3 星)為 16.50%,“差評”(2 星、1 星)佔比為 47.80%。很明顯,“差評”佔了挨近一半的份額。

11 月 6 日,湖南衛視現已開播被稱作年度壓軸的大戲“獵場”,敏捷佔據各大榜單,成為一部高熱度的電視劇。但是在豆瓣上卻形成了兩極分化。截止 11 月 8 日,該劇在豆瓣上的評分為 5.7 分。相比較胡歌之前《琅琊榜》的 9.1,《偽裝者》的 8.3 等來說,這一評分的確不高。風趣的是,主頁的評分份額與“短評”、“劇評”的份額存在非常大的差異!

繼《仙劍奇俠傳》《琅琊榜》等後,胡歌出演的獵場值得看嗎?

主頁總評分評分兩級分解嚴峻,“差評”佔主 在現在 11463 個評估中兩級分解嚴峻,“1 星”佔比最高為 28.6%,其次為“5 星”的 25.4%。“好評”(5 星、4 星)佔比為 35.80%,“一般”(3 星)為 16.50%,“差評”(2 星、1 星)佔比為 47.80%。很明顯,“差評”佔了挨近一半的份額。

繼《仙劍奇俠傳》《琅琊榜》等後,胡歌出演的獵場值得看嗎?

在短評和劇評中的另一種現象 主頁的豆瓣評分中“差評”佔比很高,但是在豆瓣的短評和劇評中卻是另一番現象。 在現在 5979 條短評中,“好評”佔比 71%,“一般”為 5%,“差評”佔比 24%。而在 392 條劇評中,“5 星”佔了十分高的份額!84.7%的劇評給了“好評”。

11 月 6 日,湖南衛視現已開播被稱作年度壓軸的大戲“獵場”,敏捷佔據各大榜單,成為一部高熱度的電視劇。但是在豆瓣上卻形成了兩極分化。截止 11 月 8 日,該劇在豆瓣上的評分為 5.7 分。相比較胡歌之前《琅琊榜》的 9.1,《偽裝者》的 8.3 等來說,這一評分的確不高。風趣的是,主頁的評分份額與“短評”、“劇評”的份額存在非常大的差異!

繼《仙劍奇俠傳》《琅琊榜》等後,胡歌出演的獵場值得看嗎?

主頁總評分評分兩級分解嚴峻,“差評”佔主 在現在 11463 個評估中兩級分解嚴峻,“1 星”佔比最高為 28.6%,其次為“5 星”的 25.4%。“好評”(5 星、4 星)佔比為 35.80%,“一般”(3 星)為 16.50%,“差評”(2 星、1 星)佔比為 47.80%。很明顯,“差評”佔了挨近一半的份額。

繼《仙劍奇俠傳》《琅琊榜》等後,胡歌出演的獵場值得看嗎?

在短評和劇評中的另一種現象 主頁的豆瓣評分中“差評”佔比很高,但是在豆瓣的短評和劇評中卻是另一番現象。 在現在 5979 條短評中,“好評”佔比 71%,“一般”為 5%,“差評”佔比 24%。而在 392 條劇評中,“5 星”佔了十分高的份額!84.7%的劇評給了“好評”。

繼《仙劍奇俠傳》《琅琊榜》等後,胡歌出演的獵場值得看嗎?

我們將三個位置的評分放在一同比較就會呈現十分顯著的差異。根據這個差異,我們能夠大致判別:寫出短評或許劇評的觀眾大部分給予了“好評”,但仍有大量觀眾直接給了差評,並沒有闡明任何原因。當然,我們並沒有考慮那些不寫談論,而僅僅點“有用”和“沒用”觀眾。

才剛剛上映,劇情還在漸漸的鋪,所以現在給整部劇下定論還太早。

《獵場》究竟好不美觀?我們仍是想經過以 11 月 8 日為界,看看人們短評人的心情,是活躍,仍是音訊。利用詞雲看看我們都說了什麼,希望能我們就是否主張觀看給出主張。

一、爬取《獵場》熱門短評,豆瓣的爬蟲做的比較好,不登錄爬蟲很快就會被屏蔽掉,登錄後獲取 cookies 如下:

11 月 6 日,湖南衛視現已開播被稱作年度壓軸的大戲“獵場”,敏捷佔據各大榜單,成為一部高熱度的電視劇。但是在豆瓣上卻形成了兩極分化。截止 11 月 8 日,該劇在豆瓣上的評分為 5.7 分。相比較胡歌之前《琅琊榜》的 9.1,《偽裝者》的 8.3 等來說,這一評分的確不高。風趣的是,主頁的評分份額與“短評”、“劇評”的份額存在非常大的差異!

繼《仙劍奇俠傳》《琅琊榜》等後,胡歌出演的獵場值得看嗎?

主頁總評分評分兩級分解嚴峻,“差評”佔主 在現在 11463 個評估中兩級分解嚴峻,“1 星”佔比最高為 28.6%,其次為“5 星”的 25.4%。“好評”(5 星、4 星)佔比為 35.80%,“一般”(3 星)為 16.50%,“差評”(2 星、1 星)佔比為 47.80%。很明顯,“差評”佔了挨近一半的份額。

繼《仙劍奇俠傳》《琅琊榜》等後,胡歌出演的獵場值得看嗎?

在短評和劇評中的另一種現象 主頁的豆瓣評分中“差評”佔比很高,但是在豆瓣的短評和劇評中卻是另一番現象。 在現在 5979 條短評中,“好評”佔比 71%,“一般”為 5%,“差評”佔比 24%。而在 392 條劇評中,“5 星”佔了十分高的份額!84.7%的劇評給了“好評”。

繼《仙劍奇俠傳》《琅琊榜》等後,胡歌出演的獵場值得看嗎?

我們將三個位置的評分放在一同比較就會呈現十分顯著的差異。根據這個差異,我們能夠大致判別:寫出短評或許劇評的觀眾大部分給予了“好評”,但仍有大量觀眾直接給了差評,並沒有闡明任何原因。當然,我們並沒有考慮那些不寫談論,而僅僅點“有用”和“沒用”觀眾。

才剛剛上映,劇情還在漸漸的鋪,所以現在給整部劇下定論還太早。

《獵場》究竟好不美觀?我們仍是想經過以 11 月 8 日為界,看看人們短評人的心情,是活躍,仍是音訊。利用詞雲看看我們都說了什麼,希望能我們就是否主張觀看給出主張。

一、爬取《獵場》熱門短評,豆瓣的爬蟲做的比較好,不登錄爬蟲很快就會被屏蔽掉,登錄後獲取 cookies 如下:

繼《仙劍奇俠傳》《琅琊榜》等後,胡歌出演的獵場值得看嗎?

time.sleep(1 + float(random.randint(1, 100)) / 20)

《獵場》熱門短評內容和時間爬取了 22440 條評論,代碼如下:

import reimport requestsimport codecsimport timeimport randomfrom bs4 import BeautifulSoupabsolute = 'https://movie.douban.com/subject/26322642/comments'absolute_url = 'https://movie.douban.com/subject/26322642/comments?start=23&limit=20&sort=new_score&status=P&percent_type='url = 'https://movie.douban.com/subject/26322642/comments?start={}&limit=20&sort=new_score&status=P'header={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:54.0) Gecko/20100101 Firefox/54.0','Connection':'keep-alive'}def get_data(html): soup=BeautifulSoup(html,'lxml') comment_list = soup.select('.comment > p') next_page= soup.select('#paginator > a')[2].get('href') date_nodes = soup.select('..comment-time') return comment_list,next_page,date_nodesif __name__ == '__main__': f_cookies = open('cookie.txt', 'r') cookies = {} for line in f_cookies.read().split(';'): name, value = line.strip().split('=', 1) cookies[name] = value html = requests.get(absolute_url, cookies=cookies, headers=header).content comment_list = [] # 獲取評論 comment_list, next_page,date_nodes= get_data(html,) soup = BeautifulSoup(html, 'lxml') comment_list = [] while (next_page != []): #查看“下一頁”的A標籤鏈接 print(absolute + next_page) html = requests.get(absolute + next_page, cookies=cookies, headers=header).content soup = BeautifulSoup(html, 'lxml') comment_list, next_page,date_nodes = get_data(html) with open("comments.txt", 'a', encoding='utf-8')as f: for node in comment_list: comment = node.get_text().strip().replace("\n", "") for date in date_nodes: date= node.get_text().strip() f.writelines((comment,date) + u'\n') time.sleep(1 + float(random.randint(1, 100)) / 20)

二、對數據進行清洗:

import pandas as pdimport matplotlib.pyplot as pltdate_name=['date','comment']df = pd.read_csv('./comment.csv',header=None,names=date_name,encoding= 'gbk')df['date'] = pd.to_datetime(df['date'])

樣本數量:

print(df['date'].value_counts())獲取2017-11-06 – 2017-11-08 數據:

11 月 6 日,湖南衛視現已開播被稱作年度壓軸的大戲“獵場”,敏捷佔據各大榜單,成為一部高熱度的電視劇。但是在豆瓣上卻形成了兩極分化。截止 11 月 8 日,該劇在豆瓣上的評分為 5.7 分。相比較胡歌之前《琅琊榜》的 9.1,《偽裝者》的 8.3 等來說,這一評分的確不高。風趣的是,主頁的評分份額與“短評”、“劇評”的份額存在非常大的差異!

繼《仙劍奇俠傳》《琅琊榜》等後,胡歌出演的獵場值得看嗎?

主頁總評分評分兩級分解嚴峻,“差評”佔主 在現在 11463 個評估中兩級分解嚴峻,“1 星”佔比最高為 28.6%,其次為“5 星”的 25.4%。“好評”(5 星、4 星)佔比為 35.80%,“一般”(3 星)為 16.50%,“差評”(2 星、1 星)佔比為 47.80%。很明顯,“差評”佔了挨近一半的份額。

繼《仙劍奇俠傳》《琅琊榜》等後,胡歌出演的獵場值得看嗎?

在短評和劇評中的另一種現象 主頁的豆瓣評分中“差評”佔比很高,但是在豆瓣的短評和劇評中卻是另一番現象。 在現在 5979 條短評中,“好評”佔比 71%,“一般”為 5%,“差評”佔比 24%。而在 392 條劇評中,“5 星”佔了十分高的份額!84.7%的劇評給了“好評”。

繼《仙劍奇俠傳》《琅琊榜》等後,胡歌出演的獵場值得看嗎?

我們將三個位置的評分放在一同比較就會呈現十分顯著的差異。根據這個差異,我們能夠大致判別:寫出短評或許劇評的觀眾大部分給予了“好評”,但仍有大量觀眾直接給了差評,並沒有闡明任何原因。當然,我們並沒有考慮那些不寫談論,而僅僅點“有用”和“沒用”觀眾。

才剛剛上映,劇情還在漸漸的鋪,所以現在給整部劇下定論還太早。

《獵場》究竟好不美觀?我們仍是想經過以 11 月 8 日為界,看看人們短評人的心情,是活躍,仍是音訊。利用詞雲看看我們都說了什麼,希望能我們就是否主張觀看給出主張。

一、爬取《獵場》熱門短評,豆瓣的爬蟲做的比較好,不登錄爬蟲很快就會被屏蔽掉,登錄後獲取 cookies 如下:

繼《仙劍奇俠傳》《琅琊榜》等後,胡歌出演的獵場值得看嗎?

time.sleep(1 + float(random.randint(1, 100)) / 20)

《獵場》熱門短評內容和時間爬取了 22440 條評論,代碼如下:

import reimport requestsimport codecsimport timeimport randomfrom bs4 import BeautifulSoupabsolute = 'https://movie.douban.com/subject/26322642/comments'absolute_url = 'https://movie.douban.com/subject/26322642/comments?start=23&limit=20&sort=new_score&status=P&percent_type='url = 'https://movie.douban.com/subject/26322642/comments?start={}&limit=20&sort=new_score&status=P'header={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:54.0) Gecko/20100101 Firefox/54.0','Connection':'keep-alive'}def get_data(html): soup=BeautifulSoup(html,'lxml') comment_list = soup.select('.comment > p') next_page= soup.select('#paginator > a')[2].get('href') date_nodes = soup.select('..comment-time') return comment_list,next_page,date_nodesif __name__ == '__main__': f_cookies = open('cookie.txt', 'r') cookies = {} for line in f_cookies.read().split(';'): name, value = line.strip().split('=', 1) cookies[name] = value html = requests.get(absolute_url, cookies=cookies, headers=header).content comment_list = [] # 獲取評論 comment_list, next_page,date_nodes= get_data(html,) soup = BeautifulSoup(html, 'lxml') comment_list = [] while (next_page != []): #查看“下一頁”的A標籤鏈接 print(absolute + next_page) html = requests.get(absolute + next_page, cookies=cookies, headers=header).content soup = BeautifulSoup(html, 'lxml') comment_list, next_page,date_nodes = get_data(html) with open("comments.txt", 'a', encoding='utf-8')as f: for node in comment_list: comment = node.get_text().strip().replace("\n", "") for date in date_nodes: date= node.get_text().strip() f.writelines((comment,date) + u'\n') time.sleep(1 + float(random.randint(1, 100)) / 20)

二、對數據進行清洗:

import pandas as pdimport matplotlib.pyplot as pltdate_name=['date','comment']df = pd.read_csv('./comment.csv',header=None,names=date_name,encoding= 'gbk')df['date'] = pd.to_datetime(df['date'])

樣本數量:

print(df['date'].value_counts())獲取2017-11-06 – 2017-11-08 數據:

繼《仙劍奇俠傳》《琅琊榜》等後,胡歌出演的獵場值得看嗎?

data6 = df['2017-11-06':'2017-11-08']data6.to_csv('6.txt', encoding = 'utf-8', index = False)print(data6.size)5775獲取2017-11-09 – 2017-11-17 數據:data9 = df['2017-11-09':'2017-11-17']data9.to_csv('9.txt', encoding = 'utf-8', index = False)print(data9.size)16665

三、情感分析和詞雲

對熱門短評基於原有 SnowNLP 進行積極和消極情感分類,讀取每段評論並依次進行情感值分析(代碼:後面分享),最後會計算出來一個 0-1 之間的值。

11 月 6 日,湖南衛視現已開播被稱作年度壓軸的大戲“獵場”,敏捷佔據各大榜單,成為一部高熱度的電視劇。但是在豆瓣上卻形成了兩極分化。截止 11 月 8 日,該劇在豆瓣上的評分為 5.7 分。相比較胡歌之前《琅琊榜》的 9.1,《偽裝者》的 8.3 等來說,這一評分的確不高。風趣的是,主頁的評分份額與“短評”、“劇評”的份額存在非常大的差異!

繼《仙劍奇俠傳》《琅琊榜》等後,胡歌出演的獵場值得看嗎?

主頁總評分評分兩級分解嚴峻,“差評”佔主 在現在 11463 個評估中兩級分解嚴峻,“1 星”佔比最高為 28.6%,其次為“5 星”的 25.4%。“好評”(5 星、4 星)佔比為 35.80%,“一般”(3 星)為 16.50%,“差評”(2 星、1 星)佔比為 47.80%。很明顯,“差評”佔了挨近一半的份額。

繼《仙劍奇俠傳》《琅琊榜》等後,胡歌出演的獵場值得看嗎?

在短評和劇評中的另一種現象 主頁的豆瓣評分中“差評”佔比很高,但是在豆瓣的短評和劇評中卻是另一番現象。 在現在 5979 條短評中,“好評”佔比 71%,“一般”為 5%,“差評”佔比 24%。而在 392 條劇評中,“5 星”佔了十分高的份額!84.7%的劇評給了“好評”。

繼《仙劍奇俠傳》《琅琊榜》等後,胡歌出演的獵場值得看嗎?

我們將三個位置的評分放在一同比較就會呈現十分顯著的差異。根據這個差異,我們能夠大致判別:寫出短評或許劇評的觀眾大部分給予了“好評”,但仍有大量觀眾直接給了差評,並沒有闡明任何原因。當然,我們並沒有考慮那些不寫談論,而僅僅點“有用”和“沒用”觀眾。

才剛剛上映,劇情還在漸漸的鋪,所以現在給整部劇下定論還太早。

《獵場》究竟好不美觀?我們仍是想經過以 11 月 8 日為界,看看人們短評人的心情,是活躍,仍是音訊。利用詞雲看看我們都說了什麼,希望能我們就是否主張觀看給出主張。

一、爬取《獵場》熱門短評,豆瓣的爬蟲做的比較好,不登錄爬蟲很快就會被屏蔽掉,登錄後獲取 cookies 如下:

繼《仙劍奇俠傳》《琅琊榜》等後,胡歌出演的獵場值得看嗎?

time.sleep(1 + float(random.randint(1, 100)) / 20)

《獵場》熱門短評內容和時間爬取了 22440 條評論,代碼如下:

import reimport requestsimport codecsimport timeimport randomfrom bs4 import BeautifulSoupabsolute = 'https://movie.douban.com/subject/26322642/comments'absolute_url = 'https://movie.douban.com/subject/26322642/comments?start=23&limit=20&sort=new_score&status=P&percent_type='url = 'https://movie.douban.com/subject/26322642/comments?start={}&limit=20&sort=new_score&status=P'header={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:54.0) Gecko/20100101 Firefox/54.0','Connection':'keep-alive'}def get_data(html): soup=BeautifulSoup(html,'lxml') comment_list = soup.select('.comment > p') next_page= soup.select('#paginator > a')[2].get('href') date_nodes = soup.select('..comment-time') return comment_list,next_page,date_nodesif __name__ == '__main__': f_cookies = open('cookie.txt', 'r') cookies = {} for line in f_cookies.read().split(';'): name, value = line.strip().split('=', 1) cookies[name] = value html = requests.get(absolute_url, cookies=cookies, headers=header).content comment_list = [] # 獲取評論 comment_list, next_page,date_nodes= get_data(html,) soup = BeautifulSoup(html, 'lxml') comment_list = [] while (next_page != []): #查看“下一頁”的A標籤鏈接 print(absolute + next_page) html = requests.get(absolute + next_page, cookies=cookies, headers=header).content soup = BeautifulSoup(html, 'lxml') comment_list, next_page,date_nodes = get_data(html) with open("comments.txt", 'a', encoding='utf-8')as f: for node in comment_list: comment = node.get_text().strip().replace("\n", "") for date in date_nodes: date= node.get_text().strip() f.writelines((comment,date) + u'\n') time.sleep(1 + float(random.randint(1, 100)) / 20)

二、對數據進行清洗:

import pandas as pdimport matplotlib.pyplot as pltdate_name=['date','comment']df = pd.read_csv('./comment.csv',header=None,names=date_name,encoding= 'gbk')df['date'] = pd.to_datetime(df['date'])

樣本數量:

print(df['date'].value_counts())獲取2017-11-06 – 2017-11-08 數據:

繼《仙劍奇俠傳》《琅琊榜》等後,胡歌出演的獵場值得看嗎?

data6 = df['2017-11-06':'2017-11-08']data6.to_csv('6.txt', encoding = 'utf-8', index = False)print(data6.size)5775獲取2017-11-09 – 2017-11-17 數據:data9 = df['2017-11-09':'2017-11-17']data9.to_csv('9.txt', encoding = 'utf-8', index = False)print(data9.size)16665

三、情感分析和詞雲

對熱門短評基於原有 SnowNLP 進行積極和消極情感分類,讀取每段評論並依次進行情感值分析(代碼:後面分享),最後會計算出來一個 0-1 之間的值。

繼《仙劍奇俠傳》《琅琊榜》等後,胡歌出演的獵場值得看嗎?

當值大於 0.5 時代表句子的情感極性偏向積極,當分值小於 0.5 時,情感極性偏向消極,當然越偏向兩邊,情緒越偏激。

2017-11-06 – 2017-11-08 分析:

11 月 6 日,湖南衛視現已開播被稱作年度壓軸的大戲“獵場”,敏捷佔據各大榜單,成為一部高熱度的電視劇。但是在豆瓣上卻形成了兩極分化。截止 11 月 8 日,該劇在豆瓣上的評分為 5.7 分。相比較胡歌之前《琅琊榜》的 9.1,《偽裝者》的 8.3 等來說,這一評分的確不高。風趣的是,主頁的評分份額與“短評”、“劇評”的份額存在非常大的差異!

繼《仙劍奇俠傳》《琅琊榜》等後,胡歌出演的獵場值得看嗎?

主頁總評分評分兩級分解嚴峻,“差評”佔主 在現在 11463 個評估中兩級分解嚴峻,“1 星”佔比最高為 28.6%,其次為“5 星”的 25.4%。“好評”(5 星、4 星)佔比為 35.80%,“一般”(3 星)為 16.50%,“差評”(2 星、1 星)佔比為 47.80%。很明顯,“差評”佔了挨近一半的份額。

繼《仙劍奇俠傳》《琅琊榜》等後,胡歌出演的獵場值得看嗎?

在短評和劇評中的另一種現象 主頁的豆瓣評分中“差評”佔比很高,但是在豆瓣的短評和劇評中卻是另一番現象。 在現在 5979 條短評中,“好評”佔比 71%,“一般”為 5%,“差評”佔比 24%。而在 392 條劇評中,“5 星”佔了十分高的份額!84.7%的劇評給了“好評”。

繼《仙劍奇俠傳》《琅琊榜》等後,胡歌出演的獵場值得看嗎?

我們將三個位置的評分放在一同比較就會呈現十分顯著的差異。根據這個差異,我們能夠大致判別:寫出短評或許劇評的觀眾大部分給予了“好評”,但仍有大量觀眾直接給了差評,並沒有闡明任何原因。當然,我們並沒有考慮那些不寫談論,而僅僅點“有用”和“沒用”觀眾。

才剛剛上映,劇情還在漸漸的鋪,所以現在給整部劇下定論還太早。

《獵場》究竟好不美觀?我們仍是想經過以 11 月 8 日為界,看看人們短評人的心情,是活躍,仍是音訊。利用詞雲看看我們都說了什麼,希望能我們就是否主張觀看給出主張。

一、爬取《獵場》熱門短評,豆瓣的爬蟲做的比較好,不登錄爬蟲很快就會被屏蔽掉,登錄後獲取 cookies 如下:

繼《仙劍奇俠傳》《琅琊榜》等後,胡歌出演的獵場值得看嗎?

time.sleep(1 + float(random.randint(1, 100)) / 20)

《獵場》熱門短評內容和時間爬取了 22440 條評論,代碼如下:

import reimport requestsimport codecsimport timeimport randomfrom bs4 import BeautifulSoupabsolute = 'https://movie.douban.com/subject/26322642/comments'absolute_url = 'https://movie.douban.com/subject/26322642/comments?start=23&limit=20&sort=new_score&status=P&percent_type='url = 'https://movie.douban.com/subject/26322642/comments?start={}&limit=20&sort=new_score&status=P'header={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:54.0) Gecko/20100101 Firefox/54.0','Connection':'keep-alive'}def get_data(html): soup=BeautifulSoup(html,'lxml') comment_list = soup.select('.comment > p') next_page= soup.select('#paginator > a')[2].get('href') date_nodes = soup.select('..comment-time') return comment_list,next_page,date_nodesif __name__ == '__main__': f_cookies = open('cookie.txt', 'r') cookies = {} for line in f_cookies.read().split(';'): name, value = line.strip().split('=', 1) cookies[name] = value html = requests.get(absolute_url, cookies=cookies, headers=header).content comment_list = [] # 獲取評論 comment_list, next_page,date_nodes= get_data(html,) soup = BeautifulSoup(html, 'lxml') comment_list = [] while (next_page != []): #查看“下一頁”的A標籤鏈接 print(absolute + next_page) html = requests.get(absolute + next_page, cookies=cookies, headers=header).content soup = BeautifulSoup(html, 'lxml') comment_list, next_page,date_nodes = get_data(html) with open("comments.txt", 'a', encoding='utf-8')as f: for node in comment_list: comment = node.get_text().strip().replace("\n", "") for date in date_nodes: date= node.get_text().strip() f.writelines((comment,date) + u'\n') time.sleep(1 + float(random.randint(1, 100)) / 20)

二、對數據進行清洗:

import pandas as pdimport matplotlib.pyplot as pltdate_name=['date','comment']df = pd.read_csv('./comment.csv',header=None,names=date_name,encoding= 'gbk')df['date'] = pd.to_datetime(df['date'])

樣本數量:

print(df['date'].value_counts())獲取2017-11-06 – 2017-11-08 數據:

繼《仙劍奇俠傳》《琅琊榜》等後,胡歌出演的獵場值得看嗎?

data6 = df['2017-11-06':'2017-11-08']data6.to_csv('6.txt', encoding = 'utf-8', index = False)print(data6.size)5775獲取2017-11-09 – 2017-11-17 數據:data9 = df['2017-11-09':'2017-11-17']data9.to_csv('9.txt', encoding = 'utf-8', index = False)print(data9.size)16665

三、情感分析和詞雲

對熱門短評基於原有 SnowNLP 進行積極和消極情感分類,讀取每段評論並依次進行情感值分析(代碼:後面分享),最後會計算出來一個 0-1 之間的值。

繼《仙劍奇俠傳》《琅琊榜》等後,胡歌出演的獵場值得看嗎?

當值大於 0.5 時代表句子的情感極性偏向積極,當分值小於 0.5 時,情感極性偏向消極,當然越偏向兩邊,情緒越偏激。

2017-11-06 – 2017-11-08 分析:

繼《仙劍奇俠傳》《琅琊榜》等後,胡歌出演的獵場值得看嗎?

從上圖情感分析(代碼:後面整理分享 )來看,影評者還是還是非常積極的,對《獵場》的期望很高。

11 月 6 日,湖南衛視現已開播被稱作年度壓軸的大戲“獵場”,敏捷佔據各大榜單,成為一部高熱度的電視劇。但是在豆瓣上卻形成了兩極分化。截止 11 月 8 日,該劇在豆瓣上的評分為 5.7 分。相比較胡歌之前《琅琊榜》的 9.1,《偽裝者》的 8.3 等來說,這一評分的確不高。風趣的是,主頁的評分份額與“短評”、“劇評”的份額存在非常大的差異!

繼《仙劍奇俠傳》《琅琊榜》等後,胡歌出演的獵場值得看嗎?

主頁總評分評分兩級分解嚴峻,“差評”佔主 在現在 11463 個評估中兩級分解嚴峻,“1 星”佔比最高為 28.6%,其次為“5 星”的 25.4%。“好評”(5 星、4 星)佔比為 35.80%,“一般”(3 星)為 16.50%,“差評”(2 星、1 星)佔比為 47.80%。很明顯,“差評”佔了挨近一半的份額。

繼《仙劍奇俠傳》《琅琊榜》等後,胡歌出演的獵場值得看嗎?

在短評和劇評中的另一種現象 主頁的豆瓣評分中“差評”佔比很高,但是在豆瓣的短評和劇評中卻是另一番現象。 在現在 5979 條短評中,“好評”佔比 71%,“一般”為 5%,“差評”佔比 24%。而在 392 條劇評中,“5 星”佔了十分高的份額!84.7%的劇評給了“好評”。

繼《仙劍奇俠傳》《琅琊榜》等後,胡歌出演的獵場值得看嗎?

我們將三個位置的評分放在一同比較就會呈現十分顯著的差異。根據這個差異,我們能夠大致判別:寫出短評或許劇評的觀眾大部分給予了“好評”,但仍有大量觀眾直接給了差評,並沒有闡明任何原因。當然,我們並沒有考慮那些不寫談論,而僅僅點“有用”和“沒用”觀眾。

才剛剛上映,劇情還在漸漸的鋪,所以現在給整部劇下定論還太早。

《獵場》究竟好不美觀?我們仍是想經過以 11 月 8 日為界,看看人們短評人的心情,是活躍,仍是音訊。利用詞雲看看我們都說了什麼,希望能我們就是否主張觀看給出主張。

一、爬取《獵場》熱門短評,豆瓣的爬蟲做的比較好,不登錄爬蟲很快就會被屏蔽掉,登錄後獲取 cookies 如下:

繼《仙劍奇俠傳》《琅琊榜》等後,胡歌出演的獵場值得看嗎?

time.sleep(1 + float(random.randint(1, 100)) / 20)

《獵場》熱門短評內容和時間爬取了 22440 條評論,代碼如下:

import reimport requestsimport codecsimport timeimport randomfrom bs4 import BeautifulSoupabsolute = 'https://movie.douban.com/subject/26322642/comments'absolute_url = 'https://movie.douban.com/subject/26322642/comments?start=23&limit=20&sort=new_score&status=P&percent_type='url = 'https://movie.douban.com/subject/26322642/comments?start={}&limit=20&sort=new_score&status=P'header={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:54.0) Gecko/20100101 Firefox/54.0','Connection':'keep-alive'}def get_data(html): soup=BeautifulSoup(html,'lxml') comment_list = soup.select('.comment > p') next_page= soup.select('#paginator > a')[2].get('href') date_nodes = soup.select('..comment-time') return comment_list,next_page,date_nodesif __name__ == '__main__': f_cookies = open('cookie.txt', 'r') cookies = {} for line in f_cookies.read().split(';'): name, value = line.strip().split('=', 1) cookies[name] = value html = requests.get(absolute_url, cookies=cookies, headers=header).content comment_list = [] # 獲取評論 comment_list, next_page,date_nodes= get_data(html,) soup = BeautifulSoup(html, 'lxml') comment_list = [] while (next_page != []): #查看“下一頁”的A標籤鏈接 print(absolute + next_page) html = requests.get(absolute + next_page, cookies=cookies, headers=header).content soup = BeautifulSoup(html, 'lxml') comment_list, next_page,date_nodes = get_data(html) with open("comments.txt", 'a', encoding='utf-8')as f: for node in comment_list: comment = node.get_text().strip().replace("\n", "") for date in date_nodes: date= node.get_text().strip() f.writelines((comment,date) + u'\n') time.sleep(1 + float(random.randint(1, 100)) / 20)

二、對數據進行清洗:

import pandas as pdimport matplotlib.pyplot as pltdate_name=['date','comment']df = pd.read_csv('./comment.csv',header=None,names=date_name,encoding= 'gbk')df['date'] = pd.to_datetime(df['date'])

樣本數量:

print(df['date'].value_counts())獲取2017-11-06 – 2017-11-08 數據:

繼《仙劍奇俠傳》《琅琊榜》等後,胡歌出演的獵場值得看嗎?

data6 = df['2017-11-06':'2017-11-08']data6.to_csv('6.txt', encoding = 'utf-8', index = False)print(data6.size)5775獲取2017-11-09 – 2017-11-17 數據:data9 = df['2017-11-09':'2017-11-17']data9.to_csv('9.txt', encoding = 'utf-8', index = False)print(data9.size)16665

三、情感分析和詞雲

對熱門短評基於原有 SnowNLP 進行積極和消極情感分類,讀取每段評論並依次進行情感值分析(代碼:後面分享),最後會計算出來一個 0-1 之間的值。

繼《仙劍奇俠傳》《琅琊榜》等後,胡歌出演的獵場值得看嗎?

當值大於 0.5 時代表句子的情感極性偏向積極,當分值小於 0.5 時,情感極性偏向消極,當然越偏向兩邊,情緒越偏激。

2017-11-06 – 2017-11-08 分析:

繼《仙劍奇俠傳》《琅琊榜》等後,胡歌出演的獵場值得看嗎?

從上圖情感分析(代碼:後面整理分享 )來看,影評者還是還是非常積極的,對《獵場》的期望很高。

繼《仙劍奇俠傳》《琅琊榜》等後,胡歌出演的獵場值得看嗎?

從詞語的代碼上來看,出現好看、劇情、期待、喜歡等詞。

總結

詞雲的背景是胡歌,大家看出來了嘛?目前豆瓣的分數已經是 6.2 分,目前劇情過半,相信接下來會更精彩,個人認為分數會在 7.5 分以上。

11 月 6 日,湖南衛視現已開播被稱作年度壓軸的大戲“獵場”,敏捷佔據各大榜單,成為一部高熱度的電視劇。但是在豆瓣上卻形成了兩極分化。截止 11 月 8 日,該劇在豆瓣上的評分為 5.7 分。相比較胡歌之前《琅琊榜》的 9.1,《偽裝者》的 8.3 等來說,這一評分的確不高。風趣的是,主頁的評分份額與“短評”、“劇評”的份額存在非常大的差異!

繼《仙劍奇俠傳》《琅琊榜》等後,胡歌出演的獵場值得看嗎?

主頁總評分評分兩級分解嚴峻,“差評”佔主 在現在 11463 個評估中兩級分解嚴峻,“1 星”佔比最高為 28.6%,其次為“5 星”的 25.4%。“好評”(5 星、4 星)佔比為 35.80%,“一般”(3 星)為 16.50%,“差評”(2 星、1 星)佔比為 47.80%。很明顯,“差評”佔了挨近一半的份額。

繼《仙劍奇俠傳》《琅琊榜》等後,胡歌出演的獵場值得看嗎?

在短評和劇評中的另一種現象 主頁的豆瓣評分中“差評”佔比很高,但是在豆瓣的短評和劇評中卻是另一番現象。 在現在 5979 條短評中,“好評”佔比 71%,“一般”為 5%,“差評”佔比 24%。而在 392 條劇評中,“5 星”佔了十分高的份額!84.7%的劇評給了“好評”。

繼《仙劍奇俠傳》《琅琊榜》等後,胡歌出演的獵場值得看嗎?

我們將三個位置的評分放在一同比較就會呈現十分顯著的差異。根據這個差異,我們能夠大致判別:寫出短評或許劇評的觀眾大部分給予了“好評”,但仍有大量觀眾直接給了差評,並沒有闡明任何原因。當然,我們並沒有考慮那些不寫談論,而僅僅點“有用”和“沒用”觀眾。

才剛剛上映,劇情還在漸漸的鋪,所以現在給整部劇下定論還太早。

《獵場》究竟好不美觀?我們仍是想經過以 11 月 8 日為界,看看人們短評人的心情,是活躍,仍是音訊。利用詞雲看看我們都說了什麼,希望能我們就是否主張觀看給出主張。

一、爬取《獵場》熱門短評,豆瓣的爬蟲做的比較好,不登錄爬蟲很快就會被屏蔽掉,登錄後獲取 cookies 如下:

繼《仙劍奇俠傳》《琅琊榜》等後,胡歌出演的獵場值得看嗎?

time.sleep(1 + float(random.randint(1, 100)) / 20)

《獵場》熱門短評內容和時間爬取了 22440 條評論,代碼如下:

import reimport requestsimport codecsimport timeimport randomfrom bs4 import BeautifulSoupabsolute = 'https://movie.douban.com/subject/26322642/comments'absolute_url = 'https://movie.douban.com/subject/26322642/comments?start=23&limit=20&sort=new_score&status=P&percent_type='url = 'https://movie.douban.com/subject/26322642/comments?start={}&limit=20&sort=new_score&status=P'header={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:54.0) Gecko/20100101 Firefox/54.0','Connection':'keep-alive'}def get_data(html): soup=BeautifulSoup(html,'lxml') comment_list = soup.select('.comment > p') next_page= soup.select('#paginator > a')[2].get('href') date_nodes = soup.select('..comment-time') return comment_list,next_page,date_nodesif __name__ == '__main__': f_cookies = open('cookie.txt', 'r') cookies = {} for line in f_cookies.read().split(';'): name, value = line.strip().split('=', 1) cookies[name] = value html = requests.get(absolute_url, cookies=cookies, headers=header).content comment_list = [] # 獲取評論 comment_list, next_page,date_nodes= get_data(html,) soup = BeautifulSoup(html, 'lxml') comment_list = [] while (next_page != []): #查看“下一頁”的A標籤鏈接 print(absolute + next_page) html = requests.get(absolute + next_page, cookies=cookies, headers=header).content soup = BeautifulSoup(html, 'lxml') comment_list, next_page,date_nodes = get_data(html) with open("comments.txt", 'a', encoding='utf-8')as f: for node in comment_list: comment = node.get_text().strip().replace("\n", "") for date in date_nodes: date= node.get_text().strip() f.writelines((comment,date) + u'\n') time.sleep(1 + float(random.randint(1, 100)) / 20)

二、對數據進行清洗:

import pandas as pdimport matplotlib.pyplot as pltdate_name=['date','comment']df = pd.read_csv('./comment.csv',header=None,names=date_name,encoding= 'gbk')df['date'] = pd.to_datetime(df['date'])

樣本數量:

print(df['date'].value_counts())獲取2017-11-06 – 2017-11-08 數據:

繼《仙劍奇俠傳》《琅琊榜》等後,胡歌出演的獵場值得看嗎?

data6 = df['2017-11-06':'2017-11-08']data6.to_csv('6.txt', encoding = 'utf-8', index = False)print(data6.size)5775獲取2017-11-09 – 2017-11-17 數據:data9 = df['2017-11-09':'2017-11-17']data9.to_csv('9.txt', encoding = 'utf-8', index = False)print(data9.size)16665

三、情感分析和詞雲

對熱門短評基於原有 SnowNLP 進行積極和消極情感分類,讀取每段評論並依次進行情感值分析(代碼:後面分享),最後會計算出來一個 0-1 之間的值。

繼《仙劍奇俠傳》《琅琊榜》等後,胡歌出演的獵場值得看嗎?

當值大於 0.5 時代表句子的情感極性偏向積極,當分值小於 0.5 時,情感極性偏向消極,當然越偏向兩邊,情緒越偏激。

2017-11-06 – 2017-11-08 分析:

繼《仙劍奇俠傳》《琅琊榜》等後,胡歌出演的獵場值得看嗎?

從上圖情感分析(代碼:後面整理分享 )來看,影評者還是還是非常積極的,對《獵場》的期望很高。

繼《仙劍奇俠傳》《琅琊榜》等後,胡歌出演的獵場值得看嗎?

從詞語的代碼上來看,出現好看、劇情、期待、喜歡等詞。

總結

詞雲的背景是胡歌,大家看出來了嘛?目前豆瓣的分數已經是 6.2 分,目前劇情過半,相信接下來會更精彩,個人認為分數會在 7.5 分以上。

繼《仙劍奇俠傳》《琅琊榜》等後,胡歌出演的獵場值得看嗎?

關於胡歌,不管是80後還是90後,他都是人們比較喜歡的一個角色,拋去現在的00後不說,因為現在的00後喜歡的都是小鮮肉,我們都是大叔級別的。

關於胡歌,我對他的認識是從仙劍奇俠傳一開始的,在那部電視劇中,我比較喜歡李逍遙的蕩劍走天涯的情懷,也喜歡趙靈兒那種清純,想讓人保護的慾望。

11 月 6 日,湖南衛視現已開播被稱作年度壓軸的大戲“獵場”,敏捷佔據各大榜單,成為一部高熱度的電視劇。但是在豆瓣上卻形成了兩極分化。截止 11 月 8 日,該劇在豆瓣上的評分為 5.7 分。相比較胡歌之前《琅琊榜》的 9.1,《偽裝者》的 8.3 等來說,這一評分的確不高。風趣的是,主頁的評分份額與“短評”、“劇評”的份額存在非常大的差異!

繼《仙劍奇俠傳》《琅琊榜》等後,胡歌出演的獵場值得看嗎?

主頁總評分評分兩級分解嚴峻,“差評”佔主 在現在 11463 個評估中兩級分解嚴峻,“1 星”佔比最高為 28.6%,其次為“5 星”的 25.4%。“好評”(5 星、4 星)佔比為 35.80%,“一般”(3 星)為 16.50%,“差評”(2 星、1 星)佔比為 47.80%。很明顯,“差評”佔了挨近一半的份額。

繼《仙劍奇俠傳》《琅琊榜》等後,胡歌出演的獵場值得看嗎?

在短評和劇評中的另一種現象 主頁的豆瓣評分中“差評”佔比很高,但是在豆瓣的短評和劇評中卻是另一番現象。 在現在 5979 條短評中,“好評”佔比 71%,“一般”為 5%,“差評”佔比 24%。而在 392 條劇評中,“5 星”佔了十分高的份額!84.7%的劇評給了“好評”。

繼《仙劍奇俠傳》《琅琊榜》等後,胡歌出演的獵場值得看嗎?

我們將三個位置的評分放在一同比較就會呈現十分顯著的差異。根據這個差異,我們能夠大致判別:寫出短評或許劇評的觀眾大部分給予了“好評”,但仍有大量觀眾直接給了差評,並沒有闡明任何原因。當然,我們並沒有考慮那些不寫談論,而僅僅點“有用”和“沒用”觀眾。

才剛剛上映,劇情還在漸漸的鋪,所以現在給整部劇下定論還太早。

《獵場》究竟好不美觀?我們仍是想經過以 11 月 8 日為界,看看人們短評人的心情,是活躍,仍是音訊。利用詞雲看看我們都說了什麼,希望能我們就是否主張觀看給出主張。

一、爬取《獵場》熱門短評,豆瓣的爬蟲做的比較好,不登錄爬蟲很快就會被屏蔽掉,登錄後獲取 cookies 如下:

繼《仙劍奇俠傳》《琅琊榜》等後,胡歌出演的獵場值得看嗎?

time.sleep(1 + float(random.randint(1, 100)) / 20)

《獵場》熱門短評內容和時間爬取了 22440 條評論,代碼如下:

import reimport requestsimport codecsimport timeimport randomfrom bs4 import BeautifulSoupabsolute = 'https://movie.douban.com/subject/26322642/comments'absolute_url = 'https://movie.douban.com/subject/26322642/comments?start=23&limit=20&sort=new_score&status=P&percent_type='url = 'https://movie.douban.com/subject/26322642/comments?start={}&limit=20&sort=new_score&status=P'header={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:54.0) Gecko/20100101 Firefox/54.0','Connection':'keep-alive'}def get_data(html): soup=BeautifulSoup(html,'lxml') comment_list = soup.select('.comment > p') next_page= soup.select('#paginator > a')[2].get('href') date_nodes = soup.select('..comment-time') return comment_list,next_page,date_nodesif __name__ == '__main__': f_cookies = open('cookie.txt', 'r') cookies = {} for line in f_cookies.read().split(';'): name, value = line.strip().split('=', 1) cookies[name] = value html = requests.get(absolute_url, cookies=cookies, headers=header).content comment_list = [] # 獲取評論 comment_list, next_page,date_nodes= get_data(html,) soup = BeautifulSoup(html, 'lxml') comment_list = [] while (next_page != []): #查看“下一頁”的A標籤鏈接 print(absolute + next_page) html = requests.get(absolute + next_page, cookies=cookies, headers=header).content soup = BeautifulSoup(html, 'lxml') comment_list, next_page,date_nodes = get_data(html) with open("comments.txt", 'a', encoding='utf-8')as f: for node in comment_list: comment = node.get_text().strip().replace("\n", "") for date in date_nodes: date= node.get_text().strip() f.writelines((comment,date) + u'\n') time.sleep(1 + float(random.randint(1, 100)) / 20)

二、對數據進行清洗:

import pandas as pdimport matplotlib.pyplot as pltdate_name=['date','comment']df = pd.read_csv('./comment.csv',header=None,names=date_name,encoding= 'gbk')df['date'] = pd.to_datetime(df['date'])

樣本數量:

print(df['date'].value_counts())獲取2017-11-06 – 2017-11-08 數據:

繼《仙劍奇俠傳》《琅琊榜》等後,胡歌出演的獵場值得看嗎?

data6 = df['2017-11-06':'2017-11-08']data6.to_csv('6.txt', encoding = 'utf-8', index = False)print(data6.size)5775獲取2017-11-09 – 2017-11-17 數據:data9 = df['2017-11-09':'2017-11-17']data9.to_csv('9.txt', encoding = 'utf-8', index = False)print(data9.size)16665

三、情感分析和詞雲

對熱門短評基於原有 SnowNLP 進行積極和消極情感分類,讀取每段評論並依次進行情感值分析(代碼:後面分享),最後會計算出來一個 0-1 之間的值。

繼《仙劍奇俠傳》《琅琊榜》等後,胡歌出演的獵場值得看嗎?

當值大於 0.5 時代表句子的情感極性偏向積極,當分值小於 0.5 時,情感極性偏向消極,當然越偏向兩邊,情緒越偏激。

2017-11-06 – 2017-11-08 分析:

繼《仙劍奇俠傳》《琅琊榜》等後,胡歌出演的獵場值得看嗎?

從上圖情感分析(代碼:後面整理分享 )來看,影評者還是還是非常積極的,對《獵場》的期望很高。

繼《仙劍奇俠傳》《琅琊榜》等後,胡歌出演的獵場值得看嗎?

從詞語的代碼上來看,出現好看、劇情、期待、喜歡等詞。

總結

詞雲的背景是胡歌,大家看出來了嘛?目前豆瓣的分數已經是 6.2 分,目前劇情過半,相信接下來會更精彩,個人認為分數會在 7.5 分以上。

繼《仙劍奇俠傳》《琅琊榜》等後,胡歌出演的獵場值得看嗎?

關於胡歌,不管是80後還是90後,他都是人們比較喜歡的一個角色,拋去現在的00後不說,因為現在的00後喜歡的都是小鮮肉,我們都是大叔級別的。

關於胡歌,我對他的認識是從仙劍奇俠傳一開始的,在那部電視劇中,我比較喜歡李逍遙的蕩劍走天涯的情懷,也喜歡趙靈兒那種清純,想讓人保護的慾望。

繼《仙劍奇俠傳》《琅琊榜》等後,胡歌出演的獵場值得看嗎?

關於胡歌,後面在琅琊榜上,以另一種身邊出演,以出色的演技,把江左梅郎這個角色演繹的淋淋盡致!

11 月 6 日,湖南衛視現已開播被稱作年度壓軸的大戲“獵場”,敏捷佔據各大榜單,成為一部高熱度的電視劇。但是在豆瓣上卻形成了兩極分化。截止 11 月 8 日,該劇在豆瓣上的評分為 5.7 分。相比較胡歌之前《琅琊榜》的 9.1,《偽裝者》的 8.3 等來說,這一評分的確不高。風趣的是,主頁的評分份額與“短評”、“劇評”的份額存在非常大的差異!

繼《仙劍奇俠傳》《琅琊榜》等後,胡歌出演的獵場值得看嗎?

主頁總評分評分兩級分解嚴峻,“差評”佔主 在現在 11463 個評估中兩級分解嚴峻,“1 星”佔比最高為 28.6%,其次為“5 星”的 25.4%。“好評”(5 星、4 星)佔比為 35.80%,“一般”(3 星)為 16.50%,“差評”(2 星、1 星)佔比為 47.80%。很明顯,“差評”佔了挨近一半的份額。

繼《仙劍奇俠傳》《琅琊榜》等後,胡歌出演的獵場值得看嗎?

在短評和劇評中的另一種現象 主頁的豆瓣評分中“差評”佔比很高,但是在豆瓣的短評和劇評中卻是另一番現象。 在現在 5979 條短評中,“好評”佔比 71%,“一般”為 5%,“差評”佔比 24%。而在 392 條劇評中,“5 星”佔了十分高的份額!84.7%的劇評給了“好評”。

繼《仙劍奇俠傳》《琅琊榜》等後,胡歌出演的獵場值得看嗎?

我們將三個位置的評分放在一同比較就會呈現十分顯著的差異。根據這個差異,我們能夠大致判別:寫出短評或許劇評的觀眾大部分給予了“好評”,但仍有大量觀眾直接給了差評,並沒有闡明任何原因。當然,我們並沒有考慮那些不寫談論,而僅僅點“有用”和“沒用”觀眾。

才剛剛上映,劇情還在漸漸的鋪,所以現在給整部劇下定論還太早。

《獵場》究竟好不美觀?我們仍是想經過以 11 月 8 日為界,看看人們短評人的心情,是活躍,仍是音訊。利用詞雲看看我們都說了什麼,希望能我們就是否主張觀看給出主張。

一、爬取《獵場》熱門短評,豆瓣的爬蟲做的比較好,不登錄爬蟲很快就會被屏蔽掉,登錄後獲取 cookies 如下:

繼《仙劍奇俠傳》《琅琊榜》等後,胡歌出演的獵場值得看嗎?

time.sleep(1 + float(random.randint(1, 100)) / 20)

《獵場》熱門短評內容和時間爬取了 22440 條評論,代碼如下:

import reimport requestsimport codecsimport timeimport randomfrom bs4 import BeautifulSoupabsolute = 'https://movie.douban.com/subject/26322642/comments'absolute_url = 'https://movie.douban.com/subject/26322642/comments?start=23&limit=20&sort=new_score&status=P&percent_type='url = 'https://movie.douban.com/subject/26322642/comments?start={}&limit=20&sort=new_score&status=P'header={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:54.0) Gecko/20100101 Firefox/54.0','Connection':'keep-alive'}def get_data(html): soup=BeautifulSoup(html,'lxml') comment_list = soup.select('.comment > p') next_page= soup.select('#paginator > a')[2].get('href') date_nodes = soup.select('..comment-time') return comment_list,next_page,date_nodesif __name__ == '__main__': f_cookies = open('cookie.txt', 'r') cookies = {} for line in f_cookies.read().split(';'): name, value = line.strip().split('=', 1) cookies[name] = value html = requests.get(absolute_url, cookies=cookies, headers=header).content comment_list = [] # 獲取評論 comment_list, next_page,date_nodes= get_data(html,) soup = BeautifulSoup(html, 'lxml') comment_list = [] while (next_page != []): #查看“下一頁”的A標籤鏈接 print(absolute + next_page) html = requests.get(absolute + next_page, cookies=cookies, headers=header).content soup = BeautifulSoup(html, 'lxml') comment_list, next_page,date_nodes = get_data(html) with open("comments.txt", 'a', encoding='utf-8')as f: for node in comment_list: comment = node.get_text().strip().replace("\n", "") for date in date_nodes: date= node.get_text().strip() f.writelines((comment,date) + u'\n') time.sleep(1 + float(random.randint(1, 100)) / 20)

二、對數據進行清洗:

import pandas as pdimport matplotlib.pyplot as pltdate_name=['date','comment']df = pd.read_csv('./comment.csv',header=None,names=date_name,encoding= 'gbk')df['date'] = pd.to_datetime(df['date'])

樣本數量:

print(df['date'].value_counts())獲取2017-11-06 – 2017-11-08 數據:

繼《仙劍奇俠傳》《琅琊榜》等後,胡歌出演的獵場值得看嗎?

data6 = df['2017-11-06':'2017-11-08']data6.to_csv('6.txt', encoding = 'utf-8', index = False)print(data6.size)5775獲取2017-11-09 – 2017-11-17 數據:data9 = df['2017-11-09':'2017-11-17']data9.to_csv('9.txt', encoding = 'utf-8', index = False)print(data9.size)16665

三、情感分析和詞雲

對熱門短評基於原有 SnowNLP 進行積極和消極情感分類,讀取每段評論並依次進行情感值分析(代碼:後面分享),最後會計算出來一個 0-1 之間的值。

繼《仙劍奇俠傳》《琅琊榜》等後,胡歌出演的獵場值得看嗎?

當值大於 0.5 時代表句子的情感極性偏向積極,當分值小於 0.5 時,情感極性偏向消極,當然越偏向兩邊,情緒越偏激。

2017-11-06 – 2017-11-08 分析:

繼《仙劍奇俠傳》《琅琊榜》等後,胡歌出演的獵場值得看嗎?

從上圖情感分析(代碼:後面整理分享 )來看,影評者還是還是非常積極的,對《獵場》的期望很高。

繼《仙劍奇俠傳》《琅琊榜》等後,胡歌出演的獵場值得看嗎?

從詞語的代碼上來看,出現好看、劇情、期待、喜歡等詞。

總結

詞雲的背景是胡歌,大家看出來了嘛?目前豆瓣的分數已經是 6.2 分,目前劇情過半,相信接下來會更精彩,個人認為分數會在 7.5 分以上。

繼《仙劍奇俠傳》《琅琊榜》等後,胡歌出演的獵場值得看嗎?

關於胡歌,不管是80後還是90後,他都是人們比較喜歡的一個角色,拋去現在的00後不說,因為現在的00後喜歡的都是小鮮肉,我們都是大叔級別的。

關於胡歌,我對他的認識是從仙劍奇俠傳一開始的,在那部電視劇中,我比較喜歡李逍遙的蕩劍走天涯的情懷,也喜歡趙靈兒那種清純,想讓人保護的慾望。

繼《仙劍奇俠傳》《琅琊榜》等後,胡歌出演的獵場值得看嗎?

關於胡歌,後面在琅琊榜上,以另一種身邊出演,以出色的演技,把江左梅郎這個角色演繹的淋淋盡致!

繼《仙劍奇俠傳》《琅琊榜》等後,胡歌出演的獵場值得看嗎?


關於胡歌,你們還有那些好看的電視劇,你對胡歌有哪方面的看法和評價?歡迎你在本文章下面評論,在大陸總多男演員當中,胡歌我還是比較看好的。最近沒有及時更新文章,那是因為我最近在頭條問答,沒有太多的時間。最後,如果你覺得本文章不錯,對你有幫助,你可以多多關注,我們多給大家分享有關於Python方面的知識,謝謝。

相關推薦

推薦中...