用python爬取qq好友十萬條說說並簡單進行數據分析

編程語言 JSON QQ空間網絡爬蟲 Java世界 2017-08-02

對編程沒有興趣的朋友可以直接看後面的數據分析結果，

開發環境：win7下的

python3.5、MySQL5.7

編輯器：

pycharm2017.1、ipython，Navicat for mysql

需要的python第三方庫：

selenium、PIL、Requests、MySQLdb、csv、pandas、numpy、matplotlib、jieba、wordcloud

另外還用到了無頭瀏覽器PhantomJS。有興趣的加群（621710153）

主要思路：

一、通過selenium+phantomjs模擬登錄qq空間取到cookies和g_qzonetoken，並算出gtk

二、通過Requests庫利用前面得到的url參數，構造http請求

三、分析請求得到的響應，是一個json，利用正則表達式提取字段

四、設計數據表，並將提取到的字段插入到數據庫中

五、通過qq郵箱中的導出聯繫人功能，把好友的qq號導出到一個csv文件，遍歷所有的qq號爬取所有的說說

六、通過sql查詢和ipython分析數據，並將數據可視化

七、通過python的第三方庫jieba、wordcloud基於說說的內容做一個詞雲

閒話不多說，直接上代碼

通過selenium+phantomjs模擬登錄qq空間取到cookies和g_qzonetoken，並算出gtk

import refrom selenium import webdriverfrom time import sleepfrom PIL import Image#定義登錄函數def QR_login():

通過Requests庫利用前面得到的url參數，構造http請求

用python爬取qq好友十萬條說說並簡單進行數據分析

通過抓包分析可以找到上圖這個請求，這個請求響應的是說說信息

用python爬取qq好友十萬條說說並簡單進行數據分析

通過火狐瀏覽器的一個叫json-dataview的插件可以看到這個響應是一個json格式的，開心！

然後就是用正則表達式提取字段了，這個沒什麼意思，直接看我的代碼

def parse_mood(i):

其實到這裡爬蟲的主要的代碼就算完了，之後主要是通過QQ郵箱的聯繫人導出功能，構建url列表，最後等著它運行完成就可以了。這裡我單線程爬200多個好友用了大約三個小時，拿到了十萬條說說。下面是爬蟲的主體代碼。

#從csv文件中取qq號，並保存在一個列表中csv_reader = csv.reader(open('qq.csv'))friend=[]for row in csv_reader:

下面是爬取的數據，有100878條！（沒想到居然有這麼多）

用python爬取qq好友十萬條說說並簡單進行數據分析

有興趣的加群（621710153）

相關推薦

'為什麼有人說 Python 的多線程是雞肋？不是真正意義上的多線程？'

"歡迎各位小哥哥小姐姐閱讀本<小生>的文章,對大家學習有幫助,請點贊加關注哦!!!!!!!!!!您的點贊和關注將是我持續更新的動力呢.^v^有不懂的問題可以私聊我哦!問題：1、Python 多線程為什麼耗時更長？2、為什麼在 Python 裡面推薦使用多進程而不...

Python 機器學習中央處理器腳本語言網絡爬蟲 2019-09-15

'「Python爬蟲」如何爬取翻頁url不變的網站'

"之前打算爬取一個圖片資源網站，但是在翻頁時發現它的url並沒有改變，無法簡單的通過request.get()訪問其他頁面。據搜索資料，瞭解到這些網站是通過ajax動態加載技術實現。即可以在不重新加載整個網頁的情況下，對網頁的某部分進行更新。幫忙轉發，關注，私信小編Pyth...

Python 網絡爬蟲瀏覽器 XML JSON 程序員操作系統 2019-09-09

'Python爬蟲：bilibili彈幕爬取與比對分析'

"最近受人之託研究了下b站的數據爬取做個小工具，最後朋友說不需要了，本著開源共享的原則，將研究成果與大家分享一波，話不多說直接上乾貨需求分析給定up主uid和用戶uid，爬取用戶在該up主所有視頻中發的所有彈幕 #pgc-card .pgc-card-href { ...

Bilibili Python 網絡爬蟲 XML 數據庫算法 Google 瀏覽器 JSON 百度鏡音雙子 2019-09-05

'30行Python代碼爬取Wifi密碼，我的手機沒有卡，上網全靠它！真香'

"平時下班或者放學回到家，很多人喜歡打打遊戲看看電影，但是一個月30天，經常流量不夠用，有很多人就裝上了Wifi，但是卻經常被別人連自家的，然後打遊戲看電影卡頓就很煩，但是自己又沒有辦法知道別人家的Wifi，很難受。這種情況該怎麼辦呢？別怕，我們又Python這個強大的編程...

Wi-Fi Python 電腦技術數據庫無線網卡編程語言 2019-09-04

'還在用最笨的辦法用 Python 進行機器學習？看來你需要這篇文章'

"有很多想要學習Python卻找不到途徑的朋友，我這裡整理了一些關於Python的學習資料，從基礎到入門到實戰都要。有需要的朋友可以關注並私信“01”免費獲取...機器學習是人工智能領域的一個重要研究課題，近年來一直倍受關注。這一領域可能會提供有吸引力的機會，而且在這一領域...

Python 人工智能數學電腦文章可汗學院算法麻省理工學院編程語言讀書 R語言跳槽那些事兒程序員 2019-08-31

'黑客發起一次網絡攻擊不要太簡單！網友說到：這也太“暴利”了'

"黑客對服務器發起攻擊也是需要成本的，但與企業花在防禦上的成本就顯得微不足道了。根據相關數據顯示，企業平均每年的防禦成本約6000萬元，而網絡攻擊的成本卻在非常低，攻擊和防禦的資金消耗是十分不對等的，而且這幾年攻擊成本還在繼續不斷下降，導致網絡攻擊愈發嚴重。在一些暗網論壇上...

黑客網絡安全程序員軟件網絡爬蟲技術 C語言 Twitter 2019-08-28

'有捷徑為什麼要走彎路！手把手教你用 Python 爬取網頁'

"寫在最前面這篇簡單的 Python 教程中，我們一共採取了下面幾個步驟，來爬取網頁內容：連接並獲取一個網頁的內容用 BeautifulSoup 處理獲得的 html 數據在 soup 對象裡循環搜索需要的 html 元素進行簡單的數據清理把數據寫入 csv 文件中大多數人...

Python HTML 腳本語言 JSON GitHub 網絡爬蟲 Scrapy 電腦技術 XML 2019-08-22

'面試官：你簡歷中寫用過docker，能說說容器和鏡像的區別嗎？'

"作者：bethal來源：http://sina.lt/gfmf這篇文章希望能夠幫助讀者深入理解Docker的命令，還有容器（container）和鏡像（image）之間的區別，並深入探討容器和運行中的容器之間的區別。當我對Docker技術還是一知半解的時候，我發現理解D...

Docker Git Ubuntu 技術 JSON 人生第一份工作 2019-08-19

'用python一天爬取20萬條企業信息，20條線程共同努力的結果'

"爬蟲環境python3.7+pycharm最近發現一個網站，首商網，上面企業信息百萬以上，然而網站一點兒反爬機制都沒有，這對我們喜歡爬蟲的來講豈不是太爽了，直接拿出擼一套代碼，用了三次併發，每次用20條線程，爬了五六個小時，拿下了20萬條數據，美滋滋！還是老規矩，下面直接...

Python 網絡爬蟲 PyCharm WebKit Gecko Mozilla Chrome Windows NT Safari 2019-08-18

'很多大牛說這種PLC編程案例很簡單，看完這個，你也能成大牛'

"PLC編程學習，不僅要有自主學習的積極性，還要具有模仿的技巧。閒來無事，總習慣實踐摸索，下面就舉一個plc編程中現實的列子，通過這個例子，希望對大家在學習plc過程中有些幫助。首先這是一個簡單的接觸器互鎖正反轉電路，我們就以他為例，來看一下，到底是怎麼編程的，簡單的瞭解一...

編程語言家用電器 2019-08-16

'向Excel說再見，神級編輯器統一表格與Python'

"很多開發者說自從有了 Python/Pandas，Excel 都不怎麼用了，用它來處理與可視化表格非常快速。但是這樣還是有一大缺陷，操作不是可視化的表格，因此對技能要求更高一點。近日，開發者構建了名為 Grid studio 的開源項目，它是一個基於網頁的表格應用，完全結...

Excel Python RStudio Java 可視化技術腳本語言 Git 瀏覽器編程語言 JSON Google 人生第一份工作微軟 2019-08-13

'學透這13個Python爬蟲，爬取天下的的數據，附教程'

"Python簡直就是萬能的，你用Python都做過哪些事？用網頁看各大網站的VIP視頻，用python下載？用Python玩跳一跳，跳到50000分？過年過節各大親友群、紅包群搶紅包還用Python？（PS: 有正在學習或者想要學習的寶寶、私信小編“888”即可免費領取4...

Python 網絡爬蟲程序員 Scrapy 編程語言人工智能大數據技術英語 HTML 跳槽那些事兒 Redis 2019-08-12

'一小時入門Python爬蟲，連我都會了！Python爬取租房數據實例'

"一、什麼叫爬蟲爬蟲，又名"網絡爬蟲"，就是能夠自動訪問互聯網並將網站內容下載下來的程序。它也是搜索引擎的基礎，像百度和GOOGLE都是憑藉強大的網絡爬蟲，來檢索海量的互聯網信息的然後存儲到雲端，為網友提供優質的搜索服務的。二、爬蟲有什麼用你可能會說，除了做搜索引擎的公司，...

Python 網絡爬蟲數據庫 Links HTML JSON SQL 人生第一份工作租房 PyCharm 搜索引擎 MySQL Google 軟件 XML 百度 2019-08-06

'30行Python代碼爬取Wifi密碼，我的手機沒有卡，上網全靠它！真香'

Wi-Fi Python 電腦技術數據庫無線網卡編程語言 2019-07-31

'厲害了，爬蟲Python3用代碼爬取Wifi密碼，永久免費用網'

"厲害了，爬蟲Python3用代碼爬取Wifi密碼，永久免費用網平時下班或者放學回到家，很多人喜歡打打遊戲看看電影，但是一個月30天，經常流量不夠用，有很多人就裝上了Wifi，但是卻經常被別人連自家的，然後打遊戲看電影卡頓就很煩，但是自己又沒有辦法知道別人家的Wifi，很難...

Wi-Fi Python 網絡爬蟲電腦數據庫技術無線網卡編程語言筆記本電腦 2019-07-28

'python爬蟲學習：爬蟲QQ說說並生成詞雲圖，又是一波回憶殺'

"自學過一段時間的python，用django自己做了個網站，也用requests+BeautifulSoup爬蟲過些簡單的網站，週末研究學習了一波，準備爬取QQ空間的說說，並把內容存在txt中，讀取生成雲圖。好久不登qq了，空間說說更是幾年不玩了，裡面滿滿的都是上學時候的...

Python 騰訊QQ 網絡爬蟲 QQ空間瀏覽器 Chrome 腳本語言收藏 2019-07-20

'python爬蟲：爬蟲QQ說說並生成詞雲圖，又是一波神操作'

Python 騰訊QQ 網絡爬蟲 QQ空間瀏覽器 Chrome 腳本語言收藏 2019-07-20

'python爬蟲學習：爬蟲QQ說說並生成詞雲圖，又是一波回憶殺'

Python 騰訊QQ 網絡爬蟲 QQ空間瀏覽器 Chrome 腳本語言收藏 2019-07-19

'python爬蟲學習：爬蟲QQ說說並生成詞雲圖，又是一波神操作'

Python 騰訊QQ 網絡爬蟲 QQ空間瀏覽器 Chrome 腳本語言收藏 2019-07-19

'30行Python代碼爬取Wifi密碼，我的手機沒有卡，上網全靠它'

Wi-Fi Python 電腦技術數據庫無線網卡編程語言 2019-07-17

推薦中...