爬取了知乎57萬用戶信息，並做了簡單的可視化分析

網絡爬蟲可視化 JSON PyCharm 青峰科技 2017-04-05

一、使用的技術棧：

二、數據成果

爬取了573347條數據，在Python代碼中我並沒有採取線程池，而是採用了開起10個main（）方法去抓取，即10個進程，歷時4個小時，爬取了57w+數據。

三、簡單的可視化分析

1.性別分佈

可見知乎的用戶男性頗多。

爬取了知乎57萬用戶信息，並做了簡單的可視化分析

2.粉絲最多的top30

粉絲最多的前三十名：依次是張佳瑋、李開復、黃繼新等等，去知乎上查這些人，也差不多這個排名，說明爬取的數據具有一定的說服力。

爬取了知乎57萬用戶信息，並做了簡單的可視化分析

3.寫文章最多的top30

爬取了知乎57萬用戶信息，並做了簡單的可視化分析

4.知乎用戶寫文章篇數人數分佈

不在知乎上寫文章的佔到了45w，差不多90%吧，說明知乎用戶大多數都是看文章，看回答，內容生產者只有10%。

爬取了知乎57萬用戶信息，並做了簡單的可視化分析

四、爬蟲架構

爬蟲架構圖如下：

爬取了知乎57萬用戶信息，並做了簡單的可視化分析

說明：

五.編碼

爬取一個url:

def download(url):

解析內容：

def parse(response):

def save(url_token, strs):

代碼說明：

* 需要修改獲取requests請求頭的authorization。

* 需要修改你的文件存儲路徑。

源碼下載：點擊這裡，記得star哦！

六.如何獲取authorization

爬取了知乎57萬用戶信息，並做了簡單的可視化分析

七、可改進的地方

八.關於ELK套件

關於elk的套件安裝就不討論了，具體見官網就行了。網站：https://www.elastic.co/

另外logstash的配置文件如下：

input { # For detail config for log4j as input,

九、結語

從爬取的57萬用戶數據可分析的地方很多，比如地域、學歷、年齡等等，我就不一一列舉了。另外，我覺得爬蟲是一件非常有意思的事情，在這個內容消費升級的年代，如何在廣闊的互聯網的數據海洋中挖掘有價值的數據，是一件值得思考和需不斷踐行的事情。