爬蟲零基礎也是可以爬的,神級程序員一步步教你爬!不信你看?

很多接觸Python的小夥伴,都是看到各種大牛啊,爬取各種網站的小仙女,其實這種爬蟲是很簡單的。剛接觸的小夥伴只要用心,沒多久也是能爬下來的,關鍵是有人在身邊指導,好了話不多說。今天大家就和我一起去爬取一波大冪冪的微博吧。開車了繫好安全帶。在開車之前呢,要給大家分享一下我的開車群。Python開車群:643692991,不管你是小白還是大牛,小編我都挺歡迎,不定期分享乾貨,包括我自己整理的一份2017最新的Python資料和零基礎入門教程,歡迎初學和進階中的小夥伴。

某天小仙女翻她微博發照片給我看,我打開她的微博,我的天,2000多條。剛好最近在做NLP相關的工作,需要爬各種數據,於是萌生了把小仙女微博爬下來看看的想法。(坑比微博不開放接口是很菜了)

爬蟲零基礎也是可以爬的,神級程序員一步步教你爬!不信你看?

1、用chrome獲取你的cookie和小仙女uid

chrome 進入微博手機版,F12打開開發者工具,點擊Network - Preserve log,使用小號登錄微博手機版。(注意一定使用小號!)

m.weibo.cn->Headers->Cookie 複製下自己的cookie,等會兒需要使用,也就是登錄信息。

F12打開開發者工具,ctrl+F查找uid就ok了。

爬蟲零基礎也是可以爬的,神級程序員一步步教你爬!不信你看?

爬蟲零基礎也是可以爬的,神級程序員一步步教你爬!不信你看?

大冪冪uid

2、爬取文字和圖片

具體爬取過程有興趣的可以去文末附帶的GitHub項目鏈接看看啦。

需要使用的話,請註冊一個小號登錄,大規模爬取的話請注意ip更換。代碼中有設置sleep時間,根據實際情況自行調整就好啦。

爬取過程如下:

爬蟲零基礎也是可以爬的,神級程序員一步步教你爬!不信你看?

抓取結果如下圖所示:

爬蟲零基礎也是可以爬的,神級程序員一步步教你爬!不信你看?

爬蟲零基礎也是可以爬的,神級程序員一步步教你爬!不信你看?

也不是蠻多,看來大冪冪還是比較忙的。不是有很多的照片。

小仙女數據

這裡就不給大家一一分享了。

直接看處理的結果吧嘻嘻!

關鍵詞

爬蟲零基礎也是可以爬的,神級程序員一步步教你爬!不信你看?

爬蟲零基礎也是可以爬的,神級程序員一步步教你爬!不信你看?

爬蟲零基礎也是可以爬的,神級程序員一步步教你爬!不信你看?

爬蟲零基礎也是可以爬的,神級程序員一步步教你爬!不信你看?

為了讓大家更清晰看出每個表情,用微博直接顯示出來文字和表情的對應。

哭哭佔了最多是什麼鬼,還有神祕的微笑和神祕的拜拜。

真是有故事的女同學嘻嘻。

爬蟲零基礎也是可以爬的,神級程序員一步步教你爬!不信你看?

詞雲還有待改進,大家先這麼看著吧。

相關推薦

推薦中...