神級的爬蟲工程師用Python教你爬取全站股票評論!買哪隻有底呢!

這個爬蟲寫得好累,就簡單講一下思路吧。雪球網股票的評論內容是不能直接訪問的,必須要攜帶在第一次訪問時雪球網寫進本地的cookie(其實你隨便打開一次官網就是屬於第一次訪問了,那時候 不需要cookie),在給大家分享之前呢,小編推薦一下一個挺不錯的交流寶地,裡面都是一群熱愛並在學習Python的小夥伴們,大幾千了吧,各種各樣的人群都有,特別喜歡看到這種大家一起交流解決難題的氛圍,群資料也上傳了好多,各種大牛解決小白的問題,這個Python群:330637182 歡迎大家進來一起交流討論,一起進步,儘早掌握這門Python語言。

神級的爬蟲工程師用Python教你爬取全站股票評論!買哪隻有底呢!

爬取思路是這樣的,先挖取所有股票的代碼,放進數據庫,然後根據股票代碼爬取每一隻股票的評論,多了,一定要加入代理池,我這裡用的上上一篇文章寫的代理池,我們給每個股票代碼賦予一個狀態值,一開始是outstanding,也就是1.如圖

神級的爬蟲工程師用Python教你爬取全站股票評論!買哪隻有底呢!

神級的爬蟲工程師用Python教你爬取全站股票評論!買哪隻有底呢!

嗯!當一個所有初始的股票狀態都為outstanding;當開始爬取的時候狀態改為:processing;爬取完成狀態改為:complete;失敗的股票重置狀態為:outstanding。為了能夠處理股票進程被終止的情況、我們設置一個計時參數,當超過這個值時;我們則將狀態重置為outstanding。

股票代碼的爬取很簡單,直接訪問主頁就好了

神級的爬蟲工程師用Python教你爬取全站股票評論!買哪隻有底呢!

代碼上比較簡單,如圖是其中一段

神級的爬蟲工程師用Python教你爬取全站股票評論!買哪隻有底呢!

爬取之後我們看看數據庫

神級的爬蟲工程師用Python教你爬取全站股票評論!買哪隻有底呢!

這裡5000來只股票

接下來看看股票評論的ajax請求

神級的爬蟲工程師用Python教你爬取全站股票評論!買哪隻有底呢!

隨便點開一隻股票,然後點擊裡面的討論就會觸發該請求,評論時個json數據,解析之後直接提取就好了,這裡簡單說說URL裡面的參數

如圖

神級的爬蟲工程師用Python教你爬取全站股票評論!買哪隻有底呢!

神級的爬蟲工程師用Python教你爬取全站股票評論!買哪隻有底呢!

神級的爬蟲工程師用Python教你爬取全站股票評論!買哪隻有底呢!

我們再處理一下

神級的爬蟲工程師用Python教你爬取全站股票評論!買哪隻有底呢!

神級的爬蟲工程師用Python教你爬取全站股票評論!買哪隻有底呢!

神級的爬蟲工程師用Python教你爬取全站股票評論!買哪隻有底呢!

神級的爬蟲工程師用Python教你爬取全站股票評論!買哪隻有底呢!

神級的爬蟲工程師用Python教你爬取全站股票評論!買哪隻有底呢!

神級的爬蟲工程師用Python教你爬取全站股票評論!買哪隻有底呢!

晚上開電腦跑了一個通宵,還以為自己的高性能電腦很吊,結果也只是跑了30萬條數據,上兩張結果圖

神級的爬蟲工程師用Python教你爬取全站股票評論!買哪隻有底呢!

神級的爬蟲工程師用Python教你爬取全站股票評論!買哪隻有底呢!

謝謝大家閱讀!謝謝蝸牛仔大大的文章,真的牛逼!

相關推薦

推薦中...