神級的爬蟲工程師用Python教你爬取全站股票評論！買哪隻有底呢！

編程語言 Python 網絡爬蟲工程師 python學院 python學院 2017-10-12

這個爬蟲寫得好累，就簡單講一下思路吧。雪球網股票的評論內容是不能直接訪問的，必須要攜帶在第一次訪問時雪球網寫進本地的cookie（其實你隨便打開一次官網就是屬於第一次訪問了，那時候不需要cookie），在給大家分享之前呢，小編推薦一下一個挺不錯的交流寶地，裡面都是一群熱愛並在學習Python的小夥伴們，大幾千了吧，各種各樣的人群都有，特別喜歡看到這種大家一起交流解決難題的氛圍，群資料也上傳了好多，各種大牛解決小白的問題，這個Python群：330637182 歡迎大家進來一起交流討論，一起進步，儘早掌握這門Python語言。

神級的爬蟲工程師用Python教你爬取全站股票評論！買哪隻有底呢！

爬取思路是這樣的，先挖取所有股票的代碼，放進數據庫，然後根據股票代碼爬取每一隻股票的評論，多了，一定要加入代理池，我這裡用的上上一篇文章寫的代理池，我們給每個股票代碼賦予一個狀態值，一開始是outstanding，也就是1.如圖

神級的爬蟲工程師用Python教你爬取全站股票評論！買哪隻有底呢！

神級的爬蟲工程師用Python教你爬取全站股票評論！買哪隻有底呢！

嗯！當一個所有初始的股票狀態都為outstanding；當開始爬取的時候狀態改為：processing；爬取完成狀態改為：complete；失敗的股票重置狀態為：outstanding。為了能夠處理股票進程被終止的情況、我們設置一個計時參數，當超過這個值時；我們則將狀態重置為outstanding。

股票代碼的爬取很簡單，直接訪問主頁就好了

神級的爬蟲工程師用Python教你爬取全站股票評論！買哪隻有底呢！

代碼上比較簡單，如圖是其中一段

神級的爬蟲工程師用Python教你爬取全站股票評論！買哪隻有底呢！

爬取之後我們看看數據庫

神級的爬蟲工程師用Python教你爬取全站股票評論！買哪隻有底呢！

這裡5000來只股票

接下來看看股票評論的ajax請求

神級的爬蟲工程師用Python教你爬取全站股票評論！買哪隻有底呢！

隨便點開一隻股票，然後點擊裡面的討論就會觸發該請求，評論時個json數據，解析之後直接提取就好了，這裡簡單說說URL裡面的參數

如圖

神級的爬蟲工程師用Python教你爬取全站股票評論！買哪隻有底呢！

神級的爬蟲工程師用Python教你爬取全站股票評論！買哪隻有底呢！

神級的爬蟲工程師用Python教你爬取全站股票評論！買哪隻有底呢！

我們再處理一下

神級的爬蟲工程師用Python教你爬取全站股票評論！買哪隻有底呢！

神級的爬蟲工程師用Python教你爬取全站股票評論！買哪隻有底呢！

神級的爬蟲工程師用Python教你爬取全站股票評論！買哪隻有底呢！

神級的爬蟲工程師用Python教你爬取全站股票評論！買哪隻有底呢！

神級的爬蟲工程師用Python教你爬取全站股票評論！買哪隻有底呢！

神級的爬蟲工程師用Python教你爬取全站股票評論！買哪隻有底呢！

晚上開電腦跑了一個通宵，還以為自己的高性能電腦很吊，結果也只是跑了30萬條數據，上兩張結果圖

神級的爬蟲工程師用Python教你爬取全站股票評論！買哪隻有底呢！

神級的爬蟲工程師用Python教你爬取全站股票評論！買哪隻有底呢！

謝謝大家閱讀！謝謝蝸牛仔大大的文章，真的牛逼！

相關推薦

推薦中...