什麼是網絡爬蟲?這篇文章手把手教你從Python爬取facebook臉書
為了演示瀏覽器和API的使用,我們將會研究Facebook的網站。目前,從月活用戶數維度來看,Facebook是世界上最大的社交網絡之一,因此其用戶數據非...
這個爬蟲寫得好累,就簡單講一下思路吧。雪球網股票的評論內容是不能直接訪問的,必須要攜帶在第一次訪問時雪球網寫進本地的cookie(其實你隨便打開一次官網就是屬於第一次訪問了,那時候 不需要cookie),在給大家分享之前呢,小編推薦一下一個挺不錯的交流寶地,裡面都是一群熱愛並在學習Python的小夥伴們,大幾千了吧,各種各樣的人群都有,特別喜歡看到這種大家一起交流解決難題的氛圍,群資料也上傳了好多,各種大牛解決小白的問題,這個Python群:330637182 歡迎大家進來一起交流討論,一起進步,儘早掌握這門Python語言。
爬取思路是這樣的,先挖取所有股票的代碼,放進數據庫,然後根據股票代碼爬取每一隻股票的評論,多了,一定要加入代理池,我這裡用的上上一篇文章寫的代理池,我們給每個股票代碼賦予一個狀態值,一開始是outstanding,也就是1.如圖
嗯!當一個所有初始的股票狀態都為outstanding;當開始爬取的時候狀態改為:processing;爬取完成狀態改為:complete;失敗的股票重置狀態為:outstanding。為了能夠處理股票進程被終止的情況、我們設置一個計時參數,當超過這個值時;我們則將狀態重置為outstanding。
股票代碼的爬取很簡單,直接訪問主頁就好了
代碼上比較簡單,如圖是其中一段
爬取之後我們看看數據庫
這裡5000來只股票
接下來看看股票評論的ajax請求
隨便點開一隻股票,然後點擊裡面的討論就會觸發該請求,評論時個json數據,解析之後直接提取就好了,這裡簡單說說URL裡面的參數
如圖
我們再處理一下
晚上開電腦跑了一個通宵,還以為自己的高性能電腦很吊,結果也只是跑了30萬條數據,上兩張結果圖
謝謝大家閱讀!謝謝蝸牛仔大大的文章,真的牛逼!