小夥伴們在工作當中,經常有獲取網絡數據的需求,例如人事看看新設的崗位市場價,或者寫報告需要添點料,這個時候去網上查複製粘貼顯得有些慢,寫爬蟲又不太會,這個時候python是個好選擇,簡單易懂好上手。
示例1:房天下二手房爬蟲
使用requests獲取每一個url的內容,十分簡潔。其中header是模仿瀏覽器訪問,因為好多網站是限制非瀏覽器訪問行為的,所以我們隨機使用一些瀏覽器信息:
下面是通過beautifulsoup解析網頁:
上面是爬蟲的主要部分,解析二手房列表的每一頁數據,並保存到csv文件。循環抓取每一頁需要找一下url的規律,如房天下的:
其中,area是個數字,帶別了區域,i是頁碼,觀察發現是從31開始的。
還有就是,存入的csv由於編碼問題直接用excel打開會存在亂碼,可以導入access或mysql數據庫再導出excel,或者用python的SQLite、mysql.connector模塊存入數據庫。
示例2:58同城二手房爬蟲
上面是58二手房爬蟲的核心部分,解析每一頁的二手房列表。對於url的解析和循環抓取與房天下相似:
從上面不難發現,其實寫小爬蟲,大部分工作需要解析html的結構,瞭解怎樣提取需要的信息。通過標籤或者正則表達式,只要能夠確定內容所在的節點就可以。可以用Chrome的開發者調試工具試試。
如果是小批量的數據抓取,這兩個小程序完全夠用;但網站一般有反爬蟲措施,如果數據量比較大的話還要考慮IP代理等問題,這個我們以後再談。
下一篇我們將分享如何通過微博開放平臺獲取微博簽到數據。
相關推薦
'python爬蟲模擬微博登錄'
"微博模擬登錄這是本次爬取的網址:https://weibo.com/一、請求分析找到登錄的位置,填寫用戶名密碼進行登錄操作看看這次請求響應的數據是什麼這是響應得到的數據,保存下來exectime: 8nonce: "HW9VSX"pcid: "gz-4ede4c6269a...
'為啥子這麼多人開始學Python?看完這些你就清楚了'
"Python具有豐富和強大的庫。它常被暱稱為膠水語言,能夠把用其他語言製作的各種模塊(尤其是C/C++)很輕鬆地聯結在一起。在小編看來,基本上可以負責任地認為,Python 可以做任何事情。無論是從入門級選手到專業級數據挖掘、科學計算、圖像處理、人工智能,Python 都...
'寫python爬蟲,不會正則怎麼行呢?另贈學習資料'
"導讀:正則在各語言中的使用是有差異的,本文以 Python 3 為基礎。本文主要講述的是正則的語法,對於 re 模塊不做過多描述,只會對一些特殊地方做提示。很多人覺得正則很難,在我看來,這些人一定是沒有用心。其實正則很簡單,根據二八原則,我們只需要懂 20% 的內容就可以...
'學習Python細分化為這12個階段,各階段思維導圖助你輕鬆學Python'
"分12個階段學習Python,各個階段思維導圖奉上,這樣你還學不會?學習Python細分化為這12個階段,各階段思維導圖助你輕鬆學Python:1.Python 解釋器:2.Python數據結構:3.變量與運算符:4.Python 流程控制:5.Python 文件處理:6...
推薦中...