python網絡爬蟲之:獲取IP代理

編程語言 Python 網絡爬蟲 YouTube 吾愛python 2017-05-31

熱愛python,分享pytohn爬蟲和web開發的知識

代理就是換個身份。網絡中的身份之一就是IP。比如,我們身在牆內,想要訪問google、u2b、fb等,直接訪問是404,所以要換個不會被牆的IP,比如國外的IP等。這個就是簡單的代理。

在爬蟲中,有些網站可能為了防止爬蟲或者DDOS等,會記錄每個IP的訪問次數,比如,有些網站允許一個IP在1s(或者別的)只能訪問10次等,那麼我們就需要訪問一次換一個IP(具體什麼策略,自己決定)。

網上有很多免費的代理IP網站,但是手動更改的話,很浪費時間,並且免費的IP有很多不可用。所以,我們可以用爬蟲去爬IP。這裡我們用http://www.xicidaili.com/nn/1測試,聲明:僅學習交流,切勿用作商業用途等。

python網絡爬蟲之:獲取IP代理

Python學習交流群:392521592 ,每天分享更新。

Python web方向前景調研報告

免費IP代理地址

python代碼抓取這些IP代理地址並做校驗是否有效。

python網絡爬蟲之:獲取IP代理

Python學習交流群:392521592 ,每天分享更新。

抓取某指定頁代理地址

python網絡爬蟲之:獲取IP代理

Python學習交流群:392521592 ,每天分享更新。

根據得到的地址,調用校驗方法,將有效的地址保存到txt文件中

python網絡爬蟲之:獲取IP代理

Python學習交流群:392521592 ,每天分享更新。

檢查代理是否有效

python網絡爬蟲之:獲取IP代理

Python學習交流群:392521592 ,每天分享更新。

OK,現在已經拿到有效的IP代理地址了,後續留給爬蟲用了

如果大家有什麼不理解的地方,可以在評論裡面提出來,如果覺得還不錯,請點贊或者分享給你的朋友,以鼓勵我不斷前行。

相關推薦

推薦中...