python爬蟲：帶你一步一步理解爬蟲的性能

網絡爬蟲 Python 平地摔VS天然呆 2019-06-04

爬蟲性能相關

這裡我們通過請求網頁例子來一步步理解爬蟲性能

當我們有一個列表存放了一些url需要我們獲取相關數據，我們首先想到的是循環

簡單的循環串行

這一種方法相對來說是最慢的，因為一個一個循環，耗時是最長的，是所有的時間總和

代碼如下：

import requests
url_list = [
 'http://www.baidu.com',
 'http://www.pythonsite.com',
 'http://www.cnblogs.com/'
]
for url in url_list:
 result = requests.get(url)
 print(result.text)

通過線程池

通過線程池的方式訪問，這樣整體的耗時是所有連接裡耗時最久的那個，相對循環來說快了很多

import requests
from concurrent.futures import ThreadPoolExecutor
def fetch_request(url):
 result = requests.get(url)
 print(result.text)
url_list = [
 'http://www.baidu.com',
 'http://www.bing.com',
 'http://www.cnblogs.com/'
]
pool = ThreadPoolExecutor(10)
for url in url_list:
 #去線程池中獲取一個線程，線程去執行fetch_request方法
 pool.submit(fetch_request,url)
pool.shutdown(True)

線程池+回調函數

這裡定義了一個回調函數callback

from concurrent.futures import ThreadPoolExecutor
import requests
def fetch_async(url):
 response = requests.get(url)
 return response
def callback(future):
 print(future.result().text)
url_list = [
 'http://www.baidu.com',
 'http://www.bing.com',
 'http://www.cnblogs.com/'
]
pool = ThreadPoolExecutor(5)
for url in url_list:
 v = pool.submit(fetch_async,url)
 #這裡調用回調函數
 v.add_done_callback(callback)
pool.shutdown()

通過進程池

通過進程池的方式訪問，同樣的也是取決於耗時最長的，但是相對於線程來說，進程需要耗費更多的資源，同時這裡是訪問url時IO操作，所以這裡線程池比進程池更好

import requests
from concurrent.futures import ProcessPoolExecutor
def fetch_request(url):
 result = requests.get(url)
 print(result.text)
url_list = [
 'http://www.baidu.com',
 'http://www.bing.com',
 'http://www.cnblogs.com/'
]
pool = ProcessPoolExecutor(10)
for url in url_list:
 #去進程池中獲取一個線程，子進程程去執行fetch_request方法
 pool.submit(fetch_request,url)
pool.shutdown(True)

進程池+回調函數

這種方式和線程+回調函數的效果是一樣的，相對來說開進程比開線程浪費資源

from concurrent.futures import ProcessPoolExecutor
import requests
def fetch_async(url):
 response = requests.get(url)
 return response
def callback(future):
 print(future.result().text)
url_list = [
 'http://www.baidu.com',
 'http://www.bing.com',
 'http://www.cnblogs.com/'
]
pool = ProcessPoolExecutor(5)
for url in url_list:
 v = pool.submit(fetch_async, url)
 # 這裡調用回調函數
 v.add_done_callback(callback)
pool.shutdown()

如果喜歡本文的話，不妨點個關注。

所有的努力都值得期許，每一份夢想都應該灌溉！

相關推薦

'一文帶你瞭解爬蟲'

"前段時間我媽突然問我：兒子，爬蟲是什麼？我當時既驚訝又尷尬，驚訝的是為什麼我媽會對爬蟲好奇？尷尬的是我該怎麼給她解釋呢？一、爬蟲介紹1.爬蟲是什麼網絡爬蟲(web crawler 簡稱爬蟲)就是按照一定規則從互聯網上抓取信息的程序，既然是程序那和正常用戶訪問頁面有何區別？...

網絡爬蟲搜索引擎 Python 百度搜狗 Java 軟件 PHP 跳槽那些事兒 Linux Google 人生第一份工作騰訊 MySQL 中國鐵路客戶服務中心雅虎金山軟件 Perl 海豚美團網 Bing 天貓淘寶網 Ruby 螞蟻金服蟒蛇創業企鵝 2019-09-19

'Python的概念化知識、優化技巧和常見算法性能優化（高級下篇）'

"6、字典實現原理CPython中使用偽隨機探測的散列表作為字典底層數據結構。只有可哈希對象才能作為字典的鍵。如果一個對象有一個在整個生命週期都不變的散列值，而且這個值可以與其他對象進行比較，那麼這個對象就是可哈希Python中所有不可變的內置類型都是可哈希的。可變（列表，...

Python 算法數據結構 XML 編譯器 2019-09-17

'《What the f*ck Python!》那難以理解和反人類直覺的例子及原理'

"歡迎各位小哥哥小姐姐閱讀本<小生>的文章,對大家學習有幫助,請點贊加關注哦!!!!!!!!!!您的點贊和關注將是我持續更新的動力呢.^v^有不懂的問題可以私聊我哦!前言最近，發現了一個在GitHub關於Python的一個非常有趣的項目。這個項目叫《What t...

Python Calvin Klein JavaScript Stack Overflow 機器學習腳本語言 2019-09-16

'阿里在職架構師推出了的一份Python學習清單，這一定是你最需要的'

"站在風口上，豬都能飛起來。人工智能風口，讓Pyhon這門膠水語言轉變成非常火的網紅語言。編程功力深厚的程序員花一兩個星期就能上手Python，而一些新手程序員花幾個月就可以上手。學編程，用Python確實是一個相當不錯的選擇。不過，面對Python網上有紛雜的資料，一些程...

Python MySQL 數據庫 Linux 程序員讀書 Django 面向對象程序編程 CSS HTML JavaScript MongoDB jQuery 人工智能編程語言算法硬件物聯網路由器操作系統 2019-09-16

'python爬蟲模擬微博登錄'

"微博模擬登錄這是本次爬取的網址：https://weibo.com/一、請求分析找到登錄的位置，填寫用戶名密碼進行登錄操作看看這次請求響應的數據是什麼這是響應得到的數據，保存下來exectime: 8nonce: "HW9VSX"pcid: "gz-4ede4c6269a...

Python 微博網絡爬蟲百度 2019-09-16

'Python學習乾貨史上最全的 Python 爬蟲工具列表大全'

"這個列表包含與網頁抓取和數據處理的Python庫。網絡通用urllib -網絡庫(stdlib)。requests -網絡庫。grab – 網絡庫（基於pycurl）。pycurl – 網絡庫（綁定libcurl）。urllib3 – Python HTTP庫，安全連接池...

Python 網絡爬蟲 HTML Scrapy XML 瀏覽器 CSS XHTML jQuery C語言 JSON Excel 可視化技術 2019-09-15

'入門Python，總遇到這樣那樣的安裝問題，手把手教會你'

"轉發本文並私信我"python"，即可獲得Python資料以及更多系列文章(持續更新的)最近有挺多小夥伴問我要入門 Python 的資料，還有小夥伴完全沒有入門 Python 就直接購買了我的 pandas 專欄。因此我決定寫幾篇 Python 數據處理分析必備的入門知識...

Python 腳本語言 Windows 電腦操作系統文章 2019-09-15

'存信數據平臺公信寶被封“爬蟲”為罪魁禍首？'

"9月11日，金色財經獨家現場確認存信數據平臺公信寶被杭州市公安局西湖分局古蕩派出所查封，另有可靠消息稱有公信寶員工失聯。對於公信寶被查，有分析認為，大概率是因為“數據”的事情，而不是因為“區塊鏈和發幣”的事情。公信寶是何公司？公信寶的主體運營公司為杭州存信數據科技有限公司...

網絡爬蟲技術電腦運營商杭州法律區塊鏈跳槽那些事兒刑法大數據上海蜘蛛天津新聞芝麻信用西湖電子商務爬行動物歷史 2019-09-15

'他只靠Python就找到了一份年薪50W的工作，有了這套教程你也可以'

"Python現在非常火，語法簡單而且功能強大，很多同學都想學Python！所以小的給各位看官們準備了高價值Python學習視頻教程及相關電子版書籍，歡迎前來免費領取！1我沒在超大型公司待過，但是作為一個python愛好者和使用者，簡單說一下自己的想法。（1）一定要掌握計算...

Python 英語技術電腦 Git 算法多看閱讀人生第一份工作數學 Linux 數據庫數據結構 HTML5 Vim 上海網絡爬蟲北上廣操作系統 JavaScript 數據挖掘網易有道軟件工程 2019-09-14

'幣圈大佬投資的區塊鏈公司遭查封，幣價盤中暴跌30%，竟是爬蟲惹的禍？創始人來頭不小'

"因爬蟲業務導致用戶私密數據洩露，由真格基金、李笑來參與投資的知名幣圈項目公信寶運營主體——杭州存信數據科技有限公司已被公安機關貼上了封條。受此消息影響，該公司發行的數字貨幣盤中暴跌最高超過30%。值得注意的是，公信寶團隊今年6月份從二級市場上，以7.69元人民幣單價回購了...

區塊鏈網絡爬蟲投資數字貨幣金融技術大數據京東商城運營商杭州支付寶法律腳本語言中國聯通證券投資基金頭號大贏家| 理財大賽第二季人生第一份工作電信數據庫芝麻信用同花順 2019-09-14

'為啥子這麼多人開始學Python？看完這些你就清楚了'

"Python具有豐富和強大的庫。它常被暱稱為膠水語言，能夠把用其他語言製作的各種模塊（尤其是C/C++）很輕鬆地聯結在一起。在小編看來，基本上可以負責任地認為，Python 可以做任何事情。無論是從入門級選手到專業級數據挖掘、科學計算、圖像處理、人工智能，Python 都...

Python 人工智能編程語言 0verflow Stack Overflow 數據挖掘 Google 圖像處理 Excel 機器學習 C語言 Java 微軟 GitHub 程序員電腦腳本語言 Facebook 人生第一份工作設計 2019-09-14

'金九銀十，你準備好了嗎？沒點Python面試題乾貨怎麼行？（一）'

"職場人沒有不知道：金三銀四，金九銀十的說法兒吧，今天干貨奉上，100個Python面試高頻題目。一. 遇到過得反爬蟲策略以及解決方法?1.通過headers反爬蟲2.基於用戶行為的發爬蟲：(同一IP短時間內訪問的頻率)3.動態網頁反爬蟲(通過ajax請求數據，或者通過J...

Python Scrapy 人生第一份工作 Redis HTML 數據庫網絡爬蟲 JavaScript 瀏覽器 jQuery 跳槽那些事兒 2019-09-13

'圖解Numpy精翻版，一文帶你入門Python數據處理'

"本文精心翻譯自Jay Alammar的博客：https://jalammar.github.io/visual-numpy/，其用圖解的方式詳細介紹了 NumPy的功能和使用示例。NumPy 是 Python 生態中數據分析、機器學習和科學計算的基礎。它極大地簡化了向量和...

Python 機器學習算術數據結構廣播 2019-09-13

'Java和Python，我該選哪個？10年的大牛為你詳細解析兩種崗位前景'

"聲明：這是一篇容易引起撕逼的文章，為了祖國和諧，人民安康，請各位看官儘量理性討論。同時，這篇文章是面向一些初入行的朋友進行一些相對中肯一點的分析和建議而已，雖然有濃厚的個人色彩，但我還是儘量以事實說話，以代碼說話，大牛們就不要拿自己的牛逼經驗來這裡裝逼了，當然，你如果非得...

Java Python 技術編程語言程序員算法設計文章 2019-09-12

'寫python爬蟲，不會正則怎麼行呢？另贈學習資料'

"導讀：正則在各語言中的使用是有差異的，本文以 Python 3 為基礎。本文主要講述的是正則的語法，對於 re 模塊不做過多描述，只會對一些特殊地方做提示。很多人覺得正則很難，在我看來，這些人一定是沒有用心。其實正則很簡單，根據二八原則，我們只需要懂 20% 的內容就可以...

Python 網絡爬蟲 Java 百度 2019-09-12

'玩手機不如自學一下Python，清華1000集視頻教程大彙總無償送給你'

"Python一句話概括：需要拿著遊標卡尺學習的語言python是一款服務器端解釋型開源非編譯腳本語言。它常被暱稱為膠水語言，能夠把用其他語言製作的各種模塊（尤其是C/C++）很輕鬆地聯結在一起。Python的優勢：Python學習簡單，被譽為“最易學習的語言”。Pytho...

Python MySQL Django Git Linux jQuery 物聯網人工智能 JavaScript C語言數據庫清華大學 HTML CSS 黑客機器學習人民的名義 MongoDB 大數據 Java 腳本語言路由器編程語言硬件算法操作系統 2019-09-10

'看完本文若還不能讓你學通python，我願永久退出編程界'

"0基礎小白怎麼學Python？今天給大家分享一些學習Python的基本概念圖，入門書籍、視頻教程以及學習路上最有效的方法。Python基本概念最全圖1.Python 解釋器：2.Python數據結構：3.變量與運算符：4.Python 流程控制：5.Python 文件處理...

Python 程序員工程師機器學習跳槽那些事兒數據結構網絡爬蟲 2019-09-10

推薦中...