python爬蟲：Scrapy框架中Spiders用法

Python 網絡爬蟲 Scrapy CSS 跳槽那些事兒平地摔VS天然呆 2019-06-09

Spider類定義瞭如何爬去某個網站，包括爬取的動作以及如何從網頁內容中提取結構化的數據，總的來說spider就是定義爬取的動作以及分析某個網頁

工作流程分析

以初始的URL初始化Request，並設置回調函數，當該request下載完畢並返回時，將生成response，並作為參數傳給回調函數. spider中初始的requesst是通過start_requests()來獲取的。start_requests()獲取 start_urls中的URL，並以parse以回調函數生成Request
在回調函數內分析返回的網頁內容，可以返回Item對象，或者Dict，或者Request，以及是一個包含三者的可迭代的容器，返回的Request對象之後會經過Scrapy處理，下載相應的內容，並調用設置的callback函數
在回調函數內，可以通過lxml，bs4，xpath,css等方法獲取我們想要的內容生成item
最後將item傳遞給Pipeline處理

我們以通過簡單的分析源碼來理解

我通常在寫spiders下寫爬蟲的時候，我們並沒有寫start_requests來處理start_urls中的url，這是因為我們在繼承的scrapy.Spider中已經寫過了，我們可以點開scrapy.Spider查看分析

通過上述代碼我們可以看到在父類裡這裡實現了start_requests方法，通過make_requests_from_url做了Request請求

如下圖所示的一個例子，parse回調函數中的response就是父類列start_requests方法調用make_requests_from_url返回的結果，並且在parse回調函數中我們可以繼續返回Request,如下屬代碼中yield Request()並設置回調函數。

spider內的一些常用屬性

我們所有自己寫的爬蟲都是繼承與spider.Spider這個類

name

定義爬蟲名字，我們通過命令啟動的時候用的就是這個名字，這個名字必須是唯一的

allowed_domains

包含了spider允許爬取的域名列表。當offsiteMiddleware啟用時，域名不在列表中URL不會被訪問

所以在爬蟲文件中，每次生成Request請求時都會進行和這裡的域名進行判斷

start_urls

起始的url列表

這裡會通過spider.Spider方法中會調用start_request循環請求這個列表中每個地址。

custom_settings

自定義配置，可以覆蓋settings的配置，主要用於當我們對爬蟲有特定需求設置的時候

設置的是以字典的方式設置:custom_settings = {}

from_crawler

這是一個類方法，我們定義這樣一個類方法，可以通過crawler.settings.get()這種方式獲取settings配置文件中的信息，同時這個也可以在pipeline中使用

start_requests()

這個方法必須返回一個可迭代對象，該對象包含了spider用於爬取的第一個Request請求

這個方法是在被繼承的父類中spider.Spider中寫的，默認是通過get請求，如果我們需要修改最開始的這個請求，可以重寫這個方法，如我們想通過post請求

make_requests_from_url(url)

這個也是在父類中start_requests調用的，當然這個方法我們也可以重寫

parse(response)

這個其實默認的回調函數

負責處理response並返回處理的數據以及跟進的url

該方法以及其他的Request回調函數必須返回一個包含Request或Item的可迭代對象

做什麼事情都需要不斷地堅持下去，編程也一樣。現在python語言十分火熱，職場對python的需求也很高，薪資待遇都很棒。所以希望大家能夠堅持學習，‘剩’者為王，堅持下來的人才有資格稱王。如果你覺得本文對你的學習有幫助的話，不妨點個關注，我會持續更新。

相關推薦

'Python中的Lambda，Map和Filter'

"今天的部分介紹了在Python中使用lambda，map和filter函數。我們將介紹每個的基本語法，並通過一些示例來熟悉使用它們。讓我們開始吧！*** Lambda***lambda運算符或lambda函數用於在Python中創建小型的、一次性的匿名函數對象基本語法la...

Python Java 2019-09-17

'python爬蟲模擬微博登錄'

"微博模擬登錄這是本次爬取的網址：https://weibo.com/一、請求分析找到登錄的位置，填寫用戶名密碼進行登錄操作看看這次請求響應的數據是什麼這是響應得到的數據，保存下來exectime: 8nonce: "HW9VSX"pcid: "gz-4ede4c6269a...

Python 微博網絡爬蟲百度 2019-09-16

'Python中的Requests模塊，星號和括號'

"requests模塊官方地址：https://github.com/psf/requests官方文檔：https://2.python-requests.org/en/master/用於http請求的模塊，用於網頁數據抓取七個主要方法Python資源共享群：62601...

Python JSON 2019-09-16

'Python學習乾貨史上最全的 Python 爬蟲工具列表大全'

"這個列表包含與網頁抓取和數據處理的Python庫。網絡通用urllib -網絡庫(stdlib)。requests -網絡庫。grab – 網絡庫（基於pycurl）。pycurl – 網絡庫（綁定libcurl）。urllib3 – Python HTTP庫，安全連接池...

Python 網絡爬蟲 HTML Scrapy XML 瀏覽器 CSS XHTML jQuery C語言 JSON Excel 可視化技術 2019-09-15

'Python批量刪除mysql中千萬級大量數據'

"場景描述線上 mysql 數據庫裡面有張表保存有每天的統計結果，每天有1千多萬條，這是我們意想不到的，統計結果咋有這麼多。運維找過來，磁盤佔了 200G ，最後問了運營，可以只保留最近3天的，前面的數據，只能刪了。刪，怎麼刪？關注，轉發，私信小編“01”即可免費領取Pyt...

Python MySQL 數據庫腳本語言 2019-09-15

'寫python爬蟲，不會正則怎麼行呢？另贈學習資料'

"導讀：正則在各語言中的使用是有差異的，本文以 Python 3 為基礎。本文主要講述的是正則的語法，對於 re 模塊不做過多描述，只會對一些特殊地方做提示。很多人覺得正則很難，在我看來，這些人一定是沒有用心。其實正則很簡單，根據二八原則，我們只需要懂 20% 的內容就可以...

Python 網絡爬蟲 Java 百度 2019-09-12

'Python爬蟲入門並不難，進階也很簡單！只需要這13個階段就夠了'

"互聯網的數據爆炸式的增長，而利用 Python 爬蟲我們可以獲取大量有價值的數據：（分享一套完整的爬蟲學習教程，免費獲取方式在文末哦）1.爬取數據，進行市場調研和商業分析爬取知乎優質答案，篩選各話題下最優質的內容；抓取房產網站買賣信息，分析房價變化趨勢、做不同區域的房價...

Python 網絡爬蟲 Scrapy 數據庫瀏覽器知乎新聞豆瓣網 CSS HTML 人生第一份工作推薦技術騰訊機器學習 2019-09-10

'「Python爬蟲」如何爬取翻頁url不變的網站'

"之前打算爬取一個圖片資源網站，但是在翻頁時發現它的url並沒有改變，無法簡單的通過request.get()訪問其他頁面。據搜索資料，瞭解到這些網站是通過ajax動態加載技術實現。即可以在不重新加載整個網頁的情況下，對網頁的某部分進行更新。幫忙轉發，關注，私信小編Pyth...

Python 網絡爬蟲瀏覽器 XML JSON 程序員操作系統 2019-09-09

'人見人愛的最新 Python 爬蟲利器'

"文 | 過了即是客編輯 | EarlGrey推薦 | 編程派公眾號（ID：codingpy）Python上有一個非常著名的HTTP庫——requests，相比大家都聽說過，用過的人都說好！現在requests庫的作者又發佈了一個新庫，叫做requests-html，看名字...

Python HTML 網絡爬蟲 Links CSS TeX 2019-09-09

'Python3網絡爬蟲中的requests高級用法詳解'

"本節我們再來了解下 Requests 的一些高級用法，如文件上傳，代理設置，Cookies 設置等等。1. 文件上傳我們知道 Reqeuests 可以模擬提交一些數據，假如有的網站需要我們上傳文件，我們同樣可以利用它來上傳，實現非常簡單，實例如下：import reque...

Python 網絡爬蟲 JSON 腳本語言 Origin 知乎 2019-09-07

'用本書中游戲學Python基礎，再看這兩本書，可掌握Python3的全部'

"在之前的內容裡，我給大家介紹了Python的相關遊戲，然而，相對於Python3的版本，很多書籍並不適合基礎薄弱的學習者。所以，今天給大家推薦這三本書，從用遊戲入門Python→到Python2和3版本的轉換→再到深入Python3學習，有這三本書就足夠了。第一本書：用1...

Python 文章 Word 動畫小遊戲井字棋 2019-09-07

'各大網站中的爬蟲Python是怎樣出來的——基礎'

"一、需求:抓取主頁面：百度百科Python詞條 https://baike.baidu.com/item/Python/407313分析上面的源碼格式，便於提取：關鍵詞分析:位於class為lemmaWgt-lemmaTitle-title的dd元素的第一個h1標籤內...

Python 網絡爬蟲 HTML 瀏覽器 PyCharm Mozilla XML 百度百科 2019-09-06

'Python爬蟲：bilibili彈幕爬取與比對分析'

"最近受人之託研究了下b站的數據爬取做個小工具，最後朋友說不需要了，本著開源共享的原則，將研究成果與大家分享一波，話不多說直接上乾貨需求分析給定up主uid和用戶uid，爬取用戶在該up主所有視頻中發的所有彈幕 #pgc-card .pgc-card-href { ...

Bilibili Python 網絡爬蟲 XML 數據庫算法 Google 瀏覽器 JSON 百度鏡音雙子 2019-09-05

'Python GUI教程（一）：在PyQt5中創建第一個GUI圖形用戶界面'

"一、第一個GUI首先，我們使用pyqt5的窗口小部件創建一個最基本的GUI：# coding:utf-8import sysfrom PyQt5.QtWidgets import *app = QApplication(sys.argv)win = QWidget()wi...

Windows Python 2019-09-05

'在人工智能的潮流中該學Python還是C/C++？'

"人工智能在現代世界中變得越來越相似，其中一切都是由數據和自動化驅動的。我們將日常生活中的很大一部分用於與智能設備進行交互。人工智能是這一切的核心，它正在成為我們不斷變化的生活方式中不可或缺的一部分。你可能會痴迷於瞭解AI領域正在發生的事情，例如開發階段，成就，使用的產品和...

Python 人工智能 C語言 Java 程序員 UNIX 編程語言編譯器電腦大數據自由軟件集成開發環境硬件操作系統數據結構機器學習算法軟件 GPU 工程師人生第一份工作 2019-09-03

'Python中循環操作和Numpy數組運算性能優化——Numba使用介紹'

"直到遇到Numba，才知道“一行代碼讓Python的運行速度提高100倍” 的論調，並不是譁眾取寵。Numba Numba最初是由Continuum Analytics內部開發，此公司也開發了著名的Anaconda，但現在它是開源的。Numba是Python的即時編譯器...

Python Linux GitHub Fortran Continuum GPU 中央處理器 ARM 數值算法 Windows 編譯器超微半導體 LLVM 2019-09-03

'這樣區分Python中五種下劃線，不再容易混淆'

"學習Python的時候，我們會了解到Python中5種下劃線，下劃線所在的位置不同，其含義也是不一樣的，這也就構成了Python中下劃線的絢爛王國！在正式給大家介紹之前可以看下這個簡短的“速查表”，總結了五種不同的下劃線命名約定及其含義，先有一個基礎的印象，一起來看吧：1...

Python 程序員 Java 2019-09-01

'自學爬蟲分佈式，我需要掌握哪些Python基礎？附贈視頻資料'

"接觸爬蟲已經有一段時間了，常常有人問我：我會點Python，想自學爬蟲，你看用什麼方法好呢？我：我喜歡邊做項目邊學習，爬取過程中遇到問題再百度，擴展xx：我看了網上教材，過程很簡略，最後給了一個編碼，有的我實例一下好像還不成功我：代碼也會“過期”，尤其是爬蟲，需要自己修改...

Python 網絡爬蟲騰訊QQ 2019-09-01

'徹底理解Python中的yield'

"沒有用過的東西，沒有深刻理解的東西很難說自己會，而且被別人一問必然破綻百出。雖然之前有接觸過python中的生成器的概念，但是隻是走馬觀花，這兩天的一次交談中，別人問到了生成器，頓時語塞，死活想不起來曾經看過的東西，之後突然想到了yield，但為時已晚，只能說概念不清，所...

Python 數據結構 2019-08-31

'Flask vs Django，Python Web 開發用哪個框架更好？'

"您是否正在考慮使用 Python 開發網站？然後你可能聽說過 Django 和 Flask。這兩個是 Python 最流行的 Web 框架（當然還有更多）。現在的問題是你使用哪一個更合適？本文旨在簡要介紹兩種框架的工作原理，它們的相同點和不同點，以及在選擇框架時應考慮的一...

Django Python Flask 技術腳本語言數據庫 Instagram 阿明·範·比倫 Pinterest 2019-08-29

推薦中...