零基礎想學爬蟲的看過來了!手把手從安裝開始教你如何爬取網頁!

零基礎想學爬蟲的看過來了!手把手從安裝開始教你如何爬取網頁!

零基礎想學爬蟲的看過來了!手把手從安裝開始教你如何爬取網頁!

零基礎想學爬蟲的看過來了!手把手從安裝開始教你如何爬取網頁!

我們第一個爬蟲

創建第一個爬蟲類:tutorial/spiders/quotes_spider.py 小編推薦大家加一下這個群:330637182 這個群裡好幾千人了!大家遇到啥問題都會在裡面交流!而且免費分享零基礎入門資料 web開發 爬蟲資料一整套!是個非常好的學習交流地方!也有程序員大神給大家熱心解答各種問題!很快滿員了。欲進從速哦!各種PDF等你來下載!全部都是免費的哦!所以小編在群裡等你們過來一起交流學習呢!

零基礎想學爬蟲的看過來了!手把手從安裝開始教你如何爬取網頁!

零基礎想學爬蟲的看過來了!手把手從安裝開始教你如何爬取網頁!

  • name:標識爬蟲。它在項目中必須是唯一的,也就是說,您不能為不同的Spider設置相同的名稱。

  • start_requests():必須返回一個迭代的Requests(你可以返回請求列表或寫一個生成器函數),Spider將開始抓取。後續請求將從這些初始請求連續生成。

  • parse():將被調用來處理為每個請求下載的響應的方法。 response參數是一個TextResponse保存頁面內容的實例,並且具有更多有用的方法來處理它。

    該parse()方法通常解析響應,提取抓取的數據作為詞典,並且還找到要跟蹤的新網址並從中創建新的請求(Request)。

  • 零基礎想學爬蟲的看過來了!手把手從安裝開始教你如何爬取網頁!

零基礎想學爬蟲的看過來了!手把手從安裝開始教你如何爬取網頁!

零基礎想學爬蟲的看過來了!手把手從安裝開始教你如何爬取網頁!

零基礎想學爬蟲的看過來了!手把手從安裝開始教你如何爬取網頁!

零基礎想學爬蟲的看過來了!手把手從安裝開始教你如何爬取網頁!

XPath表達式非常強大,是Scrapy選擇器的基礎。事實上,CSS選底層也是用XPath。雖然也許不像CSS選擇器那麼流行,XPath表達式提供了更多的功能,因為除了導航結構之外,它還可以查看內容。使用XPath,您可以選擇以下內容:選擇包含文本“下一頁”的鏈接。這使得XPath非常適合於抓取任務,我們鼓勵你學習XPath,即使你已經知道如何構建CSS選擇器,它會使刮除更容易。

零基礎想學爬蟲的看過來了!手把手從安裝開始教你如何爬取網頁!

零基礎想學爬蟲的看過來了!手把手從安裝開始教你如何爬取網頁!

每個選擇器允許我們對它們的子元素執行進一步的查詢。

將第一個選擇器分配給一個變量,以便我們可以直接對特定的引用運行我們的CSS選擇器:

零基礎想學爬蟲的看過來了!手把手從安裝開始教你如何爬取網頁!

零基礎想學爬蟲的看過來了!手把手從安裝開始教你如何爬取網頁!

零基礎想學爬蟲的看過來了!手把手從安裝開始教你如何爬取網頁!

首先是提取我們要關注的網頁的鏈接。檢查我們的頁面,我們可以看到有一個鏈接到下一頁與下面的標記:

零基礎想學爬蟲的看過來了!手把手從安裝開始教你如何爬取網頁!

零基礎想學爬蟲的看過來了!手把手從安裝開始教你如何爬取網頁!

零基礎想學爬蟲的看過來了!手把手從安裝開始教你如何爬取網頁!

零基礎想學爬蟲的看過來了!手把手從安裝開始教你如何爬取網頁!

零基礎想學爬蟲的看過來了!手把手從安裝開始教你如何爬取網頁!

謝謝閱讀!

零基礎想學爬蟲的看過來了!手把手從安裝開始教你如何爬取網頁!

如有侵權請聯繫小編刪除!

相關推薦

推薦中...