零基礎想學爬蟲的看過來了！手把手從安裝開始教你如何爬取網頁！

ç½ç»ç¬è« CSS ç¨åºå Scrapy ç¬è¡å¨ç© pythonå¦é¢ python學院 2017-11-11

我們第一個爬蟲

創建第一個爬蟲類：tutorial/spiders/quotes_spider.py 小編推薦大家加一下這個群：330637182 這個群裡好幾千人了！大家遇到啥問題都會在裡面交流！而且免費分享零基礎入門資料 web開發爬蟲資料一整套！是個非常好的學習交流地方！也有程序員大神給大家熱心解答各種問題！很快滿員了。欲進從速哦！各種PDF等你來下載！全部都是免費的哦！所以小編在群裡等你們過來一起交流學習呢！

零基礎想學爬蟲的看過來了！手把手從安裝開始教你如何爬取網頁！

name：標識爬蟲。它在項目中必須是唯一的，也就是說，您不能為不同的Spider設置相同的名稱。
start_requests()：必須返回一個迭代的Requests（你可以返回請求列表或寫一個生成器函數），Spider將開始抓取。後續請求將從這些初始請求連續生成。
parse()：將被調用來處理為每個請求下載的響應的方法。 response參數是一個TextResponse保存頁面內容的實例，並且具有更多有用的方法來處理它。
該parse()方法通常解析響應，提取抓取的數據作為詞典，並且還找到要跟蹤的新網址並從中創建新的請求（Request）。

零基礎想學爬蟲的看過來了！手把手從安裝開始教你如何爬取網頁！

XPath表達式非常強大，是Scrapy選擇器的基礎。事實上，CSS選底層也是用XPath。雖然也許不像CSS選擇器那麼流行，XPath表達式提供了更多的功能，因為除了導航結構之外，它還可以查看內容。使用XPath，您可以選擇以下內容：選擇包含文本“下一頁”的鏈接。這使得XPath非常適合於抓取任務，我們鼓勵你學習XPath，即使你已經知道如何構建CSS選擇器，它會使刮除更容易。

零基礎想學爬蟲的看過來了！手把手從安裝開始教你如何爬取網頁！