Scrapy爬蟲：果殼熱門和精彩問答信息爬取

NoSQL Scrapy 網絡爬蟲 MongoDB 布咯咯 2017-06-24

果殼

一：前言

繼續練習Scrapy框架，這次抓取的果殼問答網站的熱門問答和精彩問答相關信息，信息如下：標題，關注量，回答數目，簡介等。之後保存到mongodb和json文件中以備後續使用。代碼地址：https://github.com/rieuse/ScrapyStudy

二：運行環境

IDE：Pycharm 2017
Python3.6
pymongo 3.4.0
scrapy 1.3.3
三：實例分析
1.首先進入果殼問答http://www.guokr.com/ask/ ，我這次爬取的是熱門問答和精彩問答的全部信息。

Scrapy爬蟲：果殼熱門和精彩問答信息爬取

2.進入熱門問答和精彩問答，他們的頁面結構是一樣的。網址是www.guokr.com/ask/hottest 和www.guokr.com/ask/highlight 然後他們都有很多頁面，點擊下一頁後頁面地址就會加上後綴加上 (?page=數字)，後面的數字就是頁面的數目，隨後我們將使用列表迭代生成我們爬取的頁面地址。

start_urls = ['http://www.guokr.com/ask/hottest/?page={}'.format(n) for n in range(1, 8)] + ['http://www.guokr.com/ask/highlight/?page={}'.format(m) for m in range(1, 101)]

3.抓取內容：問答的關注，回答，標題，簡介。

Scrapy爬蟲：果殼熱門和精彩問答信息爬取

4.網頁結構分析：全部問答內容在class="ask-list-cp"的ul下的li中，

所以對應的xpath地址如下，問答的單個信息的xpath取值是在全部信息的基礎上取的。這裡xpath選取比較靈活，可以使用屬性，不同的相對位置。很多方式都可以選擇到我們需要的數據，一種不成功就換其他的。比如這裡的幾個div都有自己單獨的屬性，就可以利用這個去選擇。

Scrapy爬蟲：果殼熱門和精彩問答信息爬取

四：實戰代碼

分析好頁面結構和數據位置就可以使用scrapy框架來抓取數據了。完整代碼地址：github.com/rieuse/ScrapyStudy

首先使用命令行工具輸入代碼創建一個新的Scrapy項目，之後創建一個爬蟲。

Scrapy爬蟲：果殼熱門和精彩問答信息爬取

2.打開Guoke文件夾中的items.py，改為以下代碼，定義我們爬取的項目。

Scrapy爬蟲：果殼熱門和精彩問答信息爬取

3.配置middleware.py配合settings中的User_Agent設置可以在下載中隨機選擇UA有一定的反ban效果，在原有代碼基礎上加入下面代碼。這裡的user_agent_list可以加入更多。

Scrapy爬蟲：果殼熱門和精彩問答信息爬取

4.明確一下目標，這是抓取的數據保存到mongodb數據庫中和本地json文件。所以需要設置一下Pipeline

Scrapy爬蟲：果殼熱門和精彩問答信息爬取

5.然後設置裡面也要修改一下，這樣才能啟動Pipeline相關配置，最後可以保存相關數據。

Scrapy爬蟲：果殼熱門和精彩問答信息爬取

6.最後就是重點了，打開spiders文件夾中的guoke.py，改為以下代碼，這個是爬蟲主程序。這裡面的開始鏈接就是熱門回答和精彩回答結合。

Scrapy爬蟲：果殼熱門和精彩問答信息爬取

五：總結

先來看看抓取後的效果如何，mongodb我使用的可視化客戶端是robomongodb，日常打開代碼的工具是notepad++，atom，vscode都還不錯推薦一波。代碼都放在github中了，有喜歡的朋友可以點擊 start follw，https://github.com/rieuse 。

mongodb：

Scrapy爬蟲：果殼熱門和精彩問答信息爬取

json文件：

Scrapy爬蟲：果殼熱門和精彩問答信息爬取

相關推薦

'「Python爬蟲」如何爬取翻頁url不變的網站'

"之前打算爬取一個圖片資源網站，但是在翻頁時發現它的url並沒有改變，無法簡單的通過request.get()訪問其他頁面。據搜索資料，瞭解到這些網站是通過ajax動態加載技術實現。即可以在不重新加載整個網頁的情況下，對網頁的某部分進行更新。幫忙轉發，關注，私信小編Pyth...

Python 網絡爬蟲瀏覽器 XML JSON 程序員操作系統 2019-09-09

'爬蟲爬取還需要驗證？我爬某人爬資源從來都不需要誰的同意'

"前言很多時候我們做 Python 爬蟲時或者自動化測試時需要用到 selenium 庫，我們經常會卡在登錄的時候，登錄驗證碼是最頭疼的事情，特別是如今的文字驗證碼和圖形驗證碼。文字和圖形驗證碼還加了干擾線，本文就來講講怎麼繞過登錄頁面。登錄頁面的驗證，比如以下的圖形驗證碼...

網絡爬蟲 Chrome 瀏覽器 Python Google 百度腳本語言 Mozilla 簡書 Firefox 機器學習 2019-09-06

'Python爬蟲：bilibili彈幕爬取與比對分析'

"最近受人之託研究了下b站的數據爬取做個小工具，最後朋友說不需要了，本著開源共享的原則，將研究成果與大家分享一波，話不多說直接上乾貨需求分析給定up主uid和用戶uid，爬取用戶在該up主所有視頻中發的所有彈幕 #pgc-card .pgc-card-href { ...

Bilibili Python 網絡爬蟲 XML 數據庫算法 Google 瀏覽器 JSON 百度鏡音雙子 2019-09-05

'學透這13個Python爬蟲，這天下將沒有你爬不到的數據'

"Python簡直就是萬能的，你用Python都做過哪些事？用網頁看各大網站的VIP視頻，用python下載？用Python玩跳一跳，跳到50000分？過年過節各大親友群、紅包群搶紅包還用Python？（PS: 有正在學習或者想要學習的寶寶、私信小編“學習”即可免費領取學習...

Python 網絡爬蟲程序員 Scrapy 人工智能編程語言技術大數據英語讀書 Redis 2019-08-23

'有捷徑為什麼要走彎路！手把手教你用 Python 爬取網頁'

"寫在最前面這篇簡單的 Python 教程中，我們一共採取了下面幾個步驟，來爬取網頁內容：連接並獲取一個網頁的內容用 BeautifulSoup 處理獲得的 html 數據在 soup 對象裡循環搜索需要的 html 元素進行簡單的數據清理把數據寫入 csv 文件中大多數人...

Python HTML 腳本語言 JSON GitHub 網絡爬蟲 Scrapy 電腦技術 XML 2019-08-22

'Python爬蟲實戰：利用scrapy，短短50行代碼下載整站短視頻'

"近日，有朋友向我求助一件小事兒，他在一個短視頻app上看到一個好玩兒的段子，想下載下來，可死活找不到下載的方法。這忙我得幫，少不得就抓包分析了一下這個app，找到了視頻的下載鏈接，幫他解決了這個小問題。因為這個事兒，勾起了我另一個念頭，這不最近一直想把python爬蟲方面...

Scrapy Python 網絡爬蟲技術腳本語言瀏覽器機器學習百度 2019-08-19

'用python一天爬取20萬條企業信息，20條線程共同努力的結果'

"爬蟲環境python3.7+pycharm最近發現一個網站，首商網，上面企業信息百萬以上，然而網站一點兒反爬機制都沒有，這對我們喜歡爬蟲的來講豈不是太爽了，直接拿出擼一套代碼，用了三次併發，每次用20條線程，爬了五六個小時，拿下了20萬條數據，美滋滋！還是老規矩，下面直接...

Python 網絡爬蟲 PyCharm WebKit Gecko Mozilla Chrome Windows NT Safari 2019-08-18

'剛學完這這13個Python爬蟲，這天下就沒有我爬不下的數據，還有誰'

Python 網絡爬蟲程序員 Scrapy 人工智能技術編程語言大數據設計英語人生第一份工作跳槽那些事兒 Redis 2019-08-18

'學透這13個Python爬蟲，爬取天下的的數據，附教程'

"Python簡直就是萬能的，你用Python都做過哪些事？用網頁看各大網站的VIP視頻，用python下載？用Python玩跳一跳，跳到50000分？過年過節各大親友群、紅包群搶紅包還用Python？（PS: 有正在學習或者想要學習的寶寶、私信小編“888”即可免費領取4...

Python 網絡爬蟲程序員 Scrapy 編程語言人工智能大數據技術英語 HTML 跳槽那些事兒 Redis 2019-08-12

'一小時入門Python爬蟲，連我都會了！Python爬取租房數據實例'

"一、什麼叫爬蟲爬蟲，又名"網絡爬蟲"，就是能夠自動訪問互聯網並將網站內容下載下來的程序。它也是搜索引擎的基礎，像百度和GOOGLE都是憑藉強大的網絡爬蟲，來檢索海量的互聯網信息的然後存儲到雲端，為網友提供優質的搜索服務的。二、爬蟲有什麼用你可能會說，除了做搜索引擎的公司，...

Python 網絡爬蟲數據庫 Links HTML JSON SQL 人生第一份工作租房 PyCharm 搜索引擎 MySQL Google 軟件 XML 百度 2019-08-06

'厲害了，爬蟲Python3用代碼爬取Wifi密碼，永久免費用網'

"厲害了，爬蟲Python3用代碼爬取Wifi密碼，永久免費用網平時下班或者放學回到家，很多人喜歡打打遊戲看看電影，但是一個月30天，經常流量不夠用，有很多人就裝上了Wifi，但是卻經常被別人連自家的，然後打遊戲看電影卡頓就很煩，但是自己又沒有辦法知道別人家的Wifi，很難...

Wi-Fi Python 網絡爬蟲電腦數據庫技術無線網卡編程語言筆記本電腦 2019-07-28

'python爬蟲利器，you-get，讓天下沒有難爬的網頁'

"今天給大家介紹一款爬蟲利器，小白也可以拿來即用的利器：you-get。You-Get 是一個 Python 編寫的命令行下載器，用於從 Web 下載媒體內容（視頻，音頻，圖像）。這個程序在 GitHub 上已有 2 萬多的 Star。you-get 能做什麼？從熱門網站下...

Python 網絡爬蟲瀏覽器 Bilibili YouTube GitHub Java 優酷土豆 HTML Chrome 網易雲音樂 Facebook 網易視頻百度貼吧 2019-07-16

'新手學Python精選：Python如何爬取動態網頁內容'

"解析動態內容根據權威機構發佈的全球互聯網可訪問性審計報告，全球約有四分之三的網站其內容或部分內容是通過JavaScript動態生成的，這就意味著在瀏覽器窗口中“查看網頁源代碼”時無法在HTML代碼中找到這些內容，也就是說我們之前用的抓取數據的方式無法正常運轉了。解決這樣的...

Python JavaScript Chrome 瀏覽器 HTML WebKit JSON 網絡爬蟲 Firefox Safari 蘋果公司技術創作者來直播跳槽那些事兒 2019-07-16

'這13個Python項目，讓你輕鬆爬取任何數據，就是這麼牛'

"Python簡直就是萬能的，你用Python都做過哪些事？用網頁看各大網站的VIP視頻，用python下載？用Python玩跳一跳，跳到50000分？過年過節各大親友群、紅包群搶紅包還用Python？（PS: 有正在學習或者想要學習的寶寶、私信小編“ 資料 ”，即可免費領...

Python 網絡爬蟲程序員 Scrapy 編程語言人工智能技術大數據英語人生第一份工作 HTML Redis 跳槽那些事兒 2019-07-16

學透這13個Python爬蟲，網上數據隨便爬，附教程

Python簡直就是萬能的，你用Python都做過哪些事？用網頁看各大網站的VIP視頻，用python下載？用Python玩跳一跳，跳到50000分？過年...

Python 網絡爬蟲程序員 Scrapy 編程語言人工智能技術大數據英語軟件 Redis HTML 跳槽那些事兒 2019-07-15

Python Scrapy爬蟲框架學習！半小時掌握它

Scrapy 是用Python實現一個為爬取網站數據、提取結構性數據而編寫的應用框架。一、Scrapy框架簡介Scrapy是一個為了爬取網站數據，提取結構...

Scrapy Python 網絡爬蟲數據庫設計 FLOW 數據挖掘 2019-07-15

學透這13個Python爬蟲，這天下將沒有你爬不到的數據，附送教程

Python簡直就是萬能的，你用Python都做過哪些事？用網頁看各大網站的VIP視頻，用python下載？用Python玩跳一跳，跳到50000分？過年...

Python 網絡爬蟲 Scrapy 人工智能程序員編程語言技術大數據英語 2019-07-13

學透這13個Python爬蟲，這天下將沒有你爬不到的數據，就是這麼牛

Python簡直就是萬能的，你用Python都做過哪些事？用網頁看各大網站的VIP視頻，用python下載？用Python玩跳一跳，跳到50000分？過年...

Python 網絡爬蟲程序員 Scrapy 編程語言人工智能技術大數據設計英語人生第一份工作跳槽那些事兒 Redis 2019-07-13

Python! 學透這13個爬蟲，這天下將沒有你爬不到的數據

Python簡直就是萬能的，你用Python都做過哪些事？用網頁看各大網站的VIP視頻，用python下載？用Python玩跳一跳，跳到50000分？過年...

Python 網絡爬蟲程序員編程語言人工智能 Scrapy 技術大數據英語 Redis 2019-07-13

不踩坑的Python爬蟲：如何在一個月內學會爬取大規模數據

Python爬蟲為什麼受歡迎如果你仔細觀察，就不難發現，懂爬蟲、學習爬蟲的人越來越多，一方面，互聯網可以獲取的數據越來越多，另一方面，像 Python這樣...

Python 網絡爬蟲數據庫 Scrapy MongoDB 編程語言知乎新聞瀏覽器 CSS HTML 技術機器學習人生第一份工作雪球網淘寶網拉勾網 2019-07-13

推薦中...

Scrapy爬蟲：果殼熱門和精彩問答信息爬取

一：前言

二：運行環境

三：實例分析

四：實戰代碼

五：總結

相關推薦