Python通過scrapy+pymongo爬取京東商品

ç¼ç¨è¯è¨ Scrapy Python MongoDB NoSQL æ¡å ä¸ 桂堂東 2017-11-11

書接上文通過scrapy爬取京東商品。

在上文中，將數據存儲在了xlsx文件中，本文我們將把數據存儲在mongodb中。

什麼是mongodb

MongoDB 是一個基於分佈式文件存儲的數據庫。由 C++ 語言編寫。旨在為 WEB 應用提供可擴展的高性能數據存儲解決方案。

MongoDB 是一個介於關係數據庫和非關係數據庫之間的產品，是非關係數據庫當中功能最豐富，最像關係數據庫的。

安裝mongodb

官方下載地址：https://www.mongodb.com/download-center?jmp=nav#community

Python通過scrapy+pymongo爬取京東商品

mongodb下載

選擇相對應的版本進行下載，並安裝。

MongoDB數據庫可視化操作工具

這裡推薦2個MongoDB數據庫可視化工具：

mongobooster

官方下載地址：//www.softpedia.com/get/Internet/Servers/Database-Utils/MongoBooster.shtml

Robomongo

官方下載地址：https://robomongo.org/download

如何使用python操作mongodb

這裡推薦使用PyMongo。可以通過pip安裝pymongo

pip install pymongo

存儲在mongodb的代碼實現

由於我們需要修改的只是存儲部分，所以我們只需要修改上次的pipelines.py.

pipelines.py

Python通過scrapy+pymongo爬取京東商品

pipelines.py

open_spider(self, spider):當spider被開啟時，會調用。

close_spider(self, spider):當spider被關閉時，會調用。

process_item(self, item, spider):

每一個item管道組件都會調用該方法，並且必須返回一個item對象實例或拋出DropItem異常。

被丟掉的item將不會在管道組件進行執行。

from_crawler(cls, crawler)：

此方法在初始化階段由scrapy自己調用，其最大的作用就是從settings.py讀取自己的設置

settings.py

Python通過scrapy+pymongo爬取京東商品

settings.py

運行

python run.py

存儲結果

我們通過mongobooster打開mongodb。

Python通過scrapy+pymongo爬取京東商品

結果

我們可以發現數據已經被存儲到mongodb中了。

源碼

github地址：https://github.com/guitangdong/scrapySpider/tree/master/jd-mongo

"由於最近一位同學在做分佈式計算時，部分模塊只把 pyc文件拷貝部署至遠程計算節點，導致主節點程序更新後，計算節點拋出了錯誤異常，於是有了這篇文章...示例如下，有兩個py模塊，testops.py 與 testops_imported.py模塊。我們先來看 testops...

Python 分佈式計算 2019-09-18

'「Python爬蟲」如何爬取翻頁url不變的網站'

"之前打算爬取一個圖片資源網站，但是在翻頁時發現它的url並沒有改變，無法簡單的通過request.get()訪問其他頁面。據搜索資料，瞭解到這些網站是通過ajax動態加載技術實現。即可以在不重新加載整個網頁的情況下，對網頁的某部分進行更新。幫忙轉發，關注，私信小編Pyth...

Python 網絡爬蟲瀏覽器 XML JSON 程序員操作系統 2019-09-09

'爬蟲爬取還需要驗證？我爬某人爬資源從來都不需要誰的同意'

"前言很多時候我們做 Python 爬蟲時或者自動化測試時需要用到 selenium 庫，我們經常會卡在登錄的時候，登錄驗證碼是最頭疼的事情，特別是如今的文字驗證碼和圖形驗證碼。文字和圖形驗證碼還加了干擾線，本文就來講講怎麼繞過登錄頁面。登錄頁面的驗證，比如以下的圖形驗證碼...

網絡爬蟲 Chrome 瀏覽器 Python Google 百度腳本語言 Mozilla 簡書 Firefox 機器學習 2019-09-06

'Python爬蟲：bilibili彈幕爬取與比對分析'

"最近受人之託研究了下b站的數據爬取做個小工具，最後朋友說不需要了，本著開源共享的原則，將研究成果與大家分享一波，話不多說直接上乾貨需求分析給定up主uid和用戶uid，爬取用戶在該up主所有視頻中發的所有彈幕 #pgc-card .pgc-card-href { ...

Bilibili Python 網絡爬蟲 XML 數據庫算法 Google 瀏覽器 JSON 百度鏡音雙子 2019-09-05

'30行Python代碼爬取Wifi密碼，我的手機沒有卡，上網全靠它！真香'

"平時下班或者放學回到家，很多人喜歡打打遊戲看看電影，但是一個月30天，經常流量不夠用，有很多人就裝上了Wifi，但是卻經常被別人連自家的，然後打遊戲看電影卡頓就很煩，但是自己又沒有辦法知道別人家的Wifi，很難受。這種情況該怎麼辦呢？別怕，我們又Python這個強大的編程...

Wi-Fi Python 電腦技術數據庫無線網卡編程語言 2019-09-04

'python:教你用爬蟲通過代理自動刷網頁的瀏覽量'

"前言每當看到幾十萬的閱讀量的文章後面區區幾個評論, 心中就在想, 難道大家現在都這麼懶了嗎? 但是有些文章閱讀量不高, 評論為什麼這麼多呢? 我想這些應該都是刷的, 不光瀏覽量是刷的, 甚至那些無厘頭的評論都是刷的。有人要問了, 你憑什麼說別人刷的評論呢? 難道評論還可...

網絡爬蟲 Python 瀏覽器 HTML Chrome XML Origin Windows NT Gecko WebKit Safari Windows Mozilla 文章操作系統讀書 2019-08-29

'學透這13個Python爬蟲，這天下將沒有你爬不到的數據'

"Python簡直就是萬能的，你用Python都做過哪些事？用網頁看各大網站的VIP視頻，用python下載？用Python玩跳一跳，跳到50000分？過年過節各大親友群、紅包群搶紅包還用Python？（PS: 有正在學習或者想要學習的寶寶、私信小編“學習”即可免費領取學習...

Python 網絡爬蟲程序員 Scrapy 人工智能編程語言技術大數據英語讀書 Redis 2019-08-23

'有捷徑為什麼要走彎路！手把手教你用 Python 爬取網頁'

"寫在最前面這篇簡單的 Python 教程中，我們一共採取了下面幾個步驟，來爬取網頁內容：連接並獲取一個網頁的內容用 BeautifulSoup 處理獲得的 html 數據在 soup 對象裡循環搜索需要的 html 元素進行簡單的數據清理把數據寫入 csv 文件中大多數人...

Python HTML 腳本語言 JSON GitHub 網絡爬蟲 Scrapy 電腦技術 XML 2019-08-22

'用python一天爬取20萬條企業信息，20條線程共同努力的結果'

"爬蟲環境python3.7+pycharm最近發現一個網站，首商網，上面企業信息百萬以上，然而網站一點兒反爬機制都沒有，這對我們喜歡爬蟲的來講豈不是太爽了，直接拿出擼一套代碼，用了三次併發，每次用20條線程，爬了五六個小時，拿下了20萬條數據，美滋滋！還是老規矩，下面直接...

Python 網絡爬蟲 PyCharm WebKit Gecko Mozilla Chrome Windows NT Safari 2019-08-18

'剛學完這這13個Python爬蟲，這天下就沒有我爬不下的數據，還有誰'

Python 網絡爬蟲程序員 Scrapy 人工智能技術編程語言大數據設計英語人生第一份工作跳槽那些事兒 Redis 2019-08-18

'學透這13個Python爬蟲，爬取天下的的數據，附教程'

"Python簡直就是萬能的，你用Python都做過哪些事？用網頁看各大網站的VIP視頻，用python下載？用Python玩跳一跳，跳到50000分？過年過節各大親友群、紅包群搶紅包還用Python？（PS: 有正在學習或者想要學習的寶寶、私信小編“888”即可免費領取4...

Python 網絡爬蟲程序員 Scrapy 編程語言人工智能大數據技術英語 HTML 跳槽那些事兒 Redis 2019-08-12

'手把手教你用Python爬中國電影票房數據'

"和很多同學接觸過程中，我發現自學Python數據分析的一個難點是資料繁多，過於複雜。大部分網上的資料總是從Python語法教起，夾雜著大量Python開發的知識點，花了很多時間卻始終雲裡霧裡，不知道哪些知識才是真正有用的。本來以為上手就能寫爬蟲出圖，卻在看基礎的過程中消耗...

Python 網絡爬蟲 Excel JSON 讀書 2019-08-11

'python爬取新浪新聞'

"一、這裡提前解釋說明：urlretrieve(url, filename=None, reporthook=None, data=None)參數filename指定了保存本地路徑（如果參數未指定，urllib會生成一個臨時文件保存數據。）參數reporthook是一個回調...

Python 新浪新浪新聞新聞 2019-08-09

'一小時入門Python爬蟲，連我都會了！Python爬取租房數據實例'

"一、什麼叫爬蟲爬蟲，又名"網絡爬蟲"，就是能夠自動訪問互聯網並將網站內容下載下來的程序。它也是搜索引擎的基礎，像百度和GOOGLE都是憑藉強大的網絡爬蟲，來檢索海量的互聯網信息的然後存儲到雲端，為網友提供優質的搜索服務的。二、爬蟲有什麼用你可能會說，除了做搜索引擎的公司，...

Python 網絡爬蟲數據庫 Links HTML JSON SQL 人生第一份工作租房 PyCharm 搜索引擎 MySQL Google 軟件 XML 百度 2019-08-06

'30行Python代碼爬取Wifi密碼，我的手機沒有卡，上網全靠它！真香'

Wi-Fi Python 電腦技術數據庫無線網卡編程語言 2019-07-31

'厲害了，爬蟲Python3用代碼爬取Wifi密碼，永久免費用網'

"厲害了，爬蟲Python3用代碼爬取Wifi密碼，永久免費用網平時下班或者放學回到家，很多人喜歡打打遊戲看看電影，但是一個月30天，經常流量不夠用，有很多人就裝上了Wifi，但是卻經常被別人連自家的，然後打遊戲看電影卡頓就很煩，但是自己又沒有辦法知道別人家的Wifi，很難...

Wi-Fi Python 網絡爬蟲電腦數據庫技術無線網卡編程語言筆記本電腦 2019-07-28

'京東大佬告訴你從哪裡開始學好呢？- Python高手成長路(系列)'

"從哪裡開始學好呢？ - Python高手成長路(系列)Why Python？可能聽說過很多流行的程序語言，C（包括C++、C#，Obj-C等多種），Java，JavaScript，以及我們要講的Python，等等。那差別在哪裡呢？（溫馨提示：1-3點為零基礎普及，可跳過，...

Python 人工智能編程語言機器學習電腦數據結構面向對象程序編程 Java 軟件算法大數據網絡爬蟲設計模式設計京東商城 JavaScript Objective-C 數學讀書英語人生第一份工作搜索引擎彙編語言中央處理器程序員 2019-07-18

'30行Python代碼爬取Wifi密碼，我的手機沒有卡，上網全靠它'

Wi-Fi Python 電腦技術數據庫無線網卡編程語言 2019-07-17

'python爬蟲利器，you-get，讓天下沒有難爬的網頁'

"今天給大家介紹一款爬蟲利器，小白也可以拿來即用的利器：you-get。You-Get 是一個 Python 編寫的命令行下載器，用於從 Web 下載媒體內容（視頻，音頻，圖像）。這個程序在 GitHub 上已有 2 萬多的 Star。you-get 能做什麼？從熱門網站下...

Python 網絡爬蟲瀏覽器 Bilibili YouTube GitHub Java 優酷土豆 HTML Chrome 網易雲音樂 Facebook 網易視頻百度貼吧 2019-07-16

'新手學Python精選：Python如何爬取動態網頁內容'

"解析動態內容根據權威機構發佈的全球互聯網可訪問性審計報告，全球約有四分之三的網站其內容或部分內容是通過JavaScript動態生成的，這就意味著在瀏覽器窗口中“查看網頁源代碼”時無法在HTML代碼中找到這些內容，也就是說我們之前用的抓取數據的方式無法正常運轉了。解決這樣的...

Python JavaScript Chrome 瀏覽器 HTML WebKit JSON 網絡爬蟲 Firefox Safari 蘋果公司技術創作者來直播跳槽那些事兒 2019-07-16

推薦中...

Python通過scrapy+pymongo爬取京東商品

什麼是mongodb

安裝mongodb

MongoDB數據庫可視化操作工具

如何使用python操作mongodb

存儲在mongodb的代碼實現

運行

存儲結果

源碼

相關推薦