爬蟲Python-Requests庫實戰，爬取京東商品信息，學習發送請求

編程語言 Python 網絡爬蟲京東奔跑的小賣鋪奔跑的小賣鋪 2017-09-16

當前學習目標，通過實戰學習爬蟲的基本使用，怎樣獲取網頁內容、怎樣進行請求、怎樣保存圖片

京東商品信息

網址：https://item.jd.com/4586850.html

import requestsr = requests.get('https://item.jd.com/4586850.html')print (r.status_code)r.encoding = r.apparent_encodingprint(r.text)

亞馬遜商品信息

網址：https://www.amazon.cn/ref=nav_logo

r = requests.get('https://www.amazon.cn/ref=nav_logo')print (r.status_code)r.encoding = r.apparent_encodingprint(r.text)

輸出之後發現鏈接報錯503

一些網站會對網絡爬蟲做一些限制，限制無外乎兩種:

一種是通過Robots協議告知爬蟲那些東西可以訪問，那些不能

一種是通過判斷對網站訪問的HTTP的頭部來判斷請求是不是由一個爬蟲來引起的，網站只接受瀏覽器的請求，而對爬蟲引起的請求，通常是拒絕的。

print(r.request.headers){'User-Agent': 'python-requests/2.18.4', 'Accept-Encoding': 'gzip, deflate', 'Accept': '*/*', 'Connection': 'keep-alive'}很明顯，我們這裡的請求頭是python的Requests庫發起的。

模仿瀏覽器的請求

獲取heard頭部，右擊網頁 -> 檢查 -> 選擇Network -> 點開一條鏈接 ->查看heard頭，User-Agent:是瀏覽器的信息，我們通過更改User-Agent來模仿瀏覽器訪問

#添加瀏覽器信息kv = {'user-agent':'Mozilla/5.0'}r = requests.get('https://www.amazon.cn/ref=nav_logo',headers=kv)print(r.status_code)r.encoding = r.apparent_encodingprint(r.text)

百度、360搜索提交

百度搜索：http://www.baidu.com/s?wd=keyword
360搜索: https://www.so.com/s?q=keyword 我們只要通過替換keyword就能達到搜索的目的

kv = {'wd':'python'}r = requests.get('http://www.baidu.com/s',params=kv)print(r.url)kv = {'q':'python'}r = requests.get('https://www.so.com/s',params=kv)print(r.url)

網絡圖片的爬取和存儲

以國家地理網為例：
http://www.nationalgeographic.com.cn/
其中一個web頁面的圖片
http://image.nationalgeographic.com.cn/2017/0714/20170714021939332.jpg

獲取圖片簡單例子：

#輸出的圖片路徑，注意這裡需要給圖片起名成path = "/Users/dym/Desktop/123.jpg"url = 'http://image.nationalgeographic.com.cn/2017/0714/20170714021939332.jpg'r = requests.get(url)with open(path,'wb') as f: f.write(r.content) f.close() #r.content:代理返回數據的二進制形式，所以我們可以通過r.content寫入文件

使用URL的圖片名稱：

# coding=utf-8import requestsimport osurl = 'http://image.nationalgeographic.com.cn/2017/0714/20170714021939332.jpg'root = '/Users/dym/Desktop/'path = root + url.split('/')[-1]try: if not os.path.exists(root): os.mkdir(root) if not os.path.exists(path): r = requests.get(url) with open(path,'wb') as f: f.write(r.content) f.close() print('文件保存成功') else: print('文件已存在')except: print('爬取失敗')#path：根路徑root + 截取url中的圖片名稱

相關推薦

'「Python爬蟲」如何爬取翻頁url不變的網站'

"之前打算爬取一個圖片資源網站，但是在翻頁時發現它的url並沒有改變，無法簡單的通過request.get()訪問其他頁面。據搜索資料，瞭解到這些網站是通過ajax動態加載技術實現。即可以在不重新加載整個網頁的情況下，對網頁的某部分進行更新。幫忙轉發，關注，私信小編Pyth...

Python 網絡爬蟲瀏覽器 XML JSON 程序員操作系統 2019-09-09

'爬蟲爬取還需要驗證？我爬某人爬資源從來都不需要誰的同意'

"前言很多時候我們做 Python 爬蟲時或者自動化測試時需要用到 selenium 庫，我們經常會卡在登錄的時候，登錄驗證碼是最頭疼的事情，特別是如今的文字驗證碼和圖形驗證碼。文字和圖形驗證碼還加了干擾線，本文就來講講怎麼繞過登錄頁面。登錄頁面的驗證，比如以下的圖形驗證碼...

網絡爬蟲 Chrome 瀏覽器 Python Google 百度腳本語言 Mozilla 簡書 Firefox 機器學習 2019-09-06

'Python爬蟲：bilibili彈幕爬取與比對分析'

"最近受人之託研究了下b站的數據爬取做個小工具，最後朋友說不需要了，本著開源共享的原則，將研究成果與大家分享一波，話不多說直接上乾貨需求分析給定up主uid和用戶uid，爬取用戶在該up主所有視頻中發的所有彈幕 #pgc-card .pgc-card-href { ...

Bilibili Python 網絡爬蟲 XML 數據庫算法 Google 瀏覽器 JSON 百度鏡音雙子 2019-09-05

'學透這13個Python爬蟲，爬取天下的的數據，附教程'

"Python簡直就是萬能的，你用Python都做過哪些事？用網頁看各大網站的VIP視頻，用python下載？用Python玩跳一跳，跳到50000分？過年過節各大親友群、紅包群搶紅包還用Python？（PS: 有正在學習或者想要學習的寶寶、私信小編“888”即可免費領取4...

Python 網絡爬蟲程序員 Scrapy 編程語言人工智能大數據技術英語 HTML 跳槽那些事兒 Redis 2019-08-12

'一小時入門Python爬蟲，連我都會了！Python爬取租房數據實例'

"一、什麼叫爬蟲爬蟲，又名"網絡爬蟲"，就是能夠自動訪問互聯網並將網站內容下載下來的程序。它也是搜索引擎的基礎，像百度和GOOGLE都是憑藉強大的網絡爬蟲，來檢索海量的互聯網信息的然後存儲到雲端，為網友提供優質的搜索服務的。二、爬蟲有什麼用你可能會說，除了做搜索引擎的公司，...

Python 網絡爬蟲數據庫 Links HTML JSON SQL 人生第一份工作租房 PyCharm 搜索引擎 MySQL Google 軟件 XML 百度 2019-08-06

'厲害了，爬蟲Python3用代碼爬取Wifi密碼，永久免費用網'

"厲害了，爬蟲Python3用代碼爬取Wifi密碼，永久免費用網平時下班或者放學回到家，很多人喜歡打打遊戲看看電影，但是一個月30天，經常流量不夠用，有很多人就裝上了Wifi，但是卻經常被別人連自家的，然後打遊戲看電影卡頓就很煩，但是自己又沒有辦法知道別人家的Wifi，很難...

Wi-Fi Python 網絡爬蟲電腦數據庫技術無線網卡編程語言筆記本電腦 2019-07-28

學習Python基礎到精通爬蟲系列資料（二）：優雅的HTTP庫requests

爬蟲入門系列（二）：優雅的HTTP庫requests讀這篇文章前，強烈建議先閱讀一下爬蟲入門系列（一）：快速理解HTTP協議。Python 提供了很多...

Python 網絡爬蟲 JSON 瀏覽器 HTML GitHub Nginx 2019-07-13

不踩坑的Python爬蟲：如何在一個月內學會爬取大規模數據

Python爬蟲為什麼受歡迎如果你仔細觀察，就不難發現，懂爬蟲、學習爬蟲的人越來越多，一方面，互聯網可以獲取的數據越來越多，另一方面，像 Python這樣...

Python 網絡爬蟲數據庫 Scrapy MongoDB 編程語言知乎新聞瀏覽器 CSS HTML 技術機器學習人生第一份工作雪球網淘寶網拉勾網 2019-07-13

黑客都學習了這Python爬蟲實戰祕籍——10分鐘爬取xkcd漫畫的資料

0 前言Python版本：3.7.0開發工具：IDLE（Python 3.7 64-bit）、Google Chrome1 網絡爬蟲（web crawle...

Python 網絡爬蟲 Xkcd HTML 黑客操作系統瀏覽器 CSS 腳本語言漫畫 Chrome Google 百度百科 2019-06-18

Python入門：爬蟲如何爬取網站全部圖片

很多時候暴躁老哥上小圖片網站,看到許多的小X圖,熱血澎湃想要下載下來,可視網站上那麼多的圖片一張一張的保存確實很是浪費時間和精力,所以今天就給大家帶來一個...

Python 網絡爬蟲 Pages HTML 操作系統設計鼠標 2019-05-29

手把手教你用Python爬蟲爬取facebook臉書頁面（附代碼）

為了演示瀏覽器和API的使用，我們將會研究Facebook的網站。目前，從月活用戶數維度來看，Facebook是世界上最大的社交網絡之一，因此其用戶數據非...

Facebook Python 瀏覽器網絡爬蟲 HTML JavaScript 社交網絡 2019-05-24

什麼是網絡爬蟲？這篇文章手把手教你從Python爬取facebook臉書

為了演示瀏覽器和API的使用，我們將會研究Facebook的網站。目前，從月活用戶數維度來看，Facebook是世界上最大的社交網絡之一，因此其用戶數據非...

Facebook Python 網絡爬蟲瀏覽器社交網絡 HTML JavaScript 文章 2019-05-24

Python通過scrapy+pymongo爬取京東商品

書接上文通過scrapy爬取京東商品。在上文中，將數據存儲在了xlsx文件中，本文我們將把數據存儲在mongodb中。什麼是mongodbMongoDB 是一個基於分佈式文件存儲的數據庫。由 C++ 語言編寫。旨在為 WEB 應用提供可擴展的高性能數據存儲解決方案。Mong...

ç¼ç¨è¯è¨ Scrapy Python MongoDB NoSQL æ¡å ä¸ 2017-11-11

神級的爬蟲工程師用Python教你爬取全站股票評論！買哪隻有底呢！

這個爬蟲寫得好累，就簡單講一下思路吧。雪球網股票的評論內容是不能直接訪問的，必須要攜帶在第一次訪問時雪球網寫進本地的cookie（其實你隨便打開一次官網...

編程語言 Python 網絡爬蟲工程師 python學院 2017-10-12

Python爬蟲與美食！爬蟲工程師教你用scrapy爬取美團！簡單易上手

Python和美食都是不可少的，兩者並沒有衝突，哈哈，本文主要思路是根據手機定位信息周邊美食進行爬取：在給大家分享之前呢，我介紹一下我弄的一個學習交流群，...

編程語言美團網 Python 網絡爬蟲 sun菜菜 2017-10-10

厲害了！實戰爬取全網5000部手機｜上篇

相信大家都有買手機的需求，那麼全網上手機到底有多少個品牌呢，哪一種的手機價格最划算，評分最高，屏幕最大，硬件最牛等等這些信息我們都想知道，不如自己動手爬...

編程語言文章 SQL 網絡爬蟲中國統計網 2017-09-13

python大牛JS爬蟲，爬取今日頭條“街拍”圖庫，你值得擁有！

在分享文章前還是分享自己的Python學習交流群：643692991，可獲取完整源碼！群內不定期分享乾貨，包括2017最新的python企業案例學習資料和...

編程語言今日頭條 Python 網絡爬蟲 python空白 2017-08-27

爬蟲｜不編程，也能輕鬆爬取數據！

剛開始學習數據可視化，關注的重點之一通常是學習製作各種各樣的圖表類型。可拿著那幾個原始數據反反覆覆練習久了，心裡多少會有些不安和懈怠，畢竟不真正投入實戰的...

數據挖掘網絡爬蟲軟件 Firefox 2017-08-02

Scrapy爬蟲：果殼熱門和精彩問答信息爬取

果殼一：前言繼續練習Scrapy框架，這次抓取的果殼問答網站的熱門問答和精彩問答相關信息，信息如下：標題，關注量，回答數目，簡介等。之後保存到mongod...

NoSQL Scrapy 網絡爬蟲 MongoDB 2017-06-24

Python爬蟲：大規模爬取喜馬拉雅電臺詳細音頻數據

一：前言本次爬取的是喜馬拉雅的熱門欄目下全部電臺的每個頻道的信息和頻道中的每個音頻數據的各種信息，然後把爬取的數據保存到mongodb以備後續使用。這次數...

編程語言 Python 網絡爬蟲 NoSQL 2017-06-19

推薦中...