Python爬蟲知識1.1 requests庫的安裝與使用

編程語言網絡爬蟲 Python JSON 走在求知的路上 2017-05-10

先來說說爬蟲的原理：爬蟲本質上是模擬人瀏覽信息的過程，只不過他通過計算機來達到快速抓取篩選信息的目的。所以我們想要寫一個爬蟲，最基本的就是要將我們需要抓取信息的網頁原原本本的抓取下來。這個時候就要用到requests庫了。

requests庫的安裝

requests庫本質上就是模擬了我們用瀏覽器打開一個網頁，發起請求是的動作。它能夠迅速的把請求的html源文件保存到本地

他安裝的方式非常簡單：我們用pip工具在命令行裡進行安裝

$ pip install requests`

接著我們看一下是否成功安裝了bs4庫

$ pip list

看一下安裝結果

Python爬蟲知識1.1 requests庫的安裝與使用

requests庫的基本使用：

#首先我們先導入requests這個包import requests#我們來吧百度的index頁面的html源碼抓取到本地，並用r變量保存#注意這裡，網頁前面的 http://一定要寫出來，它並不能像真正的瀏覽器一樣幫我們補全http協議r = requests.get("http://www.baidu.com")#將下載到的內容打印一下：print(r.text)

可以看到，百度的首頁源碼文件我們已經把他抓取到本地了。

Python爬蟲知識1.1 requests庫的安裝與使用

上面的抓取過程中，我們用到了requests庫的get方法，

這個方法是requests庫中最常用的方法之一。

他接受一個參數（url）並返回一個HTTP response對象。

與get方法相同的，requests庫還有許多其他常用方法：

Python爬蟲知識1.1 requests庫的安裝與使用

下面我們來詳細瞭解一下 requests.get 這個方法：

#這個方法可以接收三個參數，其中第二個默認為None 第三個可選def get(url, params=None, **kwargs)#作用是模擬發起GET請求Sends a GET request.#模擬獲取頁面的url鏈接:param url: URL for the new :class:Request object. #額外參數 字典或字節流格式，可選:param params: (optional) Dictionary or bytes to be sent in the query string for the :class:Request. # 十二個控制訪問參數，比如可以自定義header:param **kwargs: Optional arguments that request takes. # 返回一個Response對象:return: :class:Response <Response> object :type: requests.Response

我們來著重講一下 **kwargs 這個參數

kwargs: 控制訪問的參數，均為可選項
params : 字典或字節序列，作為參數增加到url中
data : 字典、字節序列或文件對象，作為Request的內容 json : JSON格式的數據，作為Request的內容
headers : 字典，HTTP定製頭
cookies : 字典或CookieJar，Request中的cookie
auth : 元組，支持HTTP認證功能
files : 字典類型，傳輸文件
timeout : 設定超時時間，秒為單位
proxies : 字典類型，設定訪問代理服務器，可以增加登錄認證
allow_redirects : True/False，默認為True，重定向開關
stream : True/False，默認為True，獲取內容立即下載開關
verify : True/False，默認為True，認證SSL證書開關
cert : 本地SSL證書路徑
url: 擬更新頁面的url鏈接
data: 字典、字節序列或文件，Request的內容
json: JSON格式的數據，Request的內容

常用的兩個控制訪問參數：

1. 假設我們需要在GET請求裡自定義一個header頭文件：

import requestshd = {'User-agent':'123'}r = requests.get('http://www.baidu.com', headers=hd)print(r.request.headers)'''OUT:{'User-agent': '123', 'Accept-Encoding': 'gzip, deflate', 'Accept': '*/*', 'Connection': 'keep-alive'}'''

2. 假設我們要自定義一個代理池

pxs = { 'http': 'http://user:[email protected]:1234', 'https': 'https://10.10.10.1:4321' }r = requests.get('http://www.baidu.com', proxies=pxs)

詳細瞭解Response對象

import requestsr = requests.get("http://www.baidu.com")'''Response(self)The :class:Response <Response> object, which contains a server's response to an HTTP request.'''#HTTP請求的返回狀態，比如，200表示成功，404表示失敗print (r.status_code)#HTTP請求中的headersprint (r.headers)#從header中猜測的響應的內容編碼方式 print (r.encoding)#從內容中分析的編碼方式（慢）print (r.apparent_encoding)#響應內容的二進制形式print (r.content)'''status_code:200 headers:{'Server': 'bfe/1.0.8.18', 'Date': 'Tue, 02 May 2017 12:01:47 GMT', 'Content-Type': 'text/html', 'Last-Modified': 'Mon, 23 Jan 2017 13:28:27 GMT', 'Transfer-Encoding': 'chunked', 'Connection': 'Keep-Alive', 'Cache-Control': 'private, no-cache, no-store, proxy-revalidate, no-transform', 'Pragma': 'no-cache', 'Set-Cookie': 'BDORZ=27315; max-age=86400; domain=.baidu.com; path=/', 'Content-Encoding':'gzip'}encoding: ISO-8859-1apparent_encoding:utf-8'''

requests抓取網頁的通用框架

import requestsdef getHtmlText(url): try: r = requests.get(url, timeout=30) # 如果狀態碼不是200 則應發HTTOError異常 r.raise_for_status() # 設置正確的編碼方式 r.encoding = r.apparent_encoding() return r.text except: return "Something Wrong!"

好了關於requests庫我們今天就寫到這，這是一個非常強大的庫，

相關推薦

'Python的概念化知識、優化技巧和常見算法性能優化（高級下篇）'

"6、字典實現原理CPython中使用偽隨機探測的散列表作為字典底層數據結構。只有可哈希對象才能作為字典的鍵。如果一個對象有一個在整個生命週期都不變的散列值，而且這個值可以與其他對象進行比較，那麼這個對象就是可哈希Python中所有不可變的內置類型都是可哈希的。可變（列表，...

Python 算法數據結構 XML 編譯器 2019-09-17

'8個用於業餘項目的優秀Python庫'

"這些庫可以使你更容易構架個人項目。在Python/Django的世界裡有這樣一個諺語：為語言而來，為社區而留。對絕大多數人來說的確是這樣的，但是，還有一件事情使得我們一直停留在Python的世界裡，不願離開，那就是我們可以很容易地利用一頓午餐或晚上幾個小時的時間，把一個想...

Python Django 數據庫 HTML XML 腳本語言 Java 機器學習搜索引擎編程語言 2019-09-16

'Python Requests作者另一神作，Records通用而優雅的數據庫訪問庫'

"我們在開發過程中經常涉及與數據庫進行交互，比如MySQL、Oracle、PostgreSQL、Sqlite，一般，我們使用其對應的Python 第三方模塊，實現相關數據庫操作，如下MySQL數據庫：mysql-connector，pymysql PostgreSQL數據庫...

數據庫 Python SQL MySQL HTML YAML PostgreSQL Excel 2019-09-16

'python爬蟲模擬微博登錄'

"微博模擬登錄這是本次爬取的網址：https://weibo.com/一、請求分析找到登錄的位置，填寫用戶名密碼進行登錄操作看看這次請求響應的數據是什麼這是響應得到的數據，保存下來exectime: 8nonce: "HW9VSX"pcid: "gz-4ede4c6269a...

Python 微博網絡爬蟲百度 2019-09-16

'Python中的Requests模塊，星號和括號'

"requests模塊官方地址：https://github.com/psf/requests官方文檔：https://2.python-requests.org/en/master/用於http請求的模塊，用於網頁數據抓取七個主要方法Python資源共享群：62601...

Python JSON 2019-09-16

'Python學習乾貨史上最全的 Python 爬蟲工具列表大全'

"這個列表包含與網頁抓取和數據處理的Python庫。網絡通用urllib -網絡庫(stdlib)。requests -網絡庫。grab – 網絡庫（基於pycurl）。pycurl – 網絡庫（綁定libcurl）。urllib3 – Python HTTP庫，安全連接池...

Python 網絡爬蟲 HTML Scrapy XML 瀏覽器 CSS XHTML jQuery C語言 JSON Excel 可視化技術 2019-09-15

'入門Python，總遇到這樣那樣的安裝問題，手把手教會你'

"轉發本文並私信我"python"，即可獲得Python資料以及更多系列文章(持續更新的)最近有挺多小夥伴問我要入門 Python 的資料，還有小夥伴完全沒有入門 Python 就直接購買了我的 pandas 專欄。因此我決定寫幾篇 Python 數據處理分析必備的入門知識...

Python 腳本語言 Windows 電腦操作系統文章 2019-09-15

'學習PythonforDataScience:如何科學的使用Python'

"Python for Data Science是數據分析領域專業人士必須學習的東西。隨著IT行業的發展，對熟練數據科學家的需求急劇增加，Python已經發展成為最受歡迎的編程語言。通過這篇博客，您將學習基礎知識，如何分析數據，然後使用Python創建一些漂亮的可視化。這篇...

Python 可視化技術機器學習腳本語言瀏覽器算術 Guido 算法筆記本電腦 2019-09-14

'使用Python代替Excel做數據分析已成，抓緊學，趕上第一波熱潮'

"我是個只會用Excel的數據分析工作者。有一天，我和朋友約好晚上一起吃飯，離下班還有5分鐘，老闆突然Q我：老闆：你今天加個班我：好呀好呀老闆：我有幾個Excel,需要你把它們合成一張表我：好呀好呀老闆：給！你自己看著辦吧！我懷著忐忑的心情打開了一個神祕的壓縮包：912個C...

Python Excel 數據庫機器學習跳槽那些事兒軟件可視化技術工程師電腦鼠標人生第一份工作 2019-09-13

'Python說：常見的數據分析庫有哪些'

"又是老生常談的話題了，前面出過有不知道有好多篇講數據分析庫的文章，但是今天還是得拿出來再聊聊，有免得有些新夥伴再去找了！常見的Python數據分析庫PandasPandas是一個開放源碼的Python庫，它使用強大的數據結構提供高性能的數據操作和分析工具。它的名字：Pan...

Python 數據結構機器學習數學腳本語言 Fortran BSD 金融筆記本電腦 2019-09-12

'寫python爬蟲，不會正則怎麼行呢？另贈學習資料'

"導讀：正則在各語言中的使用是有差異的，本文以 Python 3 為基礎。本文主要講述的是正則的語法，對於 re 模塊不做過多描述，只會對一些特殊地方做提示。很多人覺得正則很難，在我看來，這些人一定是沒有用心。其實正則很簡單，根據二八原則，我們只需要懂 20% 的內容就可以...

Python 網絡爬蟲 Java 百度 2019-09-12

'Python爬蟲入門並不難，進階也很簡單！只需要這13個階段就夠了'

"互聯網的數據爆炸式的增長，而利用 Python 爬蟲我們可以獲取大量有價值的數據：（分享一套完整的爬蟲學習教程，免費獲取方式在文末哦）1.爬取數據，進行市場調研和商業分析爬取知乎優質答案，篩選各話題下最優質的內容；抓取房產網站買賣信息，分析房價變化趨勢、做不同區域的房價...

Python 網絡爬蟲 Scrapy 數據庫瀏覽器知乎新聞豆瓣網 CSS HTML 人生第一份工作推薦技術騰訊機器學習 2019-09-10

'使用IDA Python尋找二進制漏洞'

"本文介紹瞭如何通過 IDA Python 腳本來實現對棧溢出漏洞的檢測，並以 ascii_easy 一道 PWN 基礎題為例來實戰。介紹Python資源共享群：626017123IDAPython 是一個用於複雜逆向工程任務的強大的自動化工具。儘管有很多文章介紹了用 ID...

Python 腳本語言六貫棋文章操作系統 2019-09-10

'揭祕為什麼應使用 Python 開展科學研究'

"您可能很難相信，Python 編程語言竟然不是一種新語言，實際上，它比 Java™ 語言甚至 HTTP 還要成熟。但不幸的是，人們長期以來一直對 Python 存在某些誤解，比如認為 Python 速度緩慢。這種誤解的根源在於，使用解釋器和標準 Python（使用名為 C...

Python Fortran Octave C語言 MATLAB Java 編譯器 GPU 超級計算機編程語言中央處理器英特爾 GNU 英偉達可視化技術 2019-09-09

'「Python爬蟲」如何爬取翻頁url不變的網站'

"之前打算爬取一個圖片資源網站，但是在翻頁時發現它的url並沒有改變，無法簡單的通過request.get()訪問其他頁面。據搜索資料，瞭解到這些網站是通過ajax動態加載技術實現。即可以在不重新加載整個網頁的情況下，對網頁的某部分進行更新。幫忙轉發，關注，私信小編Pyth...

Python 網絡爬蟲瀏覽器 XML JSON 程序員操作系統 2019-09-09

'在Windows、Linux和Mac上安裝Python'

"介紹在你的機器上安裝Python是不是很困難?這實際上是我在數據科學初學者中看到的一個非常常見的問題。安裝在理論上可能看起來很簡單，但在現實中可能會有點問題。我個人在嘗試在我的Linux和Windows機器上安裝Python時曾遇到過各種各樣的問題。一般在出問題之前安裝總...

Python Linux Windows Mac電腦 Bash 軟件機器學習腳本語言集成開發環境可視化技術編程語言 2019-09-09

'關於在Windows、Linux和Mac上安裝設置Python的問題'

Python Linux Windows Mac電腦 Bash 軟件機器學習集成開發環境編程語言腳本語言 2019-09-09

'人見人愛的最新 Python 爬蟲利器'

"文 | 過了即是客編輯 | EarlGrey推薦 | 編程派公眾號（ID：codingpy）Python上有一個非常著名的HTTP庫——requests，相比大家都聽說過，用過的人都說好！現在requests庫的作者又發佈了一個新庫，叫做requests-html，看名字...

Python HTML 網絡爬蟲 Links CSS TeX 2019-09-09

'8 個用於業餘項目的優秀 Python 庫'

"英文：Jeff Tripletthttps://linux.cn/article-10008-1.html 這些庫可以使你更容易構架個人項目。在 Python/Django 的世界裡有這樣一個諺語：為語言而來，為社區而留。對絕大多數人來說的確是這樣的，但是，還有一件事情使...

Python Django 數據庫 HTML 腳本語言 XML 程序員 JSON 搜索引擎跳槽那些事兒 2019-09-07

'Python3網絡爬蟲中的requests高級用法詳解'

"本節我們再來了解下 Requests 的一些高級用法，如文件上傳，代理設置，Cookies 設置等等。1. 文件上傳我們知道 Reqeuests 可以模擬提交一些數據，假如有的網站需要我們上傳文件，我們同樣可以利用它來上傳，實現非常簡單，實例如下：import reque...

Python 網絡爬蟲 JSON 腳本語言 Origin 知乎 2019-09-07

推薦中...