'Python3網絡爬蟲中的requests高級用法詳解'

Python 網絡爬蟲 JSON 腳本語言 Origin 知乎 python魔法師 2019-09-07

本節我們再來了解下 Requests 的一些高級用法，如文件上傳，代理設置，Cookies 設置等等。

1. 文件上傳

我們知道 Reqeuests 可以模擬提交一些數據，假如有的網站需要我們上傳文件，我們同樣可以利用它來上傳，實現非常簡單，實例如下：

import requests
files = {'file': open('favicon.ico', 'rb')}
r = requests.post('http://httpbin.org/post', files=files)
print(r.text)

在上面一節中我們下載保存了一個文件叫做 favicon.ico，這次我們用它為例來模擬文件上傳的過程。需要注意的是，favicon.ico 這個文件需要和當前腳本在同一目錄下。如果有其它文件，當然也可以使用其它文件來上傳，更改下名稱即可。

運行結果如下：

{
 "args": {}, 
 "data": "", 
 "files": {
 "file": "data:application/octet-stream;base64,AAAAAA...="
 }, 
 "form": {}, 
 "headers": {
 "Accept": "*/*", 
 "Accept-Encoding": "gzip, deflate", 
 "Content-Length": "6665", 
 "Content-Type": "multipart/form-data; boundary=809f80b1a2974132b133ade1a8e8e058", 
 "Host": "httpbin.org", 
 "User-Agent": "python-requests/2.10.0"
 }, 
 "json": null, 
 "origin": "60.207.237.16", 
 "url": "http://httpbin.org/post"
}

以上部分內容省略，這個網站會返回一個 Response，裡面包含 files 這個字段，而 form 是空的，這證明文件上傳部分會單獨有一個 files 字段來標識。

2. Cookies

在前面我們使用了 Urllib 處理過 Cookies，寫法比較複雜，而有了 Requests，獲取和設置 Cookies 只需要一步即可完成。

我們先用一個實例感受一下獲取 Cookies 的過程：

import requests
r = requests.get('https://www.baidu.com')
print(r.cookies)
for key, value in r.cookies.items():
 print(key + '=' + value)

運行結果如下：

‘'‘
<RequestsCookieJar[<Cookie BDORZ=27315 for .baidu.com/>]>
BDORZ=27315
'‘'

首先我們調用了 cookies 屬性即可成功得到了 Cookies，可以發現它是一個 RequestCookieJar 類型，然後我們用 items() 方法將其轉化為元組組成的列表，遍歷輸出每一個 Cookie 的名和值，實現 Cookies 的遍歷解析。

當然，我們也可以直接用 Cookies 來維持登錄狀態。

比如我們以知乎為例，直接利用 Cookies 來維持登錄狀態。

首先登錄知乎，將 Headers 中的 Cookies 複製下來，如下圖所示：

本節我們再來了解下 Requests 的一些高級用法，如文件上傳，代理設置，Cookies 設置等等。

1. 文件上傳

我們知道 Reqeuests 可以模擬提交一些數據，假如有的網站需要我們上傳文件，我們同樣可以利用它來上傳，實現非常簡單，實例如下：

import requests
files = {'file': open('favicon.ico', 'rb')}
r = requests.post('http://httpbin.org/post', files=files)
print(r.text)

運行結果如下：

{
 "args": {}, 
 "data": "", 
 "files": {
 "file": "data:application/octet-stream;base64,AAAAAA...="
 }, 
 "form": {}, 
 "headers": {
 "Accept": "*/*", 
 "Accept-Encoding": "gzip, deflate", 
 "Content-Length": "6665", 
 "Content-Type": "multipart/form-data; boundary=809f80b1a2974132b133ade1a8e8e058", 
 "Host": "httpbin.org", 
 "User-Agent": "python-requests/2.10.0"
 }, 
 "json": null, 
 "origin": "60.207.237.16", 
 "url": "http://httpbin.org/post"
}

以上部分內容省略，這個網站會返回一個 Response，裡面包含 files 這個字段，而 form 是空的，這證明文件上傳部分會單獨有一個 files 字段來標識。

2. Cookies

在前面我們使用了 Urllib 處理過 Cookies，寫法比較複雜，而有了 Requests，獲取和設置 Cookies 只需要一步即可完成。

我們先用一個實例感受一下獲取 Cookies 的過程：

import requests
r = requests.get('https://www.baidu.com')
print(r.cookies)
for key, value in r.cookies.items():
 print(key + '=' + value)

運行結果如下：

‘'‘
<RequestsCookieJar[<Cookie BDORZ=27315 for .baidu.com/>]>
BDORZ=27315
'‘'

當然，我們也可以直接用 Cookies 來維持登錄狀態。

比如我們以知乎為例，直接利用 Cookies 來維持登錄狀態。

首先登錄知乎，將 Headers 中的 Cookies 複製下來，如下圖所示：

這裡可以替換成你自己的 Cookies，將其設置到 Headers 裡面，發送 Request，示例如下：

import requests
 
headers = {
 'Cookie': 'q_c1=31653b264a074fc9a57816d1ea93ed8b|1474273938000|1474273938000; d_c0="AGDAs254kAqPTr6NW1U3XTLFzKhMPQ6H_nc=|1474273938"; __utmv=51854390.100-1|2=registration_date=20130902=1^3=entry_date=20130902=1;a_t="2.0AACAfbwdAAAXAAAAso0QWAAAgH28HQAAAGDAs254kAoXAAAAYQJVTQ4FCVgA360us8BAklzLYNEHUd6kmHtRQX5a6hiZxKCynnycerLQ3gIkoJLOCQ==";z_c0=Mi4wQUFDQWZid2RBQUFBWU1DemJuaVFDaGNBQUFCaEFsVk5EZ1VKV0FEZnJTNnp3RUNTWE10ZzBRZFIzcVNZZTFGQmZn|1474887858|64b4d4234a21de774c42c837fe0b672fdb5763b0',
 'Host': 'www.zhihu.com',
 'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.116 Safari/537.36',
}
r = requests.get('https://www.zhihu.com', headers=headers)
print(r.text)

發現結果中包含了登錄後的結果，如下圖所示：

本節我們再來了解下 Requests 的一些高級用法，如文件上傳，代理設置，Cookies 設置等等。

1. 文件上傳

我們知道 Reqeuests 可以模擬提交一些數據，假如有的網站需要我們上傳文件，我們同樣可以利用它來上傳，實現非常簡單，實例如下：

import requests
files = {'file': open('favicon.ico', 'rb')}
r = requests.post('http://httpbin.org/post', files=files)
print(r.text)

運行結果如下：

{
 "args": {}, 
 "data": "", 
 "files": {
 "file": "data:application/octet-stream;base64,AAAAAA...="
 }, 
 "form": {}, 
 "headers": {
 "Accept": "*/*", 
 "Accept-Encoding": "gzip, deflate", 
 "Content-Length": "6665", 
 "Content-Type": "multipart/form-data; boundary=809f80b1a2974132b133ade1a8e8e058", 
 "Host": "httpbin.org", 
 "User-Agent": "python-requests/2.10.0"
 }, 
 "json": null, 
 "origin": "60.207.237.16", 
 "url": "http://httpbin.org/post"
}

以上部分內容省略，這個網站會返回一個 Response，裡面包含 files 這個字段，而 form 是空的，這證明文件上傳部分會單獨有一個 files 字段來標識。

2. Cookies

在前面我們使用了 Urllib 處理過 Cookies，寫法比較複雜，而有了 Requests，獲取和設置 Cookies 只需要一步即可完成。

我們先用一個實例感受一下獲取 Cookies 的過程：

import requests
r = requests.get('https://www.baidu.com')
print(r.cookies)
for key, value in r.cookies.items():
 print(key + '=' + value)

運行結果如下：

‘'‘
<RequestsCookieJar[<Cookie BDORZ=27315 for .baidu.com/>]>
BDORZ=27315
'‘'

當然，我們也可以直接用 Cookies 來維持登錄狀態。

比如我們以知乎為例，直接利用 Cookies 來維持登錄狀態。

首先登錄知乎，將 Headers 中的 Cookies 複製下來，如下圖所示：

這裡可以替換成你自己的 Cookies，將其設置到 Headers 裡面，發送 Request，示例如下：

import requests
 
headers = {
 'Cookie': 'q_c1=31653b264a074fc9a57816d1ea93ed8b|1474273938000|1474273938000; d_c0="AGDAs254kAqPTr6NW1U3XTLFzKhMPQ6H_nc=|1474273938"; __utmv=51854390.100-1|2=registration_date=20130902=1^3=entry_date=20130902=1;a_t="2.0AACAfbwdAAAXAAAAso0QWAAAgH28HQAAAGDAs254kAoXAAAAYQJVTQ4FCVgA360us8BAklzLYNEHUd6kmHtRQX5a6hiZxKCynnycerLQ3gIkoJLOCQ==";z_c0=Mi4wQUFDQWZid2RBQUFBWU1DemJuaVFDaGNBQUFCaEFsVk5EZ1VKV0FEZnJTNnp3RUNTWE10ZzBRZFIzcVNZZTFGQmZn|1474887858|64b4d4234a21de774c42c837fe0b672fdb5763b0',
 'Host': 'www.zhihu.com',
 'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.116 Safari/537.36',
}
r = requests.get('https://www.zhihu.com', headers=headers)
print(r.text)

發現結果中包含了登錄後的結果，如下圖所示：

運行結果證明登錄成功。

當然也可以通過 cookies 參數來設置，不過這樣就需要構造 RequestsCookieJar 對象，而且需要分割一下 Cookies ，相對繁瑣，不過效果是相同的，實例如下：


import requests
 
cookies = 'q_c1=31653b264a074fc9a57816d1ea93ed8b|1474273938000|1474273938000; d_c0="AGDAs254kAqPTr6NW1U3XTLFzKhMPQ6H_nc=|1474273938"; __utmv=51854390.100-1|2=registration_date=20130902=1^3=entry_date=20130902=1;a_t="2.0AACAfbwdAAAXAAAAso0QWAAAgH28HQAAAGDAs254kAoXAAAAYQJVTQ4FCVgA360us8BAklzLYNEHUd6kmHtRQX5a6hiZxKCynnycerLQ3gIkoJLOCQ==";z_c0=Mi4wQUFDQWZid2RBQUFBWU1DemJuaVFDaGNBQUFCaEFsVk5EZ1VKV0FEZnJTNnp3RUNTWE10ZzBRZFIzcVNZZTFGQmZn|1474887858|64b4d4234a21de774c42c837fe0b672fdb5763b0'
jar = requests.cookies.RequestsCookieJar()
headers = {
 'Host': 'www.zhihu.com',
 'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.116 Safari/537.36'
}
for cookie in cookies.split(';'):
 key, value = cookie.split('=', 1)
 jar.set(key, value)
r = requests.get('http://www.zhihu.com', cookies=jar, headers=headers)
print(r.text)

上面我們首先新建了一個 RequestCookieJar 對象，然後將複製下來的 Cookies 利用 split() 方法分割，利用 set() 方法設置好每一個 Cookie 的 key 和 value，然後通過調用 Requests 的 get() 方法並傳遞給 cookies 參數即可，當然由於知乎本身的限制， headers 參數也不能少，只不過不需要在原來的 headers 參數裡面設置 Cookie 字段了。

測試後，發現同樣可以正常登錄知乎。

3. 會話維持

在 Requests 中，我們如果直接利用 get() 或 post() 等方法的確可以做到模擬網頁的請求。但是這實際上是相當於不同的會話，即不同的 Session，也就是說相當於你用了兩個瀏覽器打開了不同的頁面。

設想這樣一個場景，我們第一個請求利用了 post() 方法登錄了某個網站，第二次想獲取成功登錄後的自己的個人信息，你又用了一次 get() 方法去請求個人信息頁面。實際上，這相當於打開了兩個瀏覽器，是兩個完全不相關的會話，能成功獲取個人信息嗎？那當然不能。

有小夥伴可能就說了，我在兩次請求的時候都設置好一樣的 Cookies 不就行了？可以，但這樣做起來還是顯得很繁瑣，我們還有更簡單的解決方法。

其實解決這個問題的主要方法就是維持同一個會話，也就是相當於打開一個新的瀏覽器選項卡而不是新開一個瀏覽器。但是我又不想每次設置 Cookies，那該怎麼辦？這時候就有了新的利器 Session對象。

利用它，我們可以方便地維護一個會話，而且不用擔心 Cookies 的問題，它會幫我們自動處理好。

下面用一個實例來感受一下：

import requests
 
requests.get('http://httpbin.org/cookies/set/number/123456789')
r = requests.get('http://httpbin.org/cookies')
print(r.text)

在實例中我們請求了一個測試網址： http://httpbin.org/cookies/se... ，請求這個網址我們可以設置一個 Cookie，名稱叫做 number，內容是 123456789，隨後又請求了 http://httpbin.org/cookies ，此網址可以獲取當前的 Cookies。

這樣能成功獲取到設置的 Cookies 嗎？試試看。

運行結果如下：


{
 "cookies": {}
}

並不行。我們再用 Session 試試看：

import requests
 
s = requests.Session()
s.get('http://httpbin.org/cookies/set/number/123456789')
r = s.get('http://httpbin.org/cookies')
print(r.text)

看下運行結果：

{
 "cookies": {
 "number": "123456789"
 }
}

成功獲取！這下能體會到同一個會話和不同會話的區別了吧？

所以，利用 Session 我們可以做到模擬同一個會話，而且不用擔心 Cookies 的問題，通常用於模擬登錄成功之後再進行下一步的操作。

Session 在平常用到的非常廣泛，可以用於模擬在一個瀏覽器中打開同一站點的不同頁面，在後文會有專門的章節來講解這部分內容。

4. SSL證書驗證

Requests 提供了證書驗證的功能，當發送 HTTP 請求的時候，它會檢查 SSL 證書，我們可以使用 verify 這個參數來控制是否檢查此證書，其實如果不加的話默認是 True，會自動驗證。

在前面我們提到過 12306 的證書實際上是不被官方認可的，會出現證書驗證錯誤的結果，我們現在訪問它都可以看到一個證書問題的頁面，如下圖所示：

本節我們再來了解下 Requests 的一些高級用法，如文件上傳，代理設置，Cookies 設置等等。

1. 文件上傳

我們知道 Reqeuests 可以模擬提交一些數據，假如有的網站需要我們上傳文件，我們同樣可以利用它來上傳，實現非常簡單，實例如下：

import requests
files = {'file': open('favicon.ico', 'rb')}
r = requests.post('http://httpbin.org/post', files=files)
print(r.text)

運行結果如下：

{
 "args": {}, 
 "data": "", 
 "files": {
 "file": "data:application/octet-stream;base64,AAAAAA...="
 }, 
 "form": {}, 
 "headers": {
 "Accept": "*/*", 
 "Accept-Encoding": "gzip, deflate", 
 "Content-Length": "6665", 
 "Content-Type": "multipart/form-data; boundary=809f80b1a2974132b133ade1a8e8e058", 
 "Host": "httpbin.org", 
 "User-Agent": "python-requests/2.10.0"
 }, 
 "json": null, 
 "origin": "60.207.237.16", 
 "url": "http://httpbin.org/post"
}

以上部分內容省略，這個網站會返回一個 Response，裡面包含 files 這個字段，而 form 是空的，這證明文件上傳部分會單獨有一個 files 字段來標識。

2. Cookies

在前面我們使用了 Urllib 處理過 Cookies，寫法比較複雜，而有了 Requests，獲取和設置 Cookies 只需要一步即可完成。

我們先用一個實例感受一下獲取 Cookies 的過程：

import requests
r = requests.get('https://www.baidu.com')
print(r.cookies)
for key, value in r.cookies.items():
 print(key + '=' + value)

運行結果如下：

‘'‘
<RequestsCookieJar[<Cookie BDORZ=27315 for .baidu.com/>]>
BDORZ=27315
'‘'

當然，我們也可以直接用 Cookies 來維持登錄狀態。

比如我們以知乎為例，直接利用 Cookies 來維持登錄狀態。

首先登錄知乎，將 Headers 中的 Cookies 複製下來，如下圖所示：

這裡可以替換成你自己的 Cookies，將其設置到 Headers 裡面，發送 Request，示例如下：

import requests
 
headers = {
 'Cookie': 'q_c1=31653b264a074fc9a57816d1ea93ed8b|1474273938000|1474273938000; d_c0="AGDAs254kAqPTr6NW1U3XTLFzKhMPQ6H_nc=|1474273938"; __utmv=51854390.100-1|2=registration_date=20130902=1^3=entry_date=20130902=1;a_t="2.0AACAfbwdAAAXAAAAso0QWAAAgH28HQAAAGDAs254kAoXAAAAYQJVTQ4FCVgA360us8BAklzLYNEHUd6kmHtRQX5a6hiZxKCynnycerLQ3gIkoJLOCQ==";z_c0=Mi4wQUFDQWZid2RBQUFBWU1DemJuaVFDaGNBQUFCaEFsVk5EZ1VKV0FEZnJTNnp3RUNTWE10ZzBRZFIzcVNZZTFGQmZn|1474887858|64b4d4234a21de774c42c837fe0b672fdb5763b0',
 'Host': 'www.zhihu.com',
 'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.116 Safari/537.36',
}
r = requests.get('https://www.zhihu.com', headers=headers)
print(r.text)

發現結果中包含了登錄後的結果，如下圖所示：

運行結果證明登錄成功。

當然也可以通過 cookies 參數來設置，不過這樣就需要構造 RequestsCookieJar 對象，而且需要分割一下 Cookies ，相對繁瑣，不過效果是相同的，實例如下：


import requests
 
cookies = 'q_c1=31653b264a074fc9a57816d1ea93ed8b|1474273938000|1474273938000; d_c0="AGDAs254kAqPTr6NW1U3XTLFzKhMPQ6H_nc=|1474273938"; __utmv=51854390.100-1|2=registration_date=20130902=1^3=entry_date=20130902=1;a_t="2.0AACAfbwdAAAXAAAAso0QWAAAgH28HQAAAGDAs254kAoXAAAAYQJVTQ4FCVgA360us8BAklzLYNEHUd6kmHtRQX5a6hiZxKCynnycerLQ3gIkoJLOCQ==";z_c0=Mi4wQUFDQWZid2RBQUFBWU1DemJuaVFDaGNBQUFCaEFsVk5EZ1VKV0FEZnJTNnp3RUNTWE10ZzBRZFIzcVNZZTFGQmZn|1474887858|64b4d4234a21de774c42c837fe0b672fdb5763b0'
jar = requests.cookies.RequestsCookieJar()
headers = {
 'Host': 'www.zhihu.com',
 'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.116 Safari/537.36'
}
for cookie in cookies.split(';'):
 key, value = cookie.split('=', 1)
 jar.set(key, value)
r = requests.get('http://www.zhihu.com', cookies=jar, headers=headers)
print(r.text)

測試後，發現同樣可以正常登錄知乎。

3. 會話維持

有小夥伴可能就說了，我在兩次請求的時候都設置好一樣的 Cookies 不就行了？可以，但這樣做起來還是顯得很繁瑣，我們還有更簡單的解決方法。

利用它，我們可以方便地維護一個會話，而且不用擔心 Cookies 的問題，它會幫我們自動處理好。

下面用一個實例來感受一下：

import requests
 
requests.get('http://httpbin.org/cookies/set/number/123456789')
r = requests.get('http://httpbin.org/cookies')
print(r.text)

這樣能成功獲取到設置的 Cookies 嗎？試試看。

運行結果如下：


{
 "cookies": {}
}

並不行。我們再用 Session 試試看：

import requests
 
s = requests.Session()
s.get('http://httpbin.org/cookies/set/number/123456789')
r = s.get('http://httpbin.org/cookies')
print(r.text)

看下運行結果：

{
 "cookies": {
 "number": "123456789"
 }
}

成功獲取！這下能體會到同一個會話和不同會話的區別了吧？

所以，利用 Session 我們可以做到模擬同一個會話，而且不用擔心 Cookies 的問題，通常用於模擬登錄成功之後再進行下一步的操作。

Session 在平常用到的非常廣泛，可以用於模擬在一個瀏覽器中打開同一站點的不同頁面，在後文會有專門的章節來講解這部分內容。

4. SSL證書驗證

在前面我們提到過 12306 的證書實際上是不被官方認可的，會出現證書驗證錯誤的結果，我們現在訪問它都可以看到一個證書問題的頁面，如下圖所示：

出現錯誤頁面

現在我們用 Requests 來測試一下：

import requests
response = requests.get('https://www.12306.cn')
print(response.status_code)

運行結果如下：

requests.exceptions.SSLError: ("bad handshake: Error([('SSL routines', 'tls_process_server_certificate', 'certificate verify failed')],)",)

提示一個錯誤，叫做 SSLError，證書驗證錯誤。所以如果我們請求一個 HTTPS 站點，但是證書驗證錯誤的頁面時，就會報這樣的錯誤，那麼如何避免這個錯誤呢？很簡單，把 verify 這個參數設置為 False 即可。

改成如下代碼：

import requests
response = requests.get('https://www.12306.cn', verify=False)
print(response.status_code)

這樣，就會打印出請求成功的狀態碼。

/usr/local/lib/python3.6/site-packages/urllib3/connectionpool.py:852: InsecureRequestWarning: Unverified HTTPS request is being made. Adding certificate verification is strongly advised. See: https://urllib3.readthedocs.io/en/latest/advanced-usage.html#ssl-warnings
 InsecureRequestWarning)
200

不過發現報了一個警告，它提示建議讓我們給它指定證書。

我們可以通過設置忽略警告的方式來屏蔽這個警告：

import requests
from requests.packages import urllib3
urllib3.disable_warnings()
response = requests.get('https://www.12306.cn', verify=False)
print(response.status_code)

或者通過捕獲警告到日誌的方式忽略警告：

import logging
import requests
logging.captureWarnings(True)
response = requests.get('https://www.12306.cn', verify=False)
print(response.status_code)

當然我們也可以指定一個本地證書用作客戶端證書，可以是單個文件（包含密鑰和證書）或一個包含兩個文件路徑的元組。


import requests
response = requests.get('https://www.12306.cn', cert=('/path/server.crt', '/path/key'))
print(response.status_code)

當然上面代碼是實例，我們需要有 crt 和 key 文件，指定它們的路徑。注意本地私有證書的 key 必須要是解密狀態，加密狀態的 key 是不支持的。

5. 代理設置

對於某些網站，在測試的時候請求幾次，能正常獲取內容。但是一旦開始大規模爬取，對於大規模且頻繁的請求，網站可能會直接登錄驗證，驗證碼，甚至直接把IP給封禁掉。

那麼為了防止這種情況的發生，我們就需要設置代理來解決這個問題，在 Requests 中需要用到 proxies 這個參數。

可以用這樣的方式設置：

import requests
proxies = {
 'http': 'http://10.10.1.10:3128',
 'https': 'http://10.10.1.10:1080',
}
requests.get('https://www.taobao.com', proxies=proxies)

當然直接運行這個實例可能不行，因為這個代理可能是無效的，請換成自己的有效代理試驗一下。

若代理需要使用 HTTP Basic Auth，可以使用類似 http://user :password@host:port 這樣的語法來設置代理。

實例如下：

import requests
proxies = {
 'https': 'http://user:[email protected]:3128/',
}
requests.get('https://www.taobao.com', proxies=proxies)

除了基本的 HTTP 代理，Requests 還支持 SOCKS 協議的代理。

首先需要安裝 Socks 這個庫，命令如下：

pip3 install "requests[socks]"

然後就可以使用 SOCKS 協議代理了，實例如下：

import requests
proxies = {
 'http': 'socks5://user:password@host:port',
 'https': 'socks5://user:password@host:port'
}
requests.get('https://www.taobao.com', proxies=proxies)

6. 超時設置

在本機網絡狀況不好或者服務器網絡響應太慢甚至無響應時，我們可能會等待特別久的時間才可能會收到一個響應，甚至到最後收不到響應而報錯。為了防止服務器不能及時響應，我們應該設置一個超時時間，即超過了這個時間還沒有得到響應，那就報錯。

設置超時時間需要用到 timeout 參數。這個時間的計算是發出 Request 到服務器返回 Response 的時間。

下面用一個實例來感受一下：

import requests
r = requests.get('https://www.taobao.com', timeout=1)
print(r.status_code)

通過這樣的方式，我們可以將超時時間設置為 1 秒，如果 1 秒內沒有響應，那就拋出異常。

實際上請求分為兩個階段，即 connect（連接）和 read（讀取）。

上面的設置 timeout 值將會用作 connect 和 read 二者的 timeout 總和。

如果要分別指定，就可以傳入一個元組：

r = requests.get('https://www.taobao.com', timeout=(5, 11))

如果想永久等待，那麼我們可以直接將 timeout 設置為 None，或者不設置直接留空，因為默認是 None。這樣的話，如果服務器還在運行，但是響應特別慢，那就慢慢等吧，它永遠不會返回超時錯誤的。

用法如下：

r = requests.get('https://www.taobao.com', timeout=None)

或直接不加參數：

r = requests.get('https://www.taobao.com')

7. 身份認證

在訪問網站時，我們可能會遇到這樣的認證頁面，如下圖所示：

本節我們再來了解下 Requests 的一些高級用法，如文件上傳，代理設置，Cookies 設置等等。

1. 文件上傳

我們知道 Reqeuests 可以模擬提交一些數據，假如有的網站需要我們上傳文件，我們同樣可以利用它來上傳，實現非常簡單，實例如下：

import requests
files = {'file': open('favicon.ico', 'rb')}
r = requests.post('http://httpbin.org/post', files=files)
print(r.text)

運行結果如下：

{
 "args": {}, 
 "data": "", 
 "files": {
 "file": "data:application/octet-stream;base64,AAAAAA...="
 }, 
 "form": {}, 
 "headers": {
 "Accept": "*/*", 
 "Accept-Encoding": "gzip, deflate", 
 "Content-Length": "6665", 
 "Content-Type": "multipart/form-data; boundary=809f80b1a2974132b133ade1a8e8e058", 
 "Host": "httpbin.org", 
 "User-Agent": "python-requests/2.10.0"
 }, 
 "json": null, 
 "origin": "60.207.237.16", 
 "url": "http://httpbin.org/post"
}

以上部分內容省略，這個網站會返回一個 Response，裡面包含 files 這個字段，而 form 是空的，這證明文件上傳部分會單獨有一個 files 字段來標識。

2. Cookies

在前面我們使用了 Urllib 處理過 Cookies，寫法比較複雜，而有了 Requests，獲取和設置 Cookies 只需要一步即可完成。

我們先用一個實例感受一下獲取 Cookies 的過程：

import requests
r = requests.get('https://www.baidu.com')
print(r.cookies)
for key, value in r.cookies.items():
 print(key + '=' + value)

運行結果如下：

‘'‘
<RequestsCookieJar[<Cookie BDORZ=27315 for .baidu.com/>]>
BDORZ=27315
'‘'

當然，我們也可以直接用 Cookies 來維持登錄狀態。

比如我們以知乎為例，直接利用 Cookies 來維持登錄狀態。

首先登錄知乎，將 Headers 中的 Cookies 複製下來，如下圖所示：

這裡可以替換成你自己的 Cookies，將其設置到 Headers 裡面，發送 Request，示例如下：

import requests
 
headers = {
 'Cookie': 'q_c1=31653b264a074fc9a57816d1ea93ed8b|1474273938000|1474273938000; d_c0="AGDAs254kAqPTr6NW1U3XTLFzKhMPQ6H_nc=|1474273938"; __utmv=51854390.100-1|2=registration_date=20130902=1^3=entry_date=20130902=1;a_t="2.0AACAfbwdAAAXAAAAso0QWAAAgH28HQAAAGDAs254kAoXAAAAYQJVTQ4FCVgA360us8BAklzLYNEHUd6kmHtRQX5a6hiZxKCynnycerLQ3gIkoJLOCQ==";z_c0=Mi4wQUFDQWZid2RBQUFBWU1DemJuaVFDaGNBQUFCaEFsVk5EZ1VKV0FEZnJTNnp3RUNTWE10ZzBRZFIzcVNZZTFGQmZn|1474887858|64b4d4234a21de774c42c837fe0b672fdb5763b0',
 'Host': 'www.zhihu.com',
 'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.116 Safari/537.36',
}
r = requests.get('https://www.zhihu.com', headers=headers)
print(r.text)

發現結果中包含了登錄後的結果，如下圖所示：

運行結果證明登錄成功。

當然也可以通過 cookies 參數來設置，不過這樣就需要構造 RequestsCookieJar 對象，而且需要分割一下 Cookies ，相對繁瑣，不過效果是相同的，實例如下：


import requests
 
cookies = 'q_c1=31653b264a074fc9a57816d1ea93ed8b|1474273938000|1474273938000; d_c0="AGDAs254kAqPTr6NW1U3XTLFzKhMPQ6H_nc=|1474273938"; __utmv=51854390.100-1|2=registration_date=20130902=1^3=entry_date=20130902=1;a_t="2.0AACAfbwdAAAXAAAAso0QWAAAgH28HQAAAGDAs254kAoXAAAAYQJVTQ4FCVgA360us8BAklzLYNEHUd6kmHtRQX5a6hiZxKCynnycerLQ3gIkoJLOCQ==";z_c0=Mi4wQUFDQWZid2RBQUFBWU1DemJuaVFDaGNBQUFCaEFsVk5EZ1VKV0FEZnJTNnp3RUNTWE10ZzBRZFIzcVNZZTFGQmZn|1474887858|64b4d4234a21de774c42c837fe0b672fdb5763b0'
jar = requests.cookies.RequestsCookieJar()
headers = {
 'Host': 'www.zhihu.com',
 'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.116 Safari/537.36'
}
for cookie in cookies.split(';'):
 key, value = cookie.split('=', 1)
 jar.set(key, value)
r = requests.get('http://www.zhihu.com', cookies=jar, headers=headers)
print(r.text)

測試後，發現同樣可以正常登錄知乎。

3. 會話維持

有小夥伴可能就說了，我在兩次請求的時候都設置好一樣的 Cookies 不就行了？可以，但這樣做起來還是顯得很繁瑣，我們還有更簡單的解決方法。

利用它，我們可以方便地維護一個會話，而且不用擔心 Cookies 的問題，它會幫我們自動處理好。

下面用一個實例來感受一下：

import requests
 
requests.get('http://httpbin.org/cookies/set/number/123456789')
r = requests.get('http://httpbin.org/cookies')
print(r.text)

這樣能成功獲取到設置的 Cookies 嗎？試試看。

運行結果如下：


{
 "cookies": {}
}

並不行。我們再用 Session 試試看：

import requests
 
s = requests.Session()
s.get('http://httpbin.org/cookies/set/number/123456789')
r = s.get('http://httpbin.org/cookies')
print(r.text)

看下運行結果：

{
 "cookies": {
 "number": "123456789"
 }
}

成功獲取！這下能體會到同一個會話和不同會話的區別了吧？

所以，利用 Session 我們可以做到模擬同一個會話，而且不用擔心 Cookies 的問題，通常用於模擬登錄成功之後再進行下一步的操作。

Session 在平常用到的非常廣泛，可以用於模擬在一個瀏覽器中打開同一站點的不同頁面，在後文會有專門的章節來講解這部分內容。

4. SSL證書驗證

在前面我們提到過 12306 的證書實際上是不被官方認可的，會出現證書驗證錯誤的結果，我們現在訪問它都可以看到一個證書問題的頁面，如下圖所示：

出現錯誤頁面

現在我們用 Requests 來測試一下：

import requests
response = requests.get('https://www.12306.cn')
print(response.status_code)

運行結果如下：

requests.exceptions.SSLError: ("bad handshake: Error([('SSL routines', 'tls_process_server_certificate', 'certificate verify failed')],)",)

改成如下代碼：

import requests
response = requests.get('https://www.12306.cn', verify=False)
print(response.status_code)

這樣，就會打印出請求成功的狀態碼。

/usr/local/lib/python3.6/site-packages/urllib3/connectionpool.py:852: InsecureRequestWarning: Unverified HTTPS request is being made. Adding certificate verification is strongly advised. See: https://urllib3.readthedocs.io/en/latest/advanced-usage.html#ssl-warnings
 InsecureRequestWarning)
200

不過發現報了一個警告，它提示建議讓我們給它指定證書。

我們可以通過設置忽略警告的方式來屏蔽這個警告：

import requests
from requests.packages import urllib3
urllib3.disable_warnings()
response = requests.get('https://www.12306.cn', verify=False)
print(response.status_code)

或者通過捕獲警告到日誌的方式忽略警告：

import logging
import requests
logging.captureWarnings(True)
response = requests.get('https://www.12306.cn', verify=False)
print(response.status_code)

當然我們也可以指定一個本地證書用作客戶端證書，可以是單個文件（包含密鑰和證書）或一個包含兩個文件路徑的元組。


import requests
response = requests.get('https://www.12306.cn', cert=('/path/server.crt', '/path/key'))
print(response.status_code)

當然上面代碼是實例，我們需要有 crt 和 key 文件，指定它們的路徑。注意本地私有證書的 key 必須要是解密狀態，加密狀態的 key 是不支持的。

5. 代理設置

那麼為了防止這種情況的發生，我們就需要設置代理來解決這個問題，在 Requests 中需要用到 proxies 這個參數。

可以用這樣的方式設置：

import requests
proxies = {
 'http': 'http://10.10.1.10:3128',
 'https': 'http://10.10.1.10:1080',
}
requests.get('https://www.taobao.com', proxies=proxies)

當然直接運行這個實例可能不行，因為這個代理可能是無效的，請換成自己的有效代理試驗一下。

若代理需要使用 HTTP Basic Auth，可以使用類似 http://user :password@host:port 這樣的語法來設置代理。

實例如下：

import requests
proxies = {
 'https': 'http://user:[email protected]:3128/',
}
requests.get('https://www.taobao.com', proxies=proxies)

除了基本的 HTTP 代理，Requests 還支持 SOCKS 協議的代理。

首先需要安裝 Socks 這個庫，命令如下：

pip3 install "requests[socks]"

然後就可以使用 SOCKS 協議代理了，實例如下：

import requests
proxies = {
 'http': 'socks5://user:password@host:port',
 'https': 'socks5://user:password@host:port'
}
requests.get('https://www.taobao.com', proxies=proxies)

6. 超時設置

設置超時時間需要用到 timeout 參數。這個時間的計算是發出 Request 到服務器返回 Response 的時間。

下面用一個實例來感受一下：

import requests
r = requests.get('https://www.taobao.com', timeout=1)
print(r.status_code)

通過這樣的方式，我們可以將超時時間設置為 1 秒，如果 1 秒內沒有響應，那就拋出異常。

實際上請求分為兩個階段，即 connect（連接）和 read（讀取）。

上面的設置 timeout 值將會用作 connect 和 read 二者的 timeout 總和。

如果要分別指定，就可以傳入一個元組：

r = requests.get('https://www.taobao.com', timeout=(5, 11))

用法如下：

r = requests.get('https://www.taobao.com', timeout=None)

或直接不加參數：

r = requests.get('https://www.taobao.com')

7. 身份認證

在訪問網站時，我們可能會遇到這樣的認證頁面，如下圖所示：

認證頁面

如果遇到這樣的網站驗證，可以使用 Requests 自帶的身份認證功能，實例如下：

import requests
from requests.auth import HTTPBasicAuth
r = requests.get('http://localhost:5000', auth=HTTPBasicAuth('username', 'password'))
print(r.status_code)

如果用戶名和密碼正確的話，請求時就會自動認證成功，會返回 200 狀態碼，如果認證失敗，則會返回 401 狀態碼。

當然如果參數都傳一個 HTTPBasicAuth 類，就顯得有點繁瑣了，所以 Requests 提供了一個更簡單的寫法，可以直接傳一個元組，它會默認使用 HTTPBasicAuth 這個類來認證。

所以上面的代碼可以直接簡寫如下：

import requests
r = requests.get('http://localhost:5000', auth=('username', 'password'))
print(r.status_code)

運行效果和上面的是一樣的。

Requests 還提供了其他的認證方式，如 OAuth 認證，不過需要安裝 oauth 包，命令如下：

pip3 install requests_oauthlib

使用 OAuth1 認證的方法如下：

import requests
from requests_oauthlib import OAuth1
url = 'https://api.twitter.com/1.1/account/verify_credentials.json'
auth = OAuth1('YOUR_APP_KEY', 'YOUR_APP_SECRET',
 'USER_OAUTH_TOKEN', 'USER_OAUTH_TOKEN_SECRET')
requests.get(url, auth=auth)

更多詳細的功能就可以參考 requests_oauthlib 的官方文檔： https://requests-oauthlib.rea... ，在此就不再贅述了。

8. Prepared Request

在前面介紹 Urllib 時我們可以將 Request 表示為一個數據結構，Request 的各個參數都可以通過一個 Request 對象來表示，在 Requests 裡面同樣可以做到，這個數據結構就叫 Prepared Request。

我們用一個實例感受一下：

from requests import Request, Session
 
url = 'http://httpbin.org/post'
data = {
 'name': 'germey'
}
headers = {
 'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.116 Safari/537.36'
}
s = Session()
req = Request('POST', url, data=data, headers=headers)
prepped = s.prepare_request(req)
r = s.send(prepped)
print(r.text)

在這裡我們引入了 Request，然後用 url、data、headers 參數構造了一個 Request 對象，這時我們需要再調用 Session 的 prepare_request() 方法將其轉換為一個 Prepared Request 對象，然後調用 send() 方法發送即可，運行結果如下：

{
 "args": {}, 
 "data": "", 
 "files": {}, 
 "form": {
 "name": "germey"
 }, 
 "headers": {
 "Accept": "*/*", 
 "Accept-Encoding": "gzip, deflate", 
 "Connection": "close", 
 "Content-Length": "11", 
 "Content-Type": "application/x-www-form-urlencoded", 
 "Host": "httpbin.org", 
 "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.116 Safari/537.36"
 }, 
 "json": null, 
 "origin": "182.32.203.166", 
 "url": "http://httpbin.org/post"
}

可以看到我們達到了同樣的 POST 請求效果。

有了 Request 這個對象，我們就可以將一個個請求當做一個獨立的對象來看待，這樣在進行隊列調度的時候會非常方便，後面我們會有一節使用它來構造一個 Request 隊列。

9. 結語

本節講解了 Requests 的一些高級用法，這些用法在後面實戰部分會經常用到，需要熟練掌握。

以上就是小編所分享的內容，喜歡的話可以加個關注，希望能夠幫助到大家。

最後，這裡由我自己整理了一套最新的python系統學習教程，從基礎到實戰，內容的實用性都很高，可以免費送給大家，需要這些資料的可以關注並在後臺私信小編：“01”即可領取。

'Python3網絡爬蟲中的requests高級用法詳解'

相關推薦