關於爬蟲的HTTP原理,看完這一長篇就夠了!(附三大爬蟲案例)

感謝關注天善智能,走好數據之路↑↑↑

歡迎關注天善智能,我們是專注於商業智能BI,大數據,數據分析領域的垂直社區,學習,問答、求職一站式搞定!

每週2-3場免費數據領域公開課,每月線下活動,歡迎關注!

本文作者:天善智能社區講師崔慶才,Python技術控,爬蟲博文訪問量已過百萬。喜歡鑽研,熱愛生活,樂於分享。

個人博客:靜覓 | http://cuiqingcai.com/

HTTP基本原理

在本節我們會詳細瞭解 HTTP 的基本原理,瞭解在瀏覽器中敲入一個 URL 到獲取網頁內容發生了一個怎樣的過程,瞭解了這些內容,有助於去進一步瞭解爬蟲的基本原理。

1. URI、URL

在瞭解 HTTP 之前我們先了解一下 URI 和 URL。我們經常會聽到 URI 和 URL 兩個術語,URI 全稱為 Uniform Resource Identifier,即統一資源標誌符,URL 全稱為 Universal Resource Locator,即統一資源定位符。

舉例來說,https://github.com/favicon.ico,這是 GitHub 的網站圖標鏈接,它是一個 URL,也是一個 URI,即有這樣的一個圖標資源,我們用 URL/URI 來唯一指定了它的訪問方式,這其中包括了訪問協議 https、訪問路徑/即根目錄,資源名稱 favicon.ico,通過這樣的一個鏈接我們便可以從互聯網上找到這個資源,這就是 URL/URI。

URL 是 URI 的子集,也就是說每個 URL 都是 URI,但不是每個 URI 都是 URL。那麼怎樣的 URI 不是 URL 呢?URI 還包括一個子類叫做 URN,它的全稱為 Universal Resource Name,即統一資源名稱。URN 只命名資源而不指定如何定位資源,如 urn:isbn:0451450523,它指定了一本書的 ISBN,可以唯一標識這一本書,但是沒有指定到哪裡定位這本書,這就是 URN,URL、URN、URI 的關係可以用圖表示如下:

關於爬蟲的HTTP原理,看完這一長篇就夠了!(附三大爬蟲案例)

URL、URN、URI 關係圖

但是在目前的互聯網,URN 的使用非常少,所以幾乎所有的 URI 都是 URL,所以一般的網頁鏈接我們可以稱之為 URL,也可以稱之為 URI,我個人習慣稱之為 URL。

2. 超文本

接下來我們再瞭解一個概念,超文本。超文本英文名稱叫做 Hypertext,我們在瀏覽器裡面看到的網頁就是超文本解析而成的,其網頁源代碼是一系列 HTML 代碼,裡面包含了一系列標籤,如 img 顯示圖片,p 指定顯示段落等,瀏覽器解析這些標籤後便形成了我們平常看到的網頁,而這網頁的源代碼 HTML 就可以稱作超文本。

例如我們在 Chrome 瀏覽器裡面打開任意一個頁面,如淘寶首頁,右鍵點擊檢查,或按下快捷鍵 F12 即可打開瀏覽器的開發者工具,這時我們在 Elements 選項卡即可看到當前網頁的源代碼,這些源代碼都是超文本,如圖所示:

關於爬蟲的HTTP原理,看完這一長篇就夠了!(附三大爬蟲案例)

源代碼

3. HTTP、HTTPS

我們在前面瞭解了 URI 和 URL,例如淘寶的首頁:https://www.taobao.com/,在URL 的開頭會有 http 或 https,這個就是訪問資源需要的協議類型,有時我們還會看到 ftp、sftp、smb 開頭的 URL,那麼這裡的 ftp、sftp、smb 都是指的協議類型。在爬蟲中,我們抓取的頁面通常就是 http 或 https 協議的,我們在這裡首先來了解一下這兩個協議的含義。

HTTP 的全稱是 Hyper Text Transfer Protocol,中文名叫做超文本傳輸協議,HTTP 協議是用於從網絡傳輸超文本數據到本地瀏覽器的傳送協議,它能保證傳送高效而準確地傳送超文本文檔。HTTP 由萬維網協會(World Wide Web Consortium)和 Internet 工作小組IETF(Internet Engineering Task Force)共同合作制定的規範,目前廣泛使用的是 HTTP 1.1 版本。

HTTPS 的全稱是 Hyper Text Transfer Protocol over Secure Socket Layer,是以安全為目標的 HTTP 通道,簡單講是 HTTP 的安全版,即 HTTP 下加入 SSL 層,簡稱為 HTTPS。

HTTPS 的安全基礎是 SSL,因此通過它傳輸的內容都是經過 SSL 加密的,它的主要作用可以分為兩種:

  • 是建立一個信息安全通道,來保證數據傳輸的安全。

  • 確認網站的真實性,凡是使用了 https 的網站,都可以通過點擊瀏覽器地址欄的鎖頭標誌來查看網站認證之後的真實信息,也可以通過 CA 機構頒發的安全簽章來查詢。

現在越來越多的網站和 APP 都已經向 HTTPS 方向發展。例如:

  • 蘋果公司強制所有 iOS App 在 2017 年 1 月 1 日 前全部改為使用 HTTPS 加密,否則 APP 就無法在應用商店上架。

  • 谷歌從 2017 年 1 月推出的 Chrome 56 開始,對未進行 HTTPS 加密的網址鏈接亮出風險提示,即在地址欄的顯著位置提醒用戶“此網頁不安全”。

  • 騰訊微信小程序的官方需求文檔要求後臺使用 HTTPS 請求進行網絡通信,不滿足條件的域名和協議無法請求。

而某些網站雖然使用了 HTTPS 協議還是會被瀏覽器提示不安全,例如我們在 Chrome 瀏覽器裡面打開 12306,鏈接為:https://www.12306.cn/,這時瀏覽器就會提示“您的連接不是私密連接”這樣的話,如圖所示:

關於爬蟲的HTTP原理,看完這一長篇就夠了!(附三大爬蟲案例)

12306 頁面

這是因為12306 的 CA 證書是中國鐵道部自己頒發給自己的,而這個證書是不被官方機構認可的,所以這裡證書驗證就不會通過而提示這樣的話,但是實際上它的數據傳輸依然是經過 SSL 加密的。我們如果要爬取這樣的站點就需要設置忽略證書的選項,否則會提示 SSL 鏈接錯誤,在後文會進行詳細說明。

4. HTTP請求過程

我們在瀏覽器中輸入一個URL,回車之後便會在瀏覽器中觀察到頁面內容,實際上這個過程是瀏覽器向網站所在的服務器發送了一個 Request,即請求,網站服務器接收到這個Request 之後進行處理和解析,然後返回對應的一個 Response,即響應,然後傳回給瀏覽器,Response裡面就包含了頁面的源代碼等內容,瀏覽器再對其進行解析便將網頁呈現了出來,模型如圖所示:

關於爬蟲的HTTP原理,看完這一長篇就夠了!(附三大爬蟲案例)

模型圖

此處客戶端即代表我們自己的 PC 或手機瀏覽器,服務器即要訪問的網站所在的服務器。

為了更直觀地地說明這個的過程,我們在這裡用 Chrome 瀏覽器的開發者模式下的 Network 監聽組件來做下演示,它可以顯示訪問當前請求網頁時發生的所有網絡請求和響應。

打開 Chrome 瀏覽器,右鍵點擊檢查,或按下快捷鍵 F12 即可打開瀏覽器的開發者工具,我們在這裡訪問百度:http://www.baidu.com/,輸入該 URL,敲擊回車訪問這個頁面,觀察一下在這個過程中發生了怎樣的網絡請求,這時我們可以看到在 Network 頁面的下方出現了一個個的條目,那麼這一個條目就代表一次發送 Request 和接收 Response 的過程,如圖所示:

關於爬蟲的HTTP原理,看完這一長篇就夠了!(附三大爬蟲案例)

Network 面板

我們觀察第一個網絡請求,即www.baidu.com,如圖所示:

關於爬蟲的HTTP原理,看完這一長篇就夠了!(附三大爬蟲案例)

網絡請求記錄

這一個條目的各列分別代表:

  • 第一列 Name,即 Request 的名稱。一般會用URL的最後一部分內容當做名稱。

  • 第二列 Status,即 Response 的狀態碼。這裡顯示為 200,代表 Response 是正常的,通過狀態碼我們可以判斷髮送了 Request 之後是否得到了正常的 Response。

  • 第三列 Type,即 Request 請求的文檔類型。這裡為 document,代表我們這次請求的是一個 HTML 文檔,內容就是一些 HTML 代碼。

  • 第四列 Initiator,即請求源。用來標記 Request 是由哪個對象或進程發起的。

  • 第五列 Size,即從服務器下載的文件和請求的資源大小。如果是從緩存中取得的資源則該列會顯示 from cache。

  • 第六列 Time,即發起 Request 到獲取到 Response 所用的總時間。

  • 第七列 Timeline,即網絡請求的可視化瀑布流。

我們點擊這個條目即可看到其更詳細的信息,如圖所示:

關於爬蟲的HTTP原理,看完這一長篇就夠了!(附三大爬蟲案例)

詳細信息

首先是General 部分,Request URL 為 Request 的 URL,Request Method 為請求的方法,Status Code 為響應狀態碼,Remote Address 為遠程服務器的地址和端口,Referrer Policy 為 Referrer 判別策略。

再繼續往下看可以看到有一個 Response Headers 和一個 Request Headers,這分別代表響應頭和請求頭,請求頭裡面帶有許多請求信息,例如瀏覽器標識、Cookies、Host 等信息,這是 Request 的一部分,服務器會根據請求頭內的信息判斷請求是否合法,進而作出對應的響應,返回 Response,那麼在圖中看到的 Response Headers 就是 Response 的一部分,例如其中包含了服務器的類型、文檔類型、日期等信息,瀏覽器接受到 Response 後,會解析響應內容,進而呈現網頁內容。

下面我們分別來介紹一下請求 Request 和響應 Response 都包含了哪些內容,在這裡進行對其組成進行總結:

5. Request

Request,即請求,由客戶端向服務端發出。可以將 Request 劃分為四部分內容:Request Method、Request URL、Request Headers、Request Body,即請求方式、請求鏈接、請求頭、請求體。

Request Method

請求方式,請求方式常見的有兩種類型,GET 和 POST。

我們在瀏覽器中直接輸入一個 URL 並回車,這便發起了一個 GET 請求,請求的參數會直接包含到 URL 裡,例如百度搜索 Python,這就是一個 GET 請求,鏈接為:https://www.baidu.com/s?wd=Python,URL中包含了請求的參數信息,這裡參數 wd 就是要搜尋的關鍵字。POST 請求大多為表單提交發起,如一個登錄表單,輸入用戶名密碼,點擊登錄按鈕,這通常會發起一個 POST 請求,其數據通常以 Form Data 即表單的形式傳輸,不會體現在 URL 中。

GET 和 POST 請求方法有如下區別:

  • GET 方式請求中參數是包含在 URL 裡面的,數據可以在 URL 中看到,而 POST 請求的 URL 不會包含這些數據,數據都是通過表單的形式傳輸,會包含在 Request Body 中。

  • GET 方式請求提交的數據最多隻有 1024 字節,而 POST 方式沒有限制。

所以一般來說,網站登錄驗證的時候,需要提交用戶名密碼,這裡包含了敏感信息,使用GET方式請求的話密碼就會暴露在URL裡面,造成密碼洩露,所以這裡最好以POST方式發送。

文件的上傳時,由於文件內容比較大,也會選用POST方式。

我們平常遇到的絕大部分請求都是 GET 或 POST 請求,另外還有一些請求方式,如 HEAD、PUT、DELETE、OPTIONS、CONNECT、TRACE,我們簡單將其總結如下:

方法描述

GET請求指定的頁面信息,並返回實體主體。

HEAD類似於 GET 請求,只不過返回的響應中沒有具體的內容,用於獲取報頭。

POST向指定資源提交數據進行處理請求,數據被包含在請求體中。

PUT從客戶端向服務器傳送的數據取代指定的文檔的內容。

DELETE請求服務器刪除指定的頁面。

CONNECTHTTP/1.1 協議中預留給能夠將連接改為管道方式的代理服務器。

OPTIONS允許客戶端查看服務器的性能。

TRACE回顯服務器收到的請求,主要用於測試或診斷。

本表參考:http://www.runoob.com/http/http-methods.html。

Request URL

顧名思義,就是請求的網址,即統一資源定位符,用 URL 可以唯一確定我們想請求的資源。

Request Headers

請求頭,用來說明服務器要使用的附加信息,比較重要的信息有 Cookie、Referer、User-Agent 等,下面將一些常用的頭信息說明如下:

  • Accept,請求報頭域,用於指定客戶端可接受哪些類型的信息。

  • Accept-Language,指定客戶端可接受的語言類型。

  • Accept-Encoding,指定客戶端可接受的內容編碼。

  • Host,用於指定請求資源的主機 IP 和端口號,其內容為請求URL 的原始服務器或網關的位置。從 HTTP 1.1 版本開始,Request 必須包含此內容。

  • Cookie,也常用複數形式Cookies,是網站為了辨別用戶進行 Session 跟蹤而儲存在用戶本地的數據。Cookies 的主要功能就是維持當前訪問會話,例如我們輸入用戶名密碼登錄了某個網站,登錄成功之後服務器會用 Session 保存我們的登錄狀態信息,後面我們每次刷新或請求該站點的其他頁面時會發現都是保持著登錄狀態的,在這裡就是 Cookies 的功勞,Cookies 裡有信息標識了我們所對應的服務器的 Session 會話,每次瀏覽器在請求該站點的頁面時都會在請求頭中加上 Cookies 並將其發送給服務器,服務器通過 Cookies 識別出是我們自己,並且查出當前狀態是登錄的狀態,所以返回的結果就是登錄之後才能看到的網頁內容。

  • Referer,此內容用來標識這個請求是從哪個頁面發過來的,服務器可以拿到這一信息並做相應的處理,如做來源統計、做防盜鏈處理等。

  • User-Agent,簡稱 UA,它是一個特殊字符串頭,使得服務器能夠識別客戶使用的操作系統及版本、瀏覽器及版本等信息。在做爬蟲時加上此信息可以偽裝為瀏覽器,如果不加很可能會被識別出為爬蟲。

  • Content-Type,即 Internet Media Type,互聯網媒體類型,也叫做 MIME 類型,在 HTTP 協議消息頭中,使用它來表示具體請求中的媒體類型信息。例如 text/html 代表 HTML 格式,image/gif 代表 GIF 圖片,application/json 代表 Json 類型,更多對應關係可以查看此對照表:http://tool.oschina.net/commons。

因此,Request Headers 是 Request 等重要組成部分,在寫爬蟲的時候大部分情況都需要設定 Request Headers。

Request Body

即請求體,一般承載的內容是 POST 請求中的 Form Data,即表單數據,而對於 GET 請求 Request Body 則為空。

例如在這裡我登錄 GitHub 時捕獲到的 Request 和 Response 如圖所示:

關於爬蟲的HTTP原理,看完這一長篇就夠了!(附三大爬蟲案例)

詳細信息

在登錄之前我們填寫了用戶名和密碼信息,提交時就這些內容就會以Form Data 的形式提交給服務器,此時注意 Request Headers 中指定了 Content-Type 為 application/x-www-form-urlencoded,只有設置 Content-Type 為 application/x-www-form-urlencoded 才會以 Form Data 形式提交,另外我們也可以將 Content-Type 設置為 application/json 來提交 Json 數據,或者設置為 multipart/form-data 來上傳文件。

下面列出了 Content-Type 和 POST 提交數據方式的關係:

Content-Type提交數據方式

application/x-www-form-urlencodedForm 表單提交

multipart/form-data表單文件上傳提交

application/json序列化 Json 數據提交

text/xmlXML 數據提交

在爬蟲中如果我們要構造 POST 請求需要注意這幾種 Content-Type,瞭解各種請求庫的各個參數設置時使用的是哪種 Content-Type,不然可能會導致 POST 提交後得不到正常的 Response。

以上便是對 Request 各部分內容的解釋。

6. Response

Response,即響應,由服務端返回給客戶端。Response 可以劃分為三部分,Response Status Code、Response Headers、Response Body。

Response Status Code

響應狀態碼,此狀態碼錶示了服務器的響應狀態,如 200 則代表服務器正常響應,404 則代表頁面未找到,500 則代表服務器內部發生錯誤。在爬蟲中,我們可以根據狀態碼來判斷服務器響應狀態,如判斷狀態碼為 200,則證明成功返回數據,再進行進一步的處理,否則直接忽略。

下面用表格列出了常見的錯誤代碼及錯誤原因:

狀態碼說明詳情

100繼續請求者應當繼續提出請求。服務器已收到請求的一部分,正在等待其餘部分。

101切換協議請求者已要求服務器切換協議,服務器已確認並準備切換。

200成功服務器已成功處理了請求。

201已創建請求成功並且服務器創建了新的資源。

202已接受服務器已接受請求,但尚未處理。

203非授權信息服務器已成功處理了請求,但返回的信息可能來自另一來源。

204無內容服務器成功處理了請求,但沒有返回任何內容。

205重置內容服務器成功處理了請求,內容被重置。

206部分內容服務器成功處理了部分請求。

300多種選擇針對請求,服務器可執行多種操作。

301永久移動請求的網頁已永久移動到新位置,即永久重定向。

302臨時移動請求的網頁暫時跳轉到其他頁面,即暫時重定向。

303查看其他位置如果原來的請求是 POST,重定向目標文檔應該通過 GET 提取。

304未修改此次請求返回的網頁未修改,繼續使用上次的資源。

305使用代理請求者應該使用代理訪問該網頁。

307臨時重定向請求的資源臨時從其他位置響應。

400錯誤請求服務器無法解析該請求。

401未授權請求沒有進行身份驗證或驗證未通過。

403禁止訪問服務器拒絕此請求。

404未找到服務器找不到請求的網頁。

405方法禁用服務器禁用了請求中指定的方法。

406不接受無法使用請求的內容響應請求的網頁。

407需要代理授權請求者需要使用代理授權。

408請求超時服務器請求超時。

409衝突服務器在完成請求時發生衝突。

410已刪除請求的資源已永久刪除。

411需要有效長度服務器不接受不含有效內容長度標頭字段的請求。

412未滿足前提條件服務器未滿足請求者在請求中設置的其中一個前提條件。

413請求實體過大請求實體過大,超出服務器的處理能力。

414請求 URI 過長請求網址過長,服務器無法處理。

415不支持類型請求的格式不受請求頁面的支持。

416請求範圍不符頁面無法提供請求的範圍。

417未滿足期望值服務器未滿足期望請求標頭字段的要求。

500服務器內部錯誤服務器遇到錯誤,無法完成請求。

501未實現服務器不具備完成請求的功能。

502錯誤網關服務器作為網關或代理,從上游服務器收到無效響應。

503服務不可用服務器目前無法使用。

504網關超時服務器作為網關或代理,但是沒有及時從上游服務器收到請求。

505HTTP 版本不支持服務器不支持請求中所用的 HTTP 協議版本。

Response Headers

響應頭,其中包含了服務器對請求的應答信息,如 Content-Type、Server、Set-Cookie 等,下面將一些常用的頭信息說明如下:

  • Date,標識 Response 產生的時間。

  • Last-Modified,指定資源的最後修改時間。

  • Content-Encoding,指定 Response 內容的編碼。

  • Server,包含了服務器的信息,名稱,版本號等。

  • Content-Type,文檔類型,指定了返回的數據類型是什麼,如text/html 則代表返回 HTML 文檔,application/x-javascript 則代表返回 JavaScript 文件,image/jpeg 則代表返回了圖片。

  • Set-Cookie,設置Cookie,Response Headers 中的 Set-Cookie即告訴瀏覽器需要將此內容放在 Cookies 中,下次請求攜帶 Cookies 請求。

  • Expires,指定 Response 的過期時間,使用它可以控制代理服務器或瀏覽器將內容更新到緩存中,如果再次訪問時,直接從緩存中加載,降低服務器負載,縮短加載時間。

Resposne Body

即響應體,最重要的當屬響應體內容了,響應的正文數據都是在響應體中,如請求一個網頁,它的響應體就是網頁的HTML 代碼,請求一張圖片,它的響應體就是圖片的二進制數據。所以最主要的數據都包含在響應體中了,我們做爬蟲請求網頁後要解析的內容就是解析響應體,如圖所示:

關於爬蟲的HTTP原理,看完這一長篇就夠了!(附三大爬蟲案例)

響應體內容

我們在瀏覽器開發者工具中點擊 Preview,就可以看到網頁的源代碼,這也就是響應體內容,是解析的目標。

我們在做爬蟲時主要解析的內容就是 Resposne Body,通過 Resposne Body 我們可以得到網頁的源代碼、Json 數據等等,然後從中做相應內容的提取。

以上便是 Response 的組成部分。

7. 結語

本節我們瞭解了 HTTP 的基本原理,通過如上描述,我們應該對訪問網頁背後的請求和響應過程有了大體的認識,本節涉及到的知識點需要好好掌握,在後面分析網頁請求的時候會經常用到。

附三大案例:

Python爬蟲實戰之三抓取淘寶美食

Python爬蟲實戰之一—分析Ajax抓取今日頭條街拍美圖

Python爬蟲實戰之二—正則表達式抓取貓眼電影TOP100

關於爬蟲的HTTP原理,看完這一長篇就夠了!(附三大爬蟲案例)

天善學院Python3網絡爬蟲精華實戰視頻教程,大數據時代必備技能,重磅推薦!

關於爬蟲的HTTP原理,看完這一長篇就夠了!(附三大爬蟲案例)

自己動手,豐衣足食!Python3網絡爬蟲實戰案例

https://edu.hellobi.com/course/157

相關推薦

推薦中...