Python網絡爬蟲數據解析方式總結與比較（供高手討論）

編程語言 Python 網絡爬蟲 HTML 跟著Guoery開心玩挖掘 2017-05-27

1.前言

大數據時代，數據的來源成員眾多公司和研究者的心頭疼，每家公司都說是自己的數據，都不會承認自己建設有網絡爬蟲，而實際上，你懂得。

一般網絡爬蟲爬取數據的過程是：

找到包含我們需要的信息的網址（URL）列表，存入待爬列表；
從待爬列表取出URL，通過 HTTP 協議把頁面內容下載回來；
從頁面的 HTML 中解析出需要的信息，或者找到更多的URL存入待爬列表；
判斷待爬列表是否為空，如果不為空，則回到 2 繼續。

顯然在整個這個過程中，獲取待爬URL列表和數據解析是網絡爬蟲的關鍵。關於如何找到待爬的URL的方式，本人在前面的幾篇文章中已經有詳細的介紹。而關於數據解析則由很多的方式，各個高手眾說紛紜，每人的使用習慣也不全一樣，本人拋磚引玉，對幾種方式做了一個總結，等待各位高手捧場。

（一個小九九：頭條裡面體育、情感、搞笑、明星類的文章閱讀量和評論互動蹭蹭蹭就上去了，而技術類的文章閱讀量則一直非常少，一方面是專業技術類的人本來就少，二來是在體育之類的文章裡每人都很容易做一個無所不能的噴子。因此我想借討論貼的模式，一方面讓大家共聚一堂，分享自己的成果，也吸取別人的經驗，另一方面也順便讓我的帖子沾點光。）

2.問題：需要提取下面圖中的舉報電話

Python網絡爬蟲數據解析方式總結與比較（供高手討論）

3.讓人又愛有恨的正則表達式

簡單的字符串處理，類似於split，substring等等我天天在用，可是你叫我寫一個Email的正則表達式，對不起，我還真的不會，只能找度娘。當然在部分的爬蟲數據解析的過程中，不可避免的要用到正則表達式，基礎的大家還是要會一點。

對於以上問題，如果用正則來做，那麼就可以採用以下Python程序：

Python網絡爬蟲數據解析方式總結與比較（供高手討論）

比如上面這個案例，(.*?)是正則匹配時的一個群，.和*可以匹配任意多個字符，加上?就是最小匹配，也就是非貪婪模式，或者說說就是匹配儘可能短的字符串。

4.Python爬蟲利器Beautiful Soup庫

官方文檔如下介紹：Beautiful Soup 是一個可以從 HTML 或 XML 文件中提取數據的 Python 庫.它能夠通過你喜歡的轉換器實現慣用的文檔導航,查找,修改文檔的方式.BeautifulSoup 不僅支持 HTML 解析器,還支持一些第三方的解析器，如，lxml，XML，html5lib但是需要安裝相應的庫。

4.1使用html.parser解析器

其原理這裡不做解釋，其python程序如下：

Python網絡爬蟲數據解析方式總結與比較（供高手討論）

4.2 使用lxml解析器

具體的python程序示例如下：

Python網絡爬蟲數據解析方式總結與比較（供高手討論）

5.Python網絡爬蟲利器lxml庫

lxml是Python語言裡和XML以及HTML工作的功能最豐富和最容易使用的庫。lxml是為libxml2和libxslt庫的一個Python化的綁定。它與眾不同的地方是它兼顧了這些庫的速度和功能完整性，以及純Python API的簡潔性，大部分與熟知的ElementTree API兼容但比之更優越。

利用lxml庫進行數據解析的時候，根據其對元素定位方法的不同，又可以分為採用xpath和採用cssselect兩種方式。

5.1 lxml中使用Xpath進行數據解析

XPath 是一門在 XML 文檔中查找信息的語言。XPath 可用來在 XML 文檔中對元素和屬性進行遍歷，使用Xpath是一種效率比較高的解析方法.

上面案例的Python程序如下：

Python網絡爬蟲數據解析方式總結與比較（供高手討論）

5.2 lxml中使用cssselect進行數據解析

借用其官網的一段話：

cssselect parses CSS3 Selectors and translate them to XPath 1.0 expressions. Such expressions can be used in lxml or another XPath engine to find the matching elements in an XML or HTML document.

也就是其本質上還是轉換為xpath進行結點定位，但如果你對JQuery特別熟悉的話，那麼使用cssselect也就非常順利了。

Python網絡爬蟲數據解析方式總結與比較（供高手討論）

6.分析比較

以上的幾種方式裡面到底選誰呢？可以從兩方面進行比較，解析耗費的時間和使用難度。

程序運行耗費時間比較：

將以上的代碼各執行10000次，計算運行時間，得到以下圖。

Python網絡爬蟲數據解析方式總結與比較（供高手討論）

可以發現執行最短的是正則表達式方法，而最慢的則是BS中的HTMLParser方法，同時我們也發現LXML中的cssselect方法要比LXML的xpath方法要忙，其實在前面的介紹就已經指出cssselect還是要轉換為xpath的，因此可以想象其肯定要比xpath慢。

使用難度：

在使用難度上，正則表達式毫無意外是最難的，而其他幾個則比較均衡。

結論：

根據以上分析，我們是不是可以得出一個小小的結論：使用Lxml的Xpath進行數據解析是比較合適的呢？比如在Scrapy爬蟲框架中，就是通過特定的 XPath或者 CSS表達式來“選擇” HTML文件中的某個部分。

當然，其實各種方法都有自身的優缺點，在不同的場合可以使用不同的方法。你們使用的情況如何呢？什麼是你的最愛？你遇到什麼坑？歡迎給大家分享一下。

相關推薦

'Python網絡數據採集入門教程'

"在這篇文章中，我們將介紹Python提供的幾乎所有的網絡數據採集工具，你可以將本文看作是我們的《終極網絡數據採集指南》的系列文章。我們將從最基本的工具到最先進的工具進行介紹，並將涵蓋每一個的利弊。當然，我們並不能涵蓋我們討論的每個工具的所有方面，但是這篇文章應該足以讓你瞭...

Python 瀏覽器 Chrome HTML 文章 JavaScript JSON CSS Apache Nginx 操作系統 Reddit OS X 2019-09-19

'Python爬蟲面試總結「值得一看」'

"1. 寫一個郵箱地址的正則表達式？[A-Za-z0-9\\\一-\\\龥]+@[a-zA-Z0-9_-]+(\\.[a-zA-Z0-9_-]+)+$2. 談一談你對 Selenium 和 PhantomJS 瞭解Selenium 是一個Web 的自動化測試工具，可以根據我...

Python 網絡爬蟲 Scrapy 瀏覽器 Redis Chrome JavaScript 數據庫 MySQL 人生第一份工作 Windows WebKit Firefox Windows NT Safari Gecko MongoDB 2019-08-23

'學透這13個Python爬蟲，這天下將沒有你爬不到的數據'

"Python簡直就是萬能的，你用Python都做過哪些事？用網頁看各大網站的VIP視頻，用python下載？用Python玩跳一跳，跳到50000分？過年過節各大親友群、紅包群搶紅包還用Python？（PS: 有正在學習或者想要學習的寶寶、私信小編“學習”即可免費領取學習...

Python 網絡爬蟲程序員 Scrapy 人工智能編程語言技術大數據英語讀書 Redis 2019-08-23

'2019最新Python爬蟲高頻率面試題總結（一）'

"今天給大家出一個關於Python爬蟲面試題的總結，相對於來說出現頻率比較高的一些！1. 為什麼 requests 請求需要帶上 header？原因是：模擬瀏覽器，欺騙服務器，獲取和瀏覽器一致的內容header 的形式：字典headers = {"User-Agent": ...

Python 網絡爬蟲 Chrome 瀏覽器 MySQL Scrapy Redis 數據庫人生第一份工作 JavaScript WebKit Windows Windows NT Safari Gecko Firefox MongoDB 2019-08-18

'剛學完這這13個Python爬蟲，這天下就沒有我爬不下的數據，還有誰'

Python 網絡爬蟲程序員 Scrapy 人工智能技術編程語言大數據設計英語人生第一份工作跳槽那些事兒 Redis 2019-08-18

'學透這13個Python爬蟲，爬取天下的的數據，附教程'

"Python簡直就是萬能的，你用Python都做過哪些事？用網頁看各大網站的VIP視頻，用python下載？用Python玩跳一跳，跳到50000分？過年過節各大親友群、紅包群搶紅包還用Python？（PS: 有正在學習或者想要學習的寶寶、私信小編“888”即可免費領取4...

Python 網絡爬蟲程序員 Scrapy 編程語言人工智能大數據技術英語 HTML 跳槽那些事兒 Redis 2019-08-12

'一小時入門Python爬蟲，連我都會了！Python爬取租房數據實例'

"一、什麼叫爬蟲爬蟲，又名"網絡爬蟲"，就是能夠自動訪問互聯網並將網站內容下載下來的程序。它也是搜索引擎的基礎，像百度和GOOGLE都是憑藉強大的網絡爬蟲，來檢索海量的互聯網信息的然後存儲到雲端，為網友提供優質的搜索服務的。二、爬蟲有什麼用你可能會說，除了做搜索引擎的公司，...

Python 網絡爬蟲數據庫 Links HTML JSON SQL 人生第一份工作租房 PyCharm 搜索引擎 MySQL Google 軟件 XML 百度 2019-08-06

'Python 網絡爬蟲之模擬登陸合集'

"摘要：之前我們爬取的實習僧、糗事百科、網易新聞都是不需要登陸，不需要你去做賬號、Cookies、Session等等，頂多只需要一個 headers （請求頭），但還有一類是需要：你（註冊）賬號登陸才能進行後續的操作。例如：淘寶、知乎、豆瓣之類的需要你登陸的。我們之前又...

Python 網絡爬蟲軟件瀏覽器 Firefox Google 網易知乎豆瓣網網易新聞 2019-08-03

'一文總結數據科學家常用的Python庫（上）'

"概述這篇文章中，我們挑選了24個用於數據科學的Python庫。這些庫有著不同的數據科學功能，例如數據收集，數據清理，數據探索，建模等，接下來我們會分類介紹。您覺得我們還應該包含哪些Python庫？讓我們知道！介紹我是Python語言的忠實粉絲，它是我在數據科學方面學到的第...

Python 數據庫 Scrapy HTML Flask OpenCV 圖像處理 XML 編程語言 Lime 可視化技術文章跳槽那些事兒 2019-07-29

'這樣學習python數據爬蟲分佈式，三兩天輕鬆搞定'

"現行環境下大數據與人工智能的重要依託還是龐大的數據和分析採集，類似於淘寶京東百度騰訊級別的企業能夠通過數據可觀的用戶群體獲取需要的數據。而一般企業可能就沒有這種通過產品獲取數據的能力和條件。利用爬蟲我們可以解決部分數據的問題。1：學習Python基礎知識並實現...

Python 網絡爬蟲數據庫 MongoDB 數據結構 Scrapy 機器學習大數據 Redis 工程師百度騰訊京東商城人生第一份工作 2019-07-18

學透這13個Python爬蟲，網上數據隨便爬，附教程

Python簡直就是萬能的，你用Python都做過哪些事？用網頁看各大網站的VIP視頻，用python下載？用Python玩跳一跳，跳到50000分？過年...

Python 網絡爬蟲程序員 Scrapy 編程語言人工智能技術大數據英語軟件 Redis HTML 跳槽那些事兒 2019-07-15

學透這13個Python爬蟲，這天下將沒有你爬不到的數據，附送教程

Python簡直就是萬能的，你用Python都做過哪些事？用網頁看各大網站的VIP視頻，用python下載？用Python玩跳一跳，跳到50000分？過年...

Python 網絡爬蟲 Scrapy 人工智能程序員編程語言技術大數據英語 2019-07-13

學透這13個Python爬蟲，這天下將沒有你爬不到的數據，就是這麼牛

Python簡直就是萬能的，你用Python都做過哪些事？用網頁看各大網站的VIP視頻，用python下載？用Python玩跳一跳，跳到50000分？過年...

Python 網絡爬蟲程序員 Scrapy 編程語言人工智能技術大數據設計英語人生第一份工作跳槽那些事兒 Redis 2019-07-13

Python! 學透這13個爬蟲，這天下將沒有你爬不到的數據

Python簡直就是萬能的，你用Python都做過哪些事？用網頁看各大網站的VIP視頻，用python下載？用Python玩跳一跳，跳到50000分？過年...

Python 網絡爬蟲程序員編程語言人工智能 Scrapy 技術大數據英語 Redis 2019-07-13

不踩坑的Python爬蟲：如何在一個月內學會爬取大規模數據

Python爬蟲為什麼受歡迎如果你仔細觀察，就不難發現，懂爬蟲、學習爬蟲的人越來越多，一方面，互聯網可以獲取的數據越來越多，另一方面，像 Python這樣...

Python 網絡爬蟲數據庫 Scrapy MongoDB 編程語言知乎新聞瀏覽器 CSS HTML 技術機器學習人生第一份工作雪球網淘寶網拉勾網 2019-07-13

使用python爬蟲抓站的一些技巧總結：進階篇

以前寫過一篇使用python爬蟲抓站的一些技巧總結，總結了諸多爬蟲使用的方法；那篇東東現在看來還是挺有用的，但是當時很菜（現在也菜，但是比那時進步了不少），很多東西都不是很優，屬於”只是能用”這麼個層次。這篇進階篇打算把“能用”提升到“用得省事省心”這個層次。一、gzip/...

Python 網絡爬蟲 VeryCD 2019-07-02

厲害了爬蟲Python批量導入Excel文件中不重複數據到SQLite數據庫

Python批量導入Excel文件中的不重複數據到SQLite數據庫這個軟件資料il也是《Python可以這樣學》最後一章的完整案例，涉及tkinter、...

Excel Python 數據庫網絡爬蟲軟件 Word 2019-06-21

Python網絡爬蟲的三種數據解析方式

一.正解解析常用正則表達式回顧：單字符： . : 除換行以外所有字符 [] ：[aoe] [a-w] 匹配集合中任意一個字符 \d ：數字 [0-9] \...

網絡爬蟲 Python HTML Linux Chrome Windows XML 瀏覽器 Vi 煎蛋網 Google 2019-06-21

爬蟲學習必KO穩抓python字符串資料+字符串常用操作解析

python字符串字符串是 Python 中最常用的數據類型。我們可以使用引號('或")來創建字符串。創建字符串很簡單，只要為變量分配一個值即可。例如：v...

Python 網絡爬蟲 2019-06-17

python爬蟲：常見的登陸方式

常見的登錄方式有以下兩種：查看登錄頁面，csrf,cookie;授權；cookie直接發送post請求,獲取cookie上面只是簡單的描述，下面是詳細的針...

網絡爬蟲 Python GitHub Chrome 瀏覽器 Google 2019-06-13

推薦中...