Python網絡爬蟲的三種數據解析方式

網絡爬蟲 Python HTML Linux Chrome Windows XML 瀏覽器 Vi 煎蛋網 Google 嗨學python 2019-06-21

一.正解解析

常用正則表達式回顧：

單字符：

. : 除換行以外所有字符

[] ：[aoe] [a-w] 匹配集合中任意一個字符

\d ：數字 [0-9]

\D : 非數字

\w ：數字、字母、下劃線、中文

\W : 非\w

\s ：所有的空白字符包,括空格、製表符、換頁符等等。等價於 [ \f\n\r\t\v]。

\S : 非空白

數量修飾：

* : 任意多次 >=0

+ : 至少1次 >=1

? : 可有可無 0次或者1次

{m} ：固定m次 hello{3,}

{m,} ：至少m次

{m,n} ：m-n次

邊界：

$ : 以某某結尾

^ : 以某某開頭

分組：

(ab)

貪婪模式： .*

非貪婪（惰性）模式： .*?

re.I : 忽略大小寫

re.M ：多行匹配

re.S ：單行匹配

re.sub(正則表達式, 替換內容, 字符串)

回顧練習：

項目需求：爬取糗事百科指定頁面的糗圖，並將其保存到指定文件夾中

二.Xpath解析

測試頁面數據

常用xpath表達式回顧

屬性定位：

#找到class屬性值為song的div標籤

//div[@class="song"]

層級&索引定位：

#找到class屬性值為tang的div的直系子標籤ul下的第二個子標籤li下的直系子標籤a

//div[@class="tang"]/ul/li[2]/a

邏輯運算：

#找到href屬性值為空且class屬性值為du的a標籤

//a[@href="" and @class="du"]

模糊匹配：

//div[contains(@class, "ng")]

//div[starts-with(@class, "ta")]

取文本：

# /表示獲取某個標籤下的文本內容

# //表示獲取某個標籤下的文本內容和所有子標籤下的文本內容

//div[@class="song"]/p[1]/text()

//div[@class="tang"]//text()

取屬性：

//div[@class="tang"]//li[2]/a/@href

代碼中使用xpath表達式進行數據解析：

1.下載：pip install lxml

2.導包：from lxml import etree

3.將html文檔或者xml文檔轉換成一個etree對象，然後調用對象中的方法查找指定的節點

2.1 本地文件：tree = etree.parse(文件名)

tree.xpath("xpath表達式")

2.2 網絡數據：tree = etree.HTML(網頁內容字符串)

tree.xpath("xpath表達式")

安裝xpath插件在瀏覽器中對xpath表達式進行驗證：可以在插件中直接執行xpath表達式

將xpath插件拖動到谷歌瀏覽器拓展程序（更多工具）中，安裝成功

啟動和關閉插件 ctrl + shift + x

項目需求：獲取好段子中段子的內容和作者 http://www.haoduanzi.com

下載煎蛋網中的圖片數據：http://jandan.net/ooxx

三.BeautifulSoup解析

環境安裝

- 需要將pip源設置為國內源，阿里源、豆瓣源、網易源等

- windows

（1）打開文件資源管理器(文件夾地址欄中)

（2）地址欄上面輸入 %appdata%

（3）在這裡面新建一個文件夾 pip

（4）在pip文件夾裡面新建一個文件叫做 pip.ini ,內容寫如下即可

[global]

timeout = 6000

index-url = https://mirrors.aliyun.com/pypi/simple/

trusted-host = mirrors.aliyun.com

- linux

（1）cd ~

（2）mkdir ~/.pip

（3）vi ~/.pip/pip.conf

（4）編輯內容，和windows一模一樣

- 需要安裝：pip install bs4

bs4在使用時候需要一個第三方庫，把這個庫也安裝一下

pip install lxml

基礎使用

使用流程：

- 導包：from bs4 import BeautifulSoup

- 使用方式：可以將一個html文檔，轉化為BeautifulSoup對象，然後通過對象的方法或者屬性去查找指定的節點內容

（1）轉化本地文件：

- soup = BeautifulSoup(open('本地文件'), 'lxml')

（2）轉化網絡文件：

- soup = BeautifulSoup('字符串類型或者字節類型', 'lxml')

（3）打印soup對象顯示內容為html文件中的內容

基礎鞏固：

（1）根據標籤名查找

- soup.a 只能找到第一個符合要求的標籤

（2）獲取屬性

- soup.a.attrs 獲取a所有的屬性和屬性值，返回一個字典

- soup.a.attrs['href'] 獲取href屬性

- soup.a['href'] 也可簡寫為這種形式

（3）獲取內容

- soup.a.string

- soup.a.text

- soup.a.get_text()

【注意】如果標籤還有標籤，那麼string獲取到的結果為None，而其它兩個，可以獲取文本內容

（4）find：找到第一個符合要求的標籤

- soup.find('a') 找到第一個符合要求的

- soup.find('a', title="xxx")

- soup.find('a', alt="xxx")

- soup.find('a', class_="xxx")

- soup.find('a', id="xxx")

（5）find_all：找到所有符合要求的標籤

- soup.find_all('a')

- soup.find_all(['a','b']) 找到所有的a和b標籤

- soup.find_all('a', limit=2) 限制前兩個

（6）根據選擇器選擇指定的內容

select:soup.select('#feng')

- 常見的選擇器：標籤選擇器(a)、類選擇器(.)、id選擇器(#)、層級選擇器

- 層級選擇器：

div .dudu #lala .meme .xixi 下面好多級

div > p > a > .lala 只能是下面一級

【注意】select選擇器返回永遠是列表，需要通過下標提取指定的對象

需求：使用bs4實現將詩詞名句網站中三國演義小說的每一章的內容爬去到本地磁盤進行存儲 http://www.shicimingju.com/book/sanguoyanyi.html

相關推薦

'Python網絡數據採集入門教程'

"在這篇文章中，我們將介紹Python提供的幾乎所有的網絡數據採集工具，你可以將本文看作是我們的《終極網絡數據採集指南》的系列文章。我們將從最基本的工具到最先進的工具進行介紹，並將涵蓋每一個的利弊。當然，我們並不能涵蓋我們討論的每個工具的所有方面，但是這篇文章應該足以讓你瞭...

Python 瀏覽器 Chrome HTML 文章 JavaScript JSON CSS Apache Nginx 操作系統 Reddit OS X 2019-09-19

'python爬蟲模擬微博登錄'

"微博模擬登錄這是本次爬取的網址：https://weibo.com/一、請求分析找到登錄的位置，填寫用戶名密碼進行登錄操作看看這次請求響應的數據是什麼這是響應得到的數據，保存下來exectime: 8nonce: "HW9VSX"pcid: "gz-4ede4c6269a...

Python 微博網絡爬蟲百度 2019-09-16

'Python學習乾貨史上最全的 Python 爬蟲工具列表大全'

"這個列表包含與網頁抓取和數據處理的Python庫。網絡通用urllib -網絡庫(stdlib)。requests -網絡庫。grab – 網絡庫（基於pycurl）。pycurl – 網絡庫（綁定libcurl）。urllib3 – Python HTTP庫，安全連接池...

Python 網絡爬蟲 HTML Scrapy XML 瀏覽器 CSS XHTML jQuery C語言 JSON Excel 可視化技術 2019-09-15

'Python批量刪除mysql中千萬級大量數據'

"場景描述線上 mysql 數據庫裡面有張表保存有每天的統計結果，每天有1千多萬條，這是我們意想不到的，統計結果咋有這麼多。運維找過來，磁盤佔了 200G ，最後問了運營，可以只保留最近3天的，前面的數據，只能刪了。刪，怎麼刪？關注，轉發，私信小編“01”即可免費領取Pyt...

Python MySQL 數據庫腳本語言 2019-09-15

'存信數據平臺公信寶被封“爬蟲”為罪魁禍首？'

"9月11日，金色財經獨家現場確認存信數據平臺公信寶被杭州市公安局西湖分局古蕩派出所查封，另有可靠消息稱有公信寶員工失聯。對於公信寶被查，有分析認為，大概率是因為“數據”的事情，而不是因為“區塊鏈和發幣”的事情。公信寶是何公司？公信寶的主體運營公司為杭州存信數據科技有限公司...

網絡爬蟲技術電腦運營商杭州法律區塊鏈跳槽那些事兒刑法大數據上海蜘蛛天津新聞芝麻信用西湖電子商務爬行動物歷史 2019-09-15

'Java和Python，我該選哪個？10年的大牛為你詳細解析兩種崗位前景'

"聲明：這是一篇容易引起撕逼的文章，為了祖國和諧，人民安康，請各位看官儘量理性討論。同時，這篇文章是面向一些初入行的朋友進行一些相對中肯一點的分析和建議而已，雖然有濃厚的個人色彩，但我還是儘量以事實說話，以代碼說話，大牛們就不要拿自己的牛逼經驗來這裡裝逼了，當然，你如果非得...

Java Python 技術編程語言程序員算法設計文章 2019-09-12

'寫python爬蟲，不會正則怎麼行呢？另贈學習資料'

"導讀：正則在各語言中的使用是有差異的，本文以 Python 3 為基礎。本文主要講述的是正則的語法，對於 re 模塊不做過多描述，只會對一些特殊地方做提示。很多人覺得正則很難，在我看來，這些人一定是沒有用心。其實正則很簡單，根據二八原則，我們只需要懂 20% 的內容就可以...

Python 網絡爬蟲 Java 百度 2019-09-12

'用Python處理了數據還要導入Excel做圖表？直接Python做漂亮圖表'

"請關注本號，後續會有更多相關教程。轉發本文並私信我"python"，即可獲得按水平領域分類好的Python資料系列文章"替代Excel Vba"系列（一）：用Python的pandas快速彙總"Python替代Excel Vba"系列（二）：pandas分組統計與操作Ex...

Python Excel 腳本語言可視化技術 2019-09-10

'Python爬蟲入門並不難，進階也很簡單！只需要這13個階段就夠了'

"互聯網的數據爆炸式的增長，而利用 Python 爬蟲我們可以獲取大量有價值的數據：（分享一套完整的爬蟲學習教程，免費獲取方式在文末哦）1.爬取數據，進行市場調研和商業分析爬取知乎優質答案，篩選各話題下最優質的內容；抓取房產網站買賣信息，分析房價變化趨勢、做不同區域的房價...

Python 網絡爬蟲 Scrapy 數據庫瀏覽器知乎新聞豆瓣網 CSS HTML 人生第一份工作推薦技術騰訊機器學習 2019-09-10

'「Python爬蟲」如何爬取翻頁url不變的網站'

"之前打算爬取一個圖片資源網站，但是在翻頁時發現它的url並沒有改變，無法簡單的通過request.get()訪問其他頁面。據搜索資料，瞭解到這些網站是通過ajax動態加載技術實現。即可以在不重新加載整個網頁的情況下，對網頁的某部分進行更新。幫忙轉發，關注，私信小編Pyth...

Python 網絡爬蟲瀏覽器 XML JSON 程序員操作系統 2019-09-09

'人見人愛的最新 Python 爬蟲利器'

"文 | 過了即是客編輯 | EarlGrey推薦 | 編程派公眾號（ID：codingpy）Python上有一個非常著名的HTTP庫——requests，相比大家都聽說過，用過的人都說好！現在requests庫的作者又發佈了一個新庫，叫做requests-html，看名字...

Python HTML 網絡爬蟲 Links CSS TeX 2019-09-09

'頭條抖音後端技術3面題：Linux+RabbitMQ+GC+數據同步+網絡編程等'

"一面：hashmap，怎麼擴容，怎麼處理數據衝突？怎麼高效率的實現數據遷移？Linux的共享內存如何實現，大概說了一下。Linux 中的用戶模式和內核模式是什麼含意?在 Java 中 Lock 接口比 synchronized 塊的優勢是什麼？你需要實現一個高效的緩存，它...

Linux Redis 數據庫技術 MySQL Java 設計模式數據結構人生第一份工作 2019-09-08

'Python3網絡爬蟲中的requests高級用法詳解'

"本節我們再來了解下 Requests 的一些高級用法，如文件上傳，代理設置，Cookies 設置等等。1. 文件上傳我們知道 Reqeuests 可以模擬提交一些數據，假如有的網站需要我們上傳文件，我們同樣可以利用它來上傳，實現非常簡單，實例如下：import reque...

Python 網絡爬蟲 JSON 腳本語言 Origin 知乎 2019-09-07

'Python模塊的定義、導入、優化操作，圖文詳細解析，附教程詳解'

"這篇文章主要介紹了Python3.7模塊的定義、導入、優化操作,結合圖文與實例形式詳細分析了Python3.7模塊的定義、導入及優化等相關操作技巧與注意事項.小編文末整理了python的學習教程，深度講解每一個python的基礎知識。希望對你有所幫助1、模塊體系大綱：1....

Python 2019-09-06

'NLP入門第一步：6種獨特的數據標記方式'

"全文共10818字，預計學習時長21分鐘你是否對互聯網上大量可用的文本數據量著迷？你是否正在尋找使用該文本數據的方法，但不知道從何下手？畢竟，機器只能識別數字，而不是人類語言中的字母。在機器學習中，這是亟待解決的棘手問題。那麼如何操縱和清理這些文本數據來構建模型呢？答案就...

Python 自然語言處理 Falcon 機器學習 NLTK 英語讀書 SpaceX 2019-09-06

'各大網站中的爬蟲Python是怎樣出來的——基礎'

"一、需求:抓取主頁面：百度百科Python詞條 https://baike.baidu.com/item/Python/407313分析上面的源碼格式，便於提取：關鍵詞分析:位於class為lemmaWgt-lemmaTitle-title的dd元素的第一個h1標籤內...

Python 網絡爬蟲 HTML 瀏覽器 PyCharm Mozilla XML 百度百科 2019-09-06

'數據科學家最喜歡的5個自然語言處理Python庫'

"開源最前線（ID：OpenSourceTop）猿妹編譯鏈接：https://www.oschina.net/news/109235/twitter-opensources-rezolus互聯網上大約有70%以上的數據不是結構化格式的。非結構化數據包括傳感器數據、圖像、視頻...

Python Java 自然語言處理 Google 機器學習維基百科算法信息檢索數據挖掘人工智能 Twitter 大數據技術微軟 Android 2019-09-06

'Python爬蟲：bilibili彈幕爬取與比對分析'

"最近受人之託研究了下b站的數據爬取做個小工具，最後朋友說不需要了，本著開源共享的原則，將研究成果與大家分享一波，話不多說直接上乾貨需求分析給定up主uid和用戶uid，爬取用戶在該up主所有視頻中發的所有彈幕 #pgc-card .pgc-card-href { ...

Bilibili Python 網絡爬蟲 XML 數據庫算法 Google 瀏覽器 JSON 百度鏡音雙子 2019-09-05

'自學爬蟲分佈式，我需要掌握哪些Python基礎？附贈視頻資料'

"接觸爬蟲已經有一段時間了，常常有人問我：我會點Python，想自學爬蟲，你看用什麼方法好呢？我：我喜歡邊做項目邊學習，爬取過程中遇到問題再百度，擴展xx：我看了網上教材，過程很簡略，最後給了一個編碼，有的我實例一下好像還不成功我：代碼也會“過期”，尤其是爬蟲，需要自己修改...

Python 網絡爬蟲騰訊QQ 2019-09-01

'進軍數據人，這些你都掌握了嗎？SQL，Excel、python、大數據等'

"最近經常遇到有朋友問下面這類問題，結合最近的一些思考，本篇聊一下，數據人該具備哪些通用的技能。“數據開發到底用不用學算法？”“Excel 有必要學嗎？”“數據產品經理需要了解技術嗎？”技能分為兩部分：工具和知識。工具包括Excel、Sql 和 Python，知識包括大數據...

Excel Python SQL 大數據技術人工智能人生第一份工作設計數據挖掘 2019-08-30

推薦中...