'人見人愛的最新 Python 爬蟲利器'

Python HTML 網絡爬蟲 Links CSS TeX 編程派 2019-09-09

文 | 過了即是客

編輯 | EarlGrey

推薦 | 編程派公眾號（ID：codingpy）

Python上有一個非常著名的HTTP庫——requests，相比大家都聽說過，用過的人都說好！現在requests庫的作者又發佈了一個新庫，叫做requests-html，看名字也能猜出來，這是一個解析HTML的庫，而且用起來和requests一樣爽，下面就來介紹一下它。

安裝

安裝requests-html非常簡單，一行命令即可做到。需要注意一點就是，requests-html只支持Python 3.6及更新的版本，所以使用老版本的Python的同學需要更新一下Python版本了。看了下源代碼，因為requests-html廣泛使用了一個Python 3.6中的新特性——類型註解。

pip install requests-html

基本使用

獲取網頁

requests-html和其他解析HTML庫最大的不同點在於HTML解析庫一般都是專用的，所以我們需要用另一個HTTP庫先把網頁下載下來，然後傳給那些HTML解析庫。而requests-html自帶了這個功能，所以在爬取網頁等方面非常方便。

下面的代碼獲取了糗事百科上面的文字段子頁面，返回的對象r是 requests.Reponse類型，更確切的說是繼承自前者的requests_html.HTMLResponse類型。這裡其實和requests庫的使用方法差不多，獲取到的響應對象其實其實也沒啥用，這裡的關鍵就在於r.html這個屬性，它會返回requests_html.HTML這個類型，它是整個requests_html庫中最核心的一個類，負責對HTML進行解析。我們學習requests_html這個庫，其實也就是學習這個HTML類的使用方法。

from requests_html import HTMLSession

session = HTMLSession
r = session.get('https://www.qiushibaike.com/text/')
// 查看頁面內容
print(r.html.html)

獲取鏈接

links和absolute_links兩個屬性分別返回HTML對象所包含的所有鏈接和絕對鏈接（均不包含錨點）。

# 獲取鏈接
print(r.html.links)
print(r.html.absolute_links)

結果為下（因為結果太長，所以我隨便取了一點，看個意思就行）：

{'/article/104353012', '/article/120616112', '/users/32331196/'}
{'https://www.qiushibaike.com/imgrank/', 'https://www.qiushibaike.com/article/120669516', 'https://www.qiushibaike.com/article/120682041'}

獲取元素

request-html支持CSS選擇器和XPATH兩種語法來選取HTML元素。首先先來看看CSS選擇器語法，它需要使用HTML的find函數，該函數有5個參數，作用如下：

selector，要用的CSS選擇器；
clean，布爾值，如果為真會忽略HTML中style和script標籤造成的影響（原文是sanitize，大概這麼理解）;
containing，如果設置該屬性，會返回包含該屬性文本的標籤；
first，布爾值，如果為真會返回第一個元素，否則會返回滿足條件的元素列表；
_encoding，編碼格式。

下面是幾個簡單例子：

# 首頁菜單文本
print(r.html.find('div#menu', first=True).text)
# 首頁菜單元素
print(r.html.find('div#menu a'))
# 段子內容
print(list(map(lambda x: x.text, r.html.find('div.content span'))))

結果如下，因為段子太多，所以隨便選了兩個：

熱門 24小時 熱圖 文字 穿越 糗圖 新鮮
[<Element 'a' href='/' rel=('nofollow',)>, <Element 'a' href='/hot/'>, <Element 'a' href='/imgrank/'>, <Element 'a' id='highlight' href='/text/'>, <Element 'a' href='/history/'>, <Element 'a' href='/pic/'>, <Element 'a' href='/textnew/'>]
['有一次，幾位大城市的朋友來家裡玩，我招待他們吃風乾羊肉做臊子的餄餎面，這是我們老家最具特色的美食！飯快熟的時候，老婆讓我在園子裡摘點“芫荽 ”，朋友問我，“芫荽”是什麼東東？我給他們翻譯解釋說：我們本地土話叫“芫荽”，你們城裡人講普通話叫香菜，他們還大笑了一場。\\n前天下雨沒事兒幹，翻看新華字典，突然發現“芫荽”才是香菜的學名，Tm香菜才是土話！而且我們地方方言就這兩個字發音還特別標準！', '昨天晚上跟老婆吵架，他抓起我的手機就摔了。我立馬摔了他的，結果我的還能用，他的壞了。高潮是人家立刻出門買了個新的！我艹，是不是中計了？？', '小姨要去高鐵站，我看著大大小小的箱子說：坐公交車要轉車，轉來轉去要一個多小時，太不方便了，不如我開車送你吧。\\n小姨遲疑了一下，同意了。\\n我準時把小姨送到了高鐵站，正好趕上檢票。\\n小姨高興地說：自己開車就是方便，不過幸好你媽聰明，讓我們提前兩個多小時就出發了！'

然後是XPATH語法，這需要另一個函數xpath的支持，它有4個參數如下：

selector，要用的XPATH選擇器；
clean，布爾值，如果為真會忽略HTML中style和script標籤造成的影響（原文是sanitize，大概這麼理解）;
first，布爾值，如果為真會返回第一個元素，否則會返回滿足條件的元素列表；
_encoding，編碼格式。

還是上面的例子，不過這次使用XPATH語法：

print(r.html.xpath("//div[@id='menu']", first=True).text)
print(r.html.xpath("//div[@id='menu']/a"))
print(r.html.xpath("//div[@class='content']/span/text"))

輸出和上面那個幾乎一樣，之所以說是“幾乎”，因為第三個輸出會多出幾個換行符，不知道什麼原因。需要注意的一點是如果XPATH中包含 text或@href這樣的子屬性，那麼結果相應的會變成簡單的字符串類型，而不是HTML元素。

['\\n\\n\\n我一份文件忘家裡了，又懶得回家取，就給小姨子發短信息: 幫我把文件送來，晚上我謝謝你。等半天也沒送來文件，我只好打個車回家自己拿，到家一進屋，我就發現氣氛不對勁，老婆鐵青著臉，兩手掐著腰，小姨子站旁邊對我怒目而視。']

元素內容

糗事百科首頁LOGO的HTML代碼如下所示：

<div class="logo" id="hd_logo">
<a href="/"><h1>糗事百科</h1></a>
</div>

我們來選取這個元素：

e = r.html.find("div#hd_logo", first=True)

要獲取元素的文本內容，用text屬性：

print(e.text)
# 糗事百科

要獲取元素的attribute，用attr屬性：

print(e.attrs)
# {'class': ('logo',), 'id': 'hd_logo'}

要獲取元素的HTML代碼，用html屬性：

print(e.html)
# <div class="logo" id="hd_logo">
# <a href="/"><h1>糗事百科</h1></a>
# </div>

要搜索元素的文本內容，用search函數，比如說我們現在想知道是糗事什麼科：

print(e.search("糗事{}科")[0])
# 百

最後還有前面提到的兩個鏈接屬性：

print(e.absolute_links)
print(e.links)
# {'https://www.qiushibaike.com/'}
# {'/'}

進階用法

這一部分我懶得找例子了，所以用官網上的例子。

JavaScript支持

有些網站是使用JavaScript渲染的，這樣的網站爬取到的結果只有一堆JS代碼，這樣的網站requests-html也可以處理，關鍵一步就是在HTML結果上調用一下render函數，它會在用戶目錄（默認是 ~/.pyppeteer/）中下載一個chromium，然後用它來執行JS代碼。下載過程只在第一次執行，以後就可以直接使用chromium來執行了。唯一缺點就是chromium下載實在太太太太太太慢了，沒有科學上網的同學可能無法使用該功能了。

>>> r = session.get('http://python-requests.org/')

>>> r.html.render
[W:pyppeteer.chromium_downloader] start chromium download.
Download may take a few minutes.
[W:pyppeteer.chromium_downloader] chromium download done.
[W:pyppeteer.chromium_downloader] chromium extracted to: C:\\Users\\\\xxxx\\.pyppeteer\\local-chromium\\571375
>>> r.html.search('Python 2 will retire in only {months} months!')['months']
'<time>25</time>'

render函數還有一些參數，順便介紹一下（這些參數有的還有默認值，直接看源代碼方法參數列表即可）：

retries: 加載頁面失敗的次數
script: 頁面上需要執行的JS腳本（可選）
wait: 加載頁面錢的等待時間（秒），防止超時（可選）
scrolldown: 頁面向下滾動的次數
sleep: 在頁面初次渲染之後的等待時間
reload: 如果為假，那麼頁面不會從瀏覽器中加載，而是從內存中加載
keep_page: 如果為真，允許你用 r.html.page訪問頁面

比如說簡書的用戶頁面上用戶的文章列表就是一個異步加載的例子，初始只顯示最近幾篇文章，如果想爬取所有文章，就需要使用scrolldown配合sleep參數模擬下滑頁面，促使JS代碼加載所有文章。

智能分頁

有些網站會分頁顯示內容，例如reddit。

>>> r = session.get('https://reddit.com')
>>> for html in r.html:
... print(html)
<HTML url='https://www.reddit.com/'>
<HTML url='https://www.reddit.com/?count=25&after=t3_81puu5'>
<HTML url='https://www.reddit.com/?count=50&after=t3_81nevg'>
<HTML url='https://www.reddit.com/?count=75&after=t3_81lqtp'>
<HTML url='https://www.reddit.com/?count=100&after=t3_81k1c8'>
<HTML url='https://www.reddit.com/?count=125&after=t3_81p438'>
<HTML url='https://www.reddit.com/?count=150&after=t3_81nrcd'>
…

這樣的話，請求下一個網頁就很容易了。

>>> r = session.get('https://reddit.com')
>>> r.html.next
'https://www.reddit.com/?count=25&after=t3_81pm82'

直接使用HTML

前面介紹的都是通過網絡請求HTML內容，其實requests-html當然可以直接使用，只需要直接構造HTML對象即可：

>>> from requests_html import HTML
>>> doc = """<a href='https://httpbin.org'>"""

>>> html = HTML(html=doc)
>>> html.links
{'https://httpbin.org'}

直接渲染JS代碼也可以：

# 和上面一段代碼接起來
>>> script = """
 => {
return {
width: document.documentElement.clientWidth,
height: document.documentElement.clientHeight,
deviceScaleFactor: window.devicePixelRatio,
}
}
"""
>>> val = html.render(script=script, reload=False)

>>> print(val)
{'width': 800, 'height': 600, 'deviceScaleFactor': 1}

>>> print(html.html)
<html><head></head><body><a href="https://httpbin.org"></a></body></html>

自定義請求

前面都是簡單的用GET方法獲取請求，如果需要登錄等比較複雜的過程，就不能用get方法了。HTMLSession類包含了豐富的方法，可以幫助我們完成需求。下面介紹一下這些方法。

自定義用戶代理

有些網站會使用UA來識別客戶端類型，有時候需要偽造UA來實現某些操作。如果查看文檔的話會發現 HTMLSession上的很多請求方法都有一個額外的參數**kwargs，這個參數用來向底層的請求傳遞額外參數。我們先向網站發送一個請求，看看返回的網站信息。

from pprint import pprint
r = session.get('http://httpbin.org/get')
pprint(json.loads(r.html.html))

返回的結果如下：

{'args': {},
'headers': {'Accept': '*/*',
'Accept-Encoding': 'gzip, deflate',
'Connection': 'close',
'Host': 'httpbin.org',
'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_6) '
'AppleWebKit/603.3.8 (KHTML, like Gecko) '
'Version/10.1.2 Safari/603.3.8'},
'origin': '110.18.237.233',
'url': 'http://httpbin.org/get'}

可以看到UA是requests-html自帶的UA，下面換一個UA：

ua = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:62.0) Gecko/20100101 Firefox/62.0'
r = session.get('http://httpbin.org/get', headers={'user-agent': ua})
pprint(json.loads(r.html.html))

可以看到UA確實發生了變化：

{'args': {},
'headers': {'Accept': '*/*',
'Accept-Encoding': 'gzip, deflate',
'Connection': 'close',
'Host': 'httpbin.org',
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:62.0) '
'Gecko/20100101 Firefox/62.0'},
'origin': '110.18.237.233',
'url': 'http://httpbin.org/get'}

當然這裡僅僅是換了一個UA，如果你有需要可以在header中修改其他參數。

模擬表單登錄

HTMLSession帶了一整套的HTTP方法，包括get、post、delete等，對應HTTP中各個方法。比如下面我們就來模擬一下表單登錄：

# 表單登錄
r = session.post('http://httpbin.org/post', data={'username': 'yitian', 'passwd': 123456})
pprint(json.loads(r.html.html))

結果如下，可以看到forms中確實收到了提交的表單值：

{'args': {},
'data': '',
'files': {},
'form': {'passwd': '123456', 'username': 'yitian'},
'headers': {'Accept': '*/*',
'Accept-Encoding': 'gzip, deflate',
'Connection': 'close',
'Content-Length': '29',
'Content-Type': 'application/x-www-form-urlencoded',
'Host': 'httpbin.org',
'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_6) '
'AppleWebKit/603.3.8 (KHTML, like Gecko) '
'Version/10.1.2 Safari/603.3.8'},
'json': None,
'origin': '110.18.237.233',
'url': 'http://httpbin.org/post'}

如果有上傳文件的需要，做法也是類似的。如果瞭解過requests庫的同學可能對這裡的做法比較熟悉，沒有錯，這其實就是requests的用法。requests-html通過暴露 **kwargs的方法，讓我們可以對請求進行定製，將額外參數直接傳遞給底層的requests方法。所以如果有什麼疑問的話，直接去看requests文檔就好了。

爬蟲例子

文章寫完了感覺有點空洞，所以補充了幾個小例子。不得不說requests-html用起來還是挺爽的，一些小爬蟲例子用scrapy感覺有點大材小用，用requests和BeautifulSoup又感覺有點囉嗦，requests-html的出現正好彌補了這個空白。大家學習一下這個庫，好處還是很多的。

爬取簡書用戶文章

簡書用戶頁面的文章列表就是一個典型的異步加載例子，用requests-html的話可以輕鬆搞定，如下所示，僅僅5行代碼。

r = session.get('https://www.jianshu.com/u/7753478e1554')
r.html.render(scrolldown=50, sleep=.2)
titles = r.html.find('a.title')
for i, title in enumerate(titles):
print(f'{i+1} [{title.text}](https://www.jianshu.com{title.attrs["href"]})')

當然這個例子還有所不足，就是通用性稍差，因為文章列表沒有分頁機制，需要一直往下拉頁面，考慮到不同的用戶文章數不同，需要先獲取用戶總文章數，然後在計算一下應該下滑頁面多少次，這樣才能取得較好的效果。這裡僅僅簡單獲取一些我自己的文章，就不往復雜寫了。

爬取天涯論壇

以前經常在天涯論壇上追一些帖子，現在正好寫一個爬蟲，把連載的好帖子一次性爬下來弄成一個文件。

# 爬取天涯論壇帖子
url = 'http://bbs.tianya.cn/post-culture-488321-1.shtml'
r = session.get(url)
# 樓主名字
author = r.html.find('div.atl-info span a', first=True).text
# 總頁數
div = r.html.find('div.atl-pages', first=True)
links = div.find('a')
total_page = 1 if links ==  else int(links[-2].text)
# 標題
title = r.html.find('span.s_title span', first=True).text

with io.open(f'{title}.txt', 'x', encoding='utf-8') as f:
for i in range(1, total_page + 1):
s = url.rfind('-')
r = session.get(url[:s + 1] + str(i) + '.shtml')
# 從剩下的裡面找樓主的帖子
items = r.html.find(f'div.atl-item[_host={author}]')
for item in items:
content: str = item.find('div.bbs-content', first=True).text
# 去掉回覆
if not content.startswith('@'):
f.write(content + "\\n")

爬完之後，看了一下，700多k的文件，效果不錯。

原文：https://blog.csdn.net/u011054333/article/details/81055423

回覆下方「關鍵詞」，獲取優質資源

回覆關鍵詞「 pybook03」，立即獲取主頁君與小夥伴一起翻譯的《Think Python 2e》電子版

回覆關鍵詞「pybooks02」，立即獲取 O'Reilly 出版社推出的免費 Python 相關電子書合集

回覆關鍵詞「書單02」，立即獲取主頁君整理的 10 本 Python 入門書的電子版

文 | 過了即是客

編輯 | EarlGrey

推薦 | 編程派公眾號（ID：codingpy）

安裝

pip install requests-html

基本使用

獲取網頁

from requests_html import HTMLSession

session = HTMLSession
r = session.get('https://www.qiushibaike.com/text/')
// 查看頁面內容
print(r.html.html)

獲取鏈接

links和absolute_links兩個屬性分別返回HTML對象所包含的所有鏈接和絕對鏈接（均不包含錨點）。

# 獲取鏈接
print(r.html.links)
print(r.html.absolute_links)

結果為下（因為結果太長，所以我隨便取了一點，看個意思就行）：

{'/article/104353012', '/article/120616112', '/users/32331196/'}
{'https://www.qiushibaike.com/imgrank/', 'https://www.qiushibaike.com/article/120669516', 'https://www.qiushibaike.com/article/120682041'}

獲取元素

request-html支持CSS選擇器和XPATH兩種語法來選取HTML元素。首先先來看看CSS選擇器語法，它需要使用HTML的find函數，該函數有5個參數，作用如下：

selector，要用的CSS選擇器；
clean，布爾值，如果為真會忽略HTML中style和script標籤造成的影響（原文是sanitize，大概這麼理解）;
containing，如果設置該屬性，會返回包含該屬性文本的標籤；
first，布爾值，如果為真會返回第一個元素，否則會返回滿足條件的元素列表；
_encoding，編碼格式。

下面是幾個簡單例子：

# 首頁菜單文本
print(r.html.find('div#menu', first=True).text)
# 首頁菜單元素
print(r.html.find('div#menu a'))
# 段子內容
print(list(map(lambda x: x.text, r.html.find('div.content span'))))

結果如下，因為段子太多，所以隨便選了兩個：

熱門 24小時 熱圖 文字 穿越 糗圖 新鮮
[<Element 'a' href='/' rel=('nofollow',)>, <Element 'a' href='/hot/'>, <Element 'a' href='/imgrank/'>, <Element 'a' id='highlight' href='/text/'>, <Element 'a' href='/history/'>, <Element 'a' href='/pic/'>, <Element 'a' href='/textnew/'>]
['有一次，幾位大城市的朋友來家裡玩，我招待他們吃風乾羊肉做臊子的餄餎面，這是我們老家最具特色的美食！飯快熟的時候，老婆讓我在園子裡摘點“芫荽 ”，朋友問我，“芫荽”是什麼東東？我給他們翻譯解釋說：我們本地土話叫“芫荽”，你們城裡人講普通話叫香菜，他們還大笑了一場。\\n前天下雨沒事兒幹，翻看新華字典，突然發現“芫荽”才是香菜的學名，Tm香菜才是土話！而且我們地方方言就這兩個字發音還特別標準！', '昨天晚上跟老婆吵架，他抓起我的手機就摔了。我立馬摔了他的，結果我的還能用，他的壞了。高潮是人家立刻出門買了個新的！我艹，是不是中計了？？', '小姨要去高鐵站，我看著大大小小的箱子說：坐公交車要轉車，轉來轉去要一個多小時，太不方便了，不如我開車送你吧。\\n小姨遲疑了一下，同意了。\\n我準時把小姨送到了高鐵站，正好趕上檢票。\\n小姨高興地說：自己開車就是方便，不過幸好你媽聰明，讓我們提前兩個多小時就出發了！'

然後是XPATH語法，這需要另一個函數xpath的支持，它有4個參數如下：

selector，要用的XPATH選擇器；
clean，布爾值，如果為真會忽略HTML中style和script標籤造成的影響（原文是sanitize，大概這麼理解）;
first，布爾值，如果為真會返回第一個元素，否則會返回滿足條件的元素列表；
_encoding，編碼格式。

還是上面的例子，不過這次使用XPATH語法：

print(r.html.xpath("//div[@id='menu']", first=True).text)
print(r.html.xpath("//div[@id='menu']/a"))
print(r.html.xpath("//div[@class='content']/span/text"))

['\\n\\n\\n我一份文件忘家裡了，又懶得回家取，就給小姨子發短信息: 幫我把文件送來，晚上我謝謝你。等半天也沒送來文件，我只好打個車回家自己拿，到家一進屋，我就發現氣氛不對勁，老婆鐵青著臉，兩手掐著腰，小姨子站旁邊對我怒目而視。']

元素內容

糗事百科首頁LOGO的HTML代碼如下所示：

<div class="logo" id="hd_logo">
<a href="/"><h1>糗事百科</h1></a>
</div>

我們來選取這個元素：

e = r.html.find("div#hd_logo", first=True)

要獲取元素的文本內容，用text屬性：

print(e.text)
# 糗事百科

要獲取元素的attribute，用attr屬性：

print(e.attrs)
# {'class': ('logo',), 'id': 'hd_logo'}

要獲取元素的HTML代碼，用html屬性：

print(e.html)
# <div class="logo" id="hd_logo">
# <a href="/"><h1>糗事百科</h1></a>
# </div>

要搜索元素的文本內容，用search函數，比如說我們現在想知道是糗事什麼科：

print(e.search("糗事{}科")[0])
# 百

最後還有前面提到的兩個鏈接屬性：

print(e.absolute_links)
print(e.links)
# {'https://www.qiushibaike.com/'}
# {'/'}

進階用法

這一部分我懶得找例子了，所以用官網上的例子。

JavaScript支持

>>> r = session.get('http://python-requests.org/')

>>> r.html.render
[W:pyppeteer.chromium_downloader] start chromium download.
Download may take a few minutes.
[W:pyppeteer.chromium_downloader] chromium download done.
[W:pyppeteer.chromium_downloader] chromium extracted to: C:\\Users\\\\xxxx\\.pyppeteer\\local-chromium\\571375
>>> r.html.search('Python 2 will retire in only {months} months!')['months']
'<time>25</time>'

render函數還有一些參數，順便介紹一下（這些參數有的還有默認值，直接看源代碼方法參數列表即可）：

retries: 加載頁面失敗的次數
script: 頁面上需要執行的JS腳本（可選）
wait: 加載頁面錢的等待時間（秒），防止超時（可選）
scrolldown: 頁面向下滾動的次數
sleep: 在頁面初次渲染之後的等待時間
reload: 如果為假，那麼頁面不會從瀏覽器中加載，而是從內存中加載
keep_page: 如果為真，允許你用 r.html.page訪問頁面

智能分頁

有些網站會分頁顯示內容，例如reddit。

>>> r = session.get('https://reddit.com')
>>> for html in r.html:
... print(html)
<HTML url='https://www.reddit.com/'>
<HTML url='https://www.reddit.com/?count=25&after=t3_81puu5'>
<HTML url='https://www.reddit.com/?count=50&after=t3_81nevg'>
<HTML url='https://www.reddit.com/?count=75&after=t3_81lqtp'>
<HTML url='https://www.reddit.com/?count=100&after=t3_81k1c8'>
<HTML url='https://www.reddit.com/?count=125&after=t3_81p438'>
<HTML url='https://www.reddit.com/?count=150&after=t3_81nrcd'>
…

這樣的話，請求下一個網頁就很容易了。

>>> r = session.get('https://reddit.com')
>>> r.html.next
'https://www.reddit.com/?count=25&after=t3_81pm82'

直接使用HTML

前面介紹的都是通過網絡請求HTML內容，其實requests-html當然可以直接使用，只需要直接構造HTML對象即可：

>>> from requests_html import HTML
>>> doc = """<a href='https://httpbin.org'>"""

>>> html = HTML(html=doc)
>>> html.links
{'https://httpbin.org'}

直接渲染JS代碼也可以：

# 和上面一段代碼接起來
>>> script = """
 => {
return {
width: document.documentElement.clientWidth,
height: document.documentElement.clientHeight,
deviceScaleFactor: window.devicePixelRatio,
}
}
"""
>>> val = html.render(script=script, reload=False)

>>> print(val)
{'width': 800, 'height': 600, 'deviceScaleFactor': 1}

>>> print(html.html)
<html><head></head><body><a href="https://httpbin.org"></a></body></html>

自定義請求

自定義用戶代理

from pprint import pprint
r = session.get('http://httpbin.org/get')
pprint(json.loads(r.html.html))

返回的結果如下：

{'args': {},
'headers': {'Accept': '*/*',
'Accept-Encoding': 'gzip, deflate',
'Connection': 'close',
'Host': 'httpbin.org',
'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_6) '
'AppleWebKit/603.3.8 (KHTML, like Gecko) '
'Version/10.1.2 Safari/603.3.8'},
'origin': '110.18.237.233',
'url': 'http://httpbin.org/get'}

可以看到UA是requests-html自帶的UA，下面換一個UA：

ua = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:62.0) Gecko/20100101 Firefox/62.0'
r = session.get('http://httpbin.org/get', headers={'user-agent': ua})
pprint(json.loads(r.html.html))

可以看到UA確實發生了變化：

{'args': {},
'headers': {'Accept': '*/*',
'Accept-Encoding': 'gzip, deflate',
'Connection': 'close',
'Host': 'httpbin.org',
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:62.0) '
'Gecko/20100101 Firefox/62.0'},
'origin': '110.18.237.233',
'url': 'http://httpbin.org/get'}

當然這裡僅僅是換了一個UA，如果你有需要可以在header中修改其他參數。

模擬表單登錄

HTMLSession帶了一整套的HTTP方法，包括get、post、delete等，對應HTTP中各個方法。比如下面我們就來模擬一下表單登錄：

# 表單登錄
r = session.post('http://httpbin.org/post', data={'username': 'yitian', 'passwd': 123456})
pprint(json.loads(r.html.html))

結果如下，可以看到forms中確實收到了提交的表單值：

{'args': {},
'data': '',
'files': {},
'form': {'passwd': '123456', 'username': 'yitian'},
'headers': {'Accept': '*/*',
'Accept-Encoding': 'gzip, deflate',
'Connection': 'close',
'Content-Length': '29',
'Content-Type': 'application/x-www-form-urlencoded',
'Host': 'httpbin.org',
'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_6) '
'AppleWebKit/603.3.8 (KHTML, like Gecko) '
'Version/10.1.2 Safari/603.3.8'},
'json': None,
'origin': '110.18.237.233',
'url': 'http://httpbin.org/post'}

爬蟲例子

爬取簡書用戶文章

簡書用戶頁面的文章列表就是一個典型的異步加載例子，用requests-html的話可以輕鬆搞定，如下所示，僅僅5行代碼。

r = session.get('https://www.jianshu.com/u/7753478e1554')
r.html.render(scrolldown=50, sleep=.2)
titles = r.html.find('a.title')
for i, title in enumerate(titles):
print(f'{i+1} [{title.text}](https://www.jianshu.com{title.attrs["href"]})')

爬取天涯論壇

以前經常在天涯論壇上追一些帖子，現在正好寫一個爬蟲，把連載的好帖子一次性爬下來弄成一個文件。

# 爬取天涯論壇帖子
url = 'http://bbs.tianya.cn/post-culture-488321-1.shtml'
r = session.get(url)
# 樓主名字
author = r.html.find('div.atl-info span a', first=True).text
# 總頁數
div = r.html.find('div.atl-pages', first=True)
links = div.find('a')
total_page = 1 if links ==  else int(links[-2].text)
# 標題
title = r.html.find('span.s_title span', first=True).text

with io.open(f'{title}.txt', 'x', encoding='utf-8') as f:
for i in range(1, total_page + 1):
s = url.rfind('-')
r = session.get(url[:s + 1] + str(i) + '.shtml')
# 從剩下的裡面找樓主的帖子
items = r.html.find(f'div.atl-item[_host={author}]')
for item in items:
content: str = item.find('div.bbs-content', first=True).text
# 去掉回覆
if not content.startswith('@'):
f.write(content + "\\n")

爬完之後，看了一下，700多k的文件，效果不錯。

原文：https://blog.csdn.net/u011054333/article/details/81055423

回覆下方「關鍵詞」，獲取優質資源

回覆關鍵詞「 pybook03」，立即獲取主頁君與小夥伴一起翻譯的《Think Python 2e》電子版

回覆關鍵詞「pybooks02」，立即獲取 O'Reilly 出版社推出的免費 Python 相關電子書合集

回覆關鍵詞「書單02」，立即獲取主頁君整理的 10 本 Python 入門書的電子版

題圖：pexels，CC0 授權。

'人見人愛的最新 Python 爬蟲利器'

安裝

基本使用

獲取網頁

獲取鏈接

獲取元素

元素內容

進階用法

JavaScript支持

智能分頁

直接使用HTML

自定義請求

自定義用戶代理

模擬表單登錄

爬蟲例子

爬取簡書用戶文章

爬取天涯論壇

安裝

基本使用

獲取網頁

獲取鏈接

獲取元素

元素內容

進階用法

JavaScript支持

智能分頁

直接使用HTML

自定義請求

自定義用戶代理

模擬表單登錄

爬蟲例子

爬取簡書用戶文章

爬取天涯論壇

相關推薦