從此再也不怕爬蟲“亂碼”問題！

網絡爬蟲電腦硬件 CSDN 2019-04-06

作者 | 丁彥軍
責編 | 仲培藝

近日，有位粉絲向我請教，在爬取某網站時，網頁的源代碼出現了中文亂碼問題，本文就將與大家一起總結下關於網絡爬蟲的亂碼處理。注意，這裡不僅是中文亂碼，還包括一些如日文、韓文、俄文、藏文之類的亂碼處理，因為他們的解決方式是一致的，故在此統一說明。

亂碼問題的出現

就以爬取 51job 網站舉例，講講為何會出現“亂碼”問題，如何解決它以及其背後的機制。

代碼示例：

import requests
url = "http://search.51job.com"
res = requests.get(url)
print(res.text)

顯示結果：

打印 res.text 時，發現了什麼？中文亂碼！！！不過發現，網頁的字符集類型採用的是 GBK 編碼格式。

我們知道 Requests 會基於 HTTP 頭部對響應的編碼作出有根據的推測。當你訪問 r.text 之時，Requests 會使用其推測的文本編碼。你可以找出 Requests 使用了什麼編碼，並且能夠使用 r.encoding 屬性來改變它。

接下來，我們一起通過 Resquests 的一些用法，來看看 Requests 會基於 HTTP 頭部對響應的編碼方式。

print(res.encoding) #查看網頁返回的字符集類型
print(res.apparent_encoding) #自動判斷字符集類型

輸出結果為：

可以發現 Requests 推測的文本編碼（也就是網頁返回即爬取下來後的編碼轉換）與源網頁編碼不一致，由此可知其正是導致亂碼原因。

亂碼背後的奧祕

當源網頁編碼和爬取下來後的編碼轉換不一致時，如源網頁為 GBK 編碼的字節流，而我們抓取下後程序直接使用 UTF-8 進行編碼並輸出到存儲文件中，這必然會引起亂碼，即當源網頁編碼和抓取下來後程序直接使用處理編碼一致時，則不會出現亂碼，此時再進行統一的字符編碼也就不會出現亂碼了。最終爬取的所有網頁無論何種編碼格式，都轉化為 UTF-8 格式進行存儲。

注意：區分源網編碼 A-GBK、程序直接使用的編碼 B-ISO-8859-1、統一轉換字符的編碼 C-UTF-8。

在此，我們拓展講講 Unicode、ISO-8859-1、GBK2312、GBK、UTF-8 等之間的區別聯繫，大概如下：

最早的編碼是 ISO8859-1，和 ASCII 編碼相似。但為了方便表示各種各樣的語言，逐漸出現了很多標準編碼。ISO8859-1 屬於單字節編碼，最多能表示的字符範圍是 0-255，應用於英文系列。很明顯，ISO8859-1 編碼表示的字符範圍很窄，無法表示中文字符。

1981 年中國人民通過對 ASCII 編碼的中文擴充改造，產生了 GB2312 編碼，可以表示 6000 多個常用漢字。但漢字實在是太多了，包括繁體和各種字符，於是產生了 GBK 編碼，它包括了 GB2312 中的編碼，同時擴充了很多。中國又是個多民族國家，各個民族幾乎都有自己獨立的語言系統，為了表示那些字符，繼續把 GBK 編碼擴充為 GB18030 編碼。每個國家都像中國一樣，把自己的語言編碼，於是出現了各種各樣的編碼，如果你不安裝相應的編碼，就無法解釋相應編碼想表達的內容。終於，有個叫 ISO 的組織看不下去了。他們一起創造了一種編碼 Unicode，這種編碼非常大，大到可以容納世界上任何一個文字和標誌。所以只要電腦上有 Unicode 這種編碼系統，無論是全球哪種文字，只需要保存文件的時候，保存成 Unicode 編碼就可以被其他電腦正常解釋。Unicode 在網絡傳輸中，出現了兩個標準 UTF-8 和 UTF-16，分別每次傳輸 8 個位和 16 個位。於是就會有人產生疑問，UTF-8 既然能保存那麼多文字、符號，為什麼國內還有這麼多使用 GBK 等編碼的人？因為 UTF-8 等編碼體積比較大，佔電腦空間比較多，如果面向的使用人群絕大部分都是中國人，用 GBK 等編碼也可以。

也可以這樣來理解：字符串是由字符構成，字符在計算機硬件中通過二進制形式存儲，這種二進制形式就是編碼。如果直接使用 “字符串↔️字符↔️二進制表示（編碼）” ，會增加不同類型編碼之間轉換的複雜性。所以引入了一個抽象層，“字符串↔️字符↔️與存儲無關的表示↔️二進制表示（編碼）” ，這樣，可以用一種與存儲無關的形式表示字符，不同的編碼之間轉換時可以先轉換到這個抽象層，然後再轉換為其他編碼形式。在這裡，Unicode 就是 “與存儲無關的表示”，UTF-8 就是 “二進制表示”。

亂碼的解決方法

根據原因來找解決方法，就非常簡單了。

方法一：直接指定 res.encoding

import requests
url = "http://search.51job.com"
res = requests.get(url)
res.encoding = "gbk"
html = res.text
print(html)

方法二：通過 res.apparent_encoding 屬性指定

import requests
url = "http://search.51job.com"
res = requests.get(url)
res.encoding = res.apparent_encoding
html = res.text
print(html)

方法三：通過編碼、解碼的方式

import requests
url = "http://search.51job.com"
res = requests.get(url)
html = res.text.encode('iso-8859-1').decode('gbk')
print(html)

輸出結果：

基本思路三步走：確定源網頁的編碼 A---GBK、程序通過編碼 B---ISO-8859-1 對源網頁數據還原、統一轉換字符的編碼 C-UTF-8。至於為啥出現統一轉碼這一步呢？網絡爬蟲系統數據來源很多，不可能使用數據時，再轉化為其原始的數據，這樣做是很廢事的。所以一般的爬蟲系統都要對抓取下來的結果進行統一編碼，從而在使用時做到一致對外，方便使用。

比如如果我們想講網頁數據保存下來，則會將起轉為 UTF-8，代碼如下：

with open("a.txt",'w',encoding='utf-8') as f:
 f.write(html)

總結

關於網絡爬蟲亂碼問題，這裡不僅給出了一個解決方案，還深入到其中的原理，由此問題引申出很多有意思的問題，如 UTF-8、GBK、GB2312 的編碼方式怎樣的？為什麼這樣轉化就可以解決問題？

最後，多動腦，多思考，多總結，致每一位碼農！

本文為作者投稿，版權歸其所有。

相關推薦

'區塊鏈數據溯源是什麼意思？能解決哪些問題？'

"未來世界是數字化社會，人類工作生活的一切痕跡都會在數據端被架構被重新認知。採集數據，解析數據，引導數據便成了一項核心工作。“物聯網+區塊鏈”技術，會將世界變得更加透明，讓更多的人看到並能追求自己的價值。沃爾頓鏈，因此孕育而生。他的願景是，立足數據，溯源真實，讓世界更陽光。...

區塊鏈技術 IBM 物聯網硬件數據庫人生第一份工作跳槽那些事兒食品安全軟件微軟施耐德電氣平安保險大眾汽車我的第一部5G手機思科系統投資 2019-09-19

'一文帶你瞭解爬蟲'

"前段時間我媽突然問我：兒子，爬蟲是什麼？我當時既驚訝又尷尬，驚訝的是為什麼我媽會對爬蟲好奇？尷尬的是我該怎麼給她解釋呢？一、爬蟲介紹1.爬蟲是什麼網絡爬蟲(web crawler 簡稱爬蟲)就是按照一定規則從互聯網上抓取信息的程序，既然是程序那和正常用戶訪問頁面有何區別？...

網絡爬蟲搜索引擎 Python 百度搜狗 Java 軟件 PHP 跳槽那些事兒 Linux Google 人生第一份工作騰訊 MySQL 中國鐵路客戶服務中心雅虎金山軟件 Perl 海豚美團網 Bing 天貓淘寶網 Ruby 螞蟻金服蟒蛇創業企鵝 2019-09-19

'美國專利局對AI專利出手，提12大問題徵求意見，不怕專利流氓'

"郭一璞安妮發自凹非寺量子位出品 | 公眾號 QbitAI谷歌的手裡，握著無數的AI專利，讓每個AI從業者頭疼。比如Geoffrey Hinton老爺子搞的DropOut，谷歌兄弟公司DeepMind手裡的RNN，在法律層面，專利權都歸谷歌所有。這些都是地球上幾乎所...

人工智能 Google 技術算法電腦軟件程序員知識產權法律 GitHub 設計數據庫操作系統斯坦福大學人生第一份工作創業 2019-09-19

'隔代教育，最大的問題不是溺愛，是“奪愛”，道出多個家庭的無奈'

"時光如流水，越來越多的獨生子女組建家庭，可贍養義務和生活壓力等各方各面都壓下來，許多經濟基礎不算好的夫妻，雙方哪怕生了孩子也沒時間帶，只能丟給父母。然而年輕人和老一輩的觀念存在很多分歧，尤其是育兒方面，這就造成了很多新的問題。生活不僅有詩和遠方，還有矛盾和委屈最近，鄰居家...

不完美媽媽經濟電腦 2019-09-19

'每日一款推薦車，大眾輝昂，不怕奔馳和路虎就怕大眾帶字母'

"今天小編給大家帶來的熱門車型是大眾的輝昂，也算是輝騰的繼任者，但是價格上確是打了一個半價。前段時間網上流行一句話，不怕奔馳和路虎就怕大眾帶字母說的就是輝騰。但是輝騰由於銷量原因停產了，大眾急需一款轎車的旗艦車型來撐場面，所以推出了輝昂。輝昂這款車呢，車身尺寸基本和奧迪A6...

大眾汽車大眾輝騰路虎轎車設計奧迪A6L 奔馳奧迪推拿邁騰電腦 2019-09-18

'你的路由器只“開發”了20%！get這五步，從此告別卡頓'

"在這個科技發達的時代，打遊戲看劇成了人們日常生活中，最常見的消遣方式，而路由器則成了宅人必備的東西，在家沒了網，感覺就像是失去神經。像這樣的加載圖，生活中也是經常遇到，打遊戲網絡延遲，一直460，在廁所想看個新聞都沒信號，家裡的wifi信號太差，到底該怎麼辦？你的網速真的...

路由器我的第一部5G手機運營商 Wi-Fi 藍牙電腦微波爐 2019-09-18

'14年跑29萬公里的別克故障燈一直亮，師傅：後氧傳感器的問題'

"前段時間，汽修師傅保養了一輛老別克凱越，說這輛別克老，主要是因為它的使用時間很長，並且行駛里程也很多。如下圖所示，這是位於發動機前大框上面的車輛銘牌，可以看出它是2005年出廠的車，將近14年，發動機是1.6L排量。本來，車主來修理廠主要是為了保養髮動機，只是在保養髮動機...

別克凱越別克汽車電腦 2019-09-17

'《無主之地3》PC版首發成績亮眼，不過遊戲優化存在問題'

"博士之前曾經和大家分享過《支持中文，<無主之地3>將在9月13日正式發行》、《<無主之地3>實機展示，動作和槍械讓人印象深刻》等文章，講述了 Gearbox 旗下射擊遊戲《無主之地3》的一些玩法內容。玩家們都很期待這款有著別出心裁、詼諧幽默與釀成混...

無主之地2 Epic Games 2K Games Steam 射擊遊戲硬件英偉達 2019-09-16

'python爬蟲模擬微博登錄'

"微博模擬登錄這是本次爬取的網址：https://weibo.com/一、請求分析找到登錄的位置，填寫用戶名密碼進行登錄操作看看這次請求響應的數據是什麼這是響應得到的數據，保存下來exectime: 8nonce: "HW9VSX"pcid: "gz-4ede4c6269a...

Python 微博網絡爬蟲百度 2019-09-16

'常見的親子間溝通問題——背後的心理因素（心理解析）'

"背景：一個“孩子難，家長更難的時代”多數家庭處於一個“小孩不好過，家長更為難”的時代，與我們自己的孩童時代，今天的孩子要面臨更多的挑戰和更艱難的成長環境。據調查顯示與20年前相比，現今的小孩：1、學習能力下降了2、情緒處理能力下更差，變得更神經質、更容易生氣、更容易消沉。...

不完美媽媽體育電腦睡眠 2019-09-16

'玩遊戲卡頓是電腦這裡出了問題，看懂之後自己就會修了'

"之前有一個玩絕地求生的小姐姐問我電腦突然藍屏了怎麼辦，對此我告訴她了一個有效的方法，那就是重啟。在此之後這位小姐姐就再也沒找過我，為什麼呢？因為這個方法是在是太有效了。所以如果有小姐姐找你修電腦的時候，可不能說重啟，咱們必須操作一波之後，帥氣的甩一下頭，高傲地說：“下回再...

電腦平板電腦中央處理器硬件固態硬盤軟件鼠標設計微軟紋身絕地求生 2019-09-16

'Python學習乾貨史上最全的 Python 爬蟲工具列表大全'

"這個列表包含與網頁抓取和數據處理的Python庫。網絡通用urllib -網絡庫(stdlib)。requests -網絡庫。grab – 網絡庫（基於pycurl）。pycurl – 網絡庫（綁定libcurl）。urllib3 – Python HTTP庫，安全連接池...

Python 網絡爬蟲 HTML Scrapy XML 瀏覽器 CSS XHTML jQuery C語言 JSON Excel 可視化技術 2019-09-15

'入門Python，總遇到這樣那樣的安裝問題，手把手教會你'

"轉發本文並私信我"python"，即可獲得Python資料以及更多系列文章(持續更新的)最近有挺多小夥伴問我要入門 Python 的資料，還有小夥伴完全沒有入門 Python 就直接購買了我的 pandas 專欄。因此我決定寫幾篇 Python 數據處理分析必備的入門知識...

Python 腳本語言 Windows 電腦操作系統文章 2019-09-15

'公司的共享打印機不能打印或者總是問題多，不要急處理教程來了'

"打印機大家好，這裡是一濤說電腦，今天為大家分享一下，如何處理共享打印機的一些常見問題。說到共享打印機，大家應該就很熟悉了吧！大多數共享打印機的應用場景就是公司，因為公司為了節約成本而使用共享。但是在使用共享打印機的時候也會出現一些令人煩惱的問題，下面就跟著小編看看如何處理...

打印機電腦 Windows 操作系統 Windows 7 軟件驅動精靈 Windows XP 技術人生第一份工作 2019-09-15

'存信數據平臺公信寶被封“爬蟲”為罪魁禍首？'

"9月11日，金色財經獨家現場確認存信數據平臺公信寶被杭州市公安局西湖分局古蕩派出所查封，另有可靠消息稱有公信寶員工失聯。對於公信寶被查，有分析認為，大概率是因為“數據”的事情，而不是因為“區塊鏈和發幣”的事情。公信寶是何公司？公信寶的主體運營公司為杭州存信數據科技有限公司...

網絡爬蟲技術電腦運營商杭州法律區塊鏈跳槽那些事兒刑法大數據上海蜘蛛天津新聞芝麻信用西湖電子商務爬行動物歷史 2019-09-15

'由於剎車系統問題，通用將召回近380萬輛車'

"據美國ABC新聞9月11日報道，在聯邦政府的壓力下，通用汽車公司在美國和加拿大召回了近380萬輛大型皮卡和SUV，以解決剎車問題。據通用汽車公司稱，目前已有113起事故報告，13人受傷。汽車召回範圍包括從2014年到2018年的雪佛蘭Silverado和GMC Sierr...

通用汽車公司 SILVERADO 雪佛蘭皮卡車貨車吉姆西美國證監會電腦加拿大交通人生第一份工作雪佛蘭Suburban YUKON 凱迪拉克原汁原味的德系SUV 2019-09-15

'中國老人的“暗傷”，幫忙帶娃卻矛盾不斷，問題到底出在哪裡'

"在我所住的老式小區，有很多退休老人，每每在下班時間，都會看到老人們帶著孩子在小區裡玩耍。孩子們嬉戲打鬧，爺爺奶奶就在一旁閒談，話語多是對自己孫子孫女的讚揚、誇耀，分享自己與孩子之間的點滴。有的爺爺奶奶，則跟在孩子屁股後面，亦步亦趨，生怕孩子出了什麼意外，孩子大吵大鬧的想要...

不完美媽媽文化電腦 2019-09-14

'幣圈大佬投資的區塊鏈公司遭查封，幣價盤中暴跌30%，竟是爬蟲惹的禍？創始人來頭不小'

"因爬蟲業務導致用戶私密數據洩露，由真格基金、李笑來參與投資的知名幣圈項目公信寶運營主體——杭州存信數據科技有限公司已被公安機關貼上了封條。受此消息影響，該公司發行的數字貨幣盤中暴跌最高超過30%。值得注意的是，公信寶團隊今年6月份從二級市場上，以7.69元人民幣單價回購了...

區塊鏈網絡爬蟲投資數字貨幣金融技術大數據京東商城運營商杭州支付寶法律腳本語言中國聯通證券投資基金頭號大贏家| 理財大賽第二季人生第一份工作電信數據庫芝麻信用同花順 2019-09-14

'水電驗收不是小問題，驗收做好這幾點，入住後不會後悔'

"在裝修完成後入住以後水電如果有問題那麼以後會很麻煩，所以當水電階段裝修完畢，裝修公司監理都會邀請業主進行驗收，那麼我們該如何驗收呢？裝修公司水電驗收標準都是什麼呢？一、電路驗收1、裝修公司會帶專業的測電工具：測電筆、電流表、手電筒、捲尺等等。2、要看電線的佈局設計是否正確...

裝修家用電器設計良心國貨大賞熱水器電腦 2019-09-14

'在初學者攝影中你需要注意哪些問題？-美佳娜學校'

"大家好，我是"美佳娜培訓學校"的小編，又是一個陽光明媚的天氣，新的一天又是這麼可愛，今天為大家帶來不一樣的精彩內容，希望各位看官給小編動手評論點贊喔！您的每一次評論點贊都會帶來好運氣喔！在初學者攝影中你需要注意哪些問題？-美佳娜學校攝影是一步一步的藝術。記住當你輸入這一行...

攝影藝術文章照相機硬件 2019-09-14

推薦中...