每秒幾十萬的大規模網絡爬蟲是如何煉成的？

網絡爬蟲 Java DNS 程序員軟件編程語言 HTML CSDN Python Apache Cassandra 腳本語言 Node.js ElasticSearch Google 虛擬機設計 Hadoop Perl 經濟 CSDN 2019-04-06

【CSDN 編者按】數據時代，網絡爬蟲似乎是每個程序員的必備技能，在他們的眼中“一切皆可盤”。通常情況下，Python 憑藉優秀的性能優勢更受到程序員的喜愛，不過在本文中，作者介紹了他們公司一個強大的分佈式網絡爬蟲驅動，由Java編寫的系統能夠每秒可以訪問幾十萬個網頁！

作者 | Nariman Jelveh@Mixnode Technologies Inc.

譯者 | 彎月

責編 | 郭芮

出品 | CSDN（ID：CSDNnews）

以下為譯文：

我們公司Mixnode的背後由一個極其高效的分佈式網絡爬蟲驅動，每秒可以訪問幾十萬個網頁。雖然在使用Mixnode時，你從來不需要考慮有關網絡抓取的東西，但還是有很多人詢問我們如何才能如此快速地抓取這麼多網頁。

在這篇文章中，我將與大家分享多年來我們在構建與優化爬蟲方面所獲得的經驗以及教訓。

Java

在為項目選擇編程語言時，許多因素都會影響到你的最終決策。內部專業知識、生態系統和原始性能是我們在尋找“完美”的編程語言時必須考慮的主要標準。

最終，我們認為Java是我們的最佳選擇，原因如下：

內部專業知識：因為我們的團隊擁有豐富的Java專業知識，特別是分佈式系統和網絡軟件開發方面的知識，所以我們可以立即開始開發高質量的軟件。

現有的軟件包：大規模的網絡爬蟲需要建立在久經考驗的強大、可擴展且安全的網絡、系統和實用程序模塊之上。Java擁有最活躍的開源生態系統，特別是在網絡和分佈式應用程序方面。Netty、Selenium和Google Guava等軟件包證明Java生態系統擁有高質量的開源模塊。

現有的參考項目：Apache Hadoop、Apache Cassandra和Elasticsearch全都是用Java開發的大型分佈式系統項目的例子，它們為這個生態系統帶來了豐富的專業知識、靈感和先例。當出現問題或有疑問時，通常我們都會發現曾有人經歷過相同或類似的情況。這創建了一個強大的網絡，從而使得用Java開發高性能數據驅動應用程序的過程變得更加簡單且經濟實惠。

原始性能和可靠性：在性能和可靠性方面，Java擁有靜態類型，強大的垃圾收集以及久經實戰考驗的虛擬機等最重要的特性。

雖然我們的核心網絡爬蟲引擎是用Java編寫的，但在為手頭的工作選擇編程語言時我們都很務實。例如，我們也使用其他語言（例如Python，Perl和Node.js）來編寫腳本、配置、監視、報告和管道的其他部分。

無共享架構

在Mixnode，我們的集群採用了無共享架構，工作負載在獨立的無狀態節點上進行分割和分佈，這可以消除大規模分佈式系統的災難——單點故障。另外，該架構允許我們逐個節點更新和升級底層軟件，而不會中斷整個操作。

此外，無共享架構大大減少了節點之間的通信開銷，從而為我們提供了額外的性能提升。

速率限制模塊必須保證安全

網站的主要設計目的是供人類訪問，一位普通用戶每分鐘只能瀏覽很少的頁面。網絡爬蟲每秒能夠訪問數千甚至數百萬個網頁，因此，如果不小心，網絡爬蟲很容易在很短的時間內耗盡網站資源，造成破壞性的後果。而且，一個普通的網站會有多個機器人同時抓取，所以這個問題會被放大。

因此，每個網絡爬蟲也有責任對自己的請求速率進行限制，換句話說，確保連續兩次訪問之間有適當的延遲。你需要對請求速率進行限制的三個最重要的標準是：主機名和IP地址。

很顯然，這項工作需要從一開始就做到盡善盡美。由於一個簡單的錯誤就可能對你正在抓取的網站造成破壞性的後果，所以不容許出錯。在多線程環境中，在跟蹤請求和速率限制參數時，你還應該格外小心以防止競爭。

緩存是王道

在構建大規模數據驅動的應用程序時，緩存網絡事務通常是不可避免的，至少在管道的某些部分如此，特別是當相較於其他任務網絡輸入/輸出更頻繁且開銷更大的情況下。但是，在大規模網絡爬取的情況下，緩存不僅是不可避免的，而且是在編寫代碼之前就需要考慮的事項。

大規模網絡爬取的情況下，有兩個操作需要及時緩存：

Robots.txt查找：從某個主機上訪問的每個URL獲取該主機robots.txt文件的全新副本幾乎是不可能的，因此，你需要構建一個分佈式的預讀緩存，能夠持有並定期更新數百萬個網站的robots.txt文件。

DNS解析：對於絕大多數URL，你需要至少執行一次DNS解析才能下載，這會增加每秒數千次的查詢。因此，DNS服務器必然會限制你的訪問，或者在過重的負荷下崩潰。無論是哪種情況都會導致爬蟲停止，唯一的解決辦法就是儘可能緩存DNS解析結果，並最大限度地減少不必要的查詢。

解析HTML

爬蟲的基本任務之一就是從它訪問的每個頁面中提取鏈接（即解析），以便將它們添加到需要訪問頁面的隊列中。如果你需要大規模的爬取，那麼最好有一個高性能的HTML解析器，因為你需要提取大量的鏈接和元數據。

大多數HTML解析庫會優先考慮簡單性、易用性和通用性，一般來講這是正確的設計。由於我們需要高速的鏈接提取，所以最終我們決定編寫自己的解析器，並針對查找鏈接和一些原始DOM的查詢功能進行了優化。

HTML解析器還需要具有彈性，經過全面的測試，並且能夠處理大量出現的異常情況，因為並非每個HTML文檔都是有效的。

網絡優化

通常操作系統的默認配置無法處理大規模網絡爬蟲的網絡需求。通常我們需要根據具體情況，優化操作系統的網絡堆棧，使其發揮最大潛力。對於大規模的網絡爬蟲來說，優化的目標在於最大化吞吐量和打開連接的數量。

以下是我們經常會用到的有關該主題的一些有用的資源：

Linux網絡性能參數
https://github.com/leandromoreira/linux-network-performance-parameters

優化Web服務器，實現高吞吐量和低延遲
https://blogs.dropbox.com/tech/2017/09/optimizing-web-servers-for-high-throughput-and-low-latency/

Red Hat公司Linux網絡性能調整指南
https://access.redhat.com/sites/default/files/attachments/20150325_network_performance_tuning.pdf

小結

構建大規模網絡爬蟲是一項長期的項目，也是一項複雜的工作。我們必須精心設計和測試不同的模塊，同時還需仔細觀測和研究權衡利弊。許多我們日常使用的計算機軟件組件都無法在網絡爬蟲的工作負載下正常運行，因此我們需要從頭開始設計，同時還需不斷審查和優化其他組件，才能適應不斷變化的不斷擴大的網絡。

我們的網絡級爬蟲經過了漫長的發展，才成為了成熟穩定的平臺，我們期待分享更多關於學習構建基礎架構的經驗教訓。

原文：https://www.mixnode.com/blog/posts/lessons-learned-building-a-modern-massive-scale-web-crawler
本文為 CSDN 翻譯，如需轉載，請註明來源出處。

相關推薦

'這6種利用商業基礎設施的網絡犯罪，如何瞭解&防禦？'

"轉自csoonline，作者Maria Korolov當談到網絡犯罪基礎設施時，當屬暗網高光時刻，祕密的犯罪市場、非法洗錢交易和殭屍網絡服務等。然而，不僅僅是暗網，那些網絡犯罪分子從合法的商業基礎設施中也可以獲得他們所需要的東西。對於網絡攻擊者來說，並不是因為主流供應商比...

網絡安全雲計算軟件比特幣技術防火牆信用卡瀏覽器人生第一份工作銀行亞馬遜 2019-09-17

'中山升級版創新力量如何煉成？'

"■開欄語曾經被吳曉波形容為“中國新興企業的搖籃之一”的中山，如今轉入了轉型升級的下半場。38個國家級產業基地、18個省級科技專業鎮，擁有燈飾光源、紅木傢俱、遊藝設備、五金鎖具、燃器具等一批特色優勢產業，湧現裝備製造、電子信息、家用電器等一批千億級產業集群……活力充沛的市場...

中山經濟技術廣東中國建設銀行金融投資南方報業銀行南方日報大學新醫藥控股藥品能源華南理工大學心血管病家用電器新能源 2019-09-16

'央視《對話》欄目走進成華看東郊記憶如何煉成“成都新地標”'

"成華，一片厚重的土地，承載著中國電子工業的光榮與夢想，傳承工業文明。為長征運載火箭發射、神州5號6號載人飛行、中國首次探月工程做出積極貢獻；電子科大、成都理工大學勇冠“雙一流”，電子十一院、西南電力設計院等科研院所投身“一帶一路”新建設，東郊記憶續寫厚重的“工匠精神”，孕...

成都中國中央電視臺藝術咖啡文化經濟竊聽大陰謀時尚列奧納多·達·芬奇電子科技大學四川星巴克咖啡音樂投資深圳傳媒中國探月工程 2019-09-16

'年營業額近6億元滬杭甬嘉興服務區“模範生”是如何煉成的'

"你印象中的高速公路服務區是怎樣的？“加油+泡麵”，這是長期以來，人們對高速服務區的普遍印象。而滬杭甬高速公路嘉興服務區卻與眾不同。這裡的快餐味道不錯，卻10多年沒漲價；地方小吃嘉興粽子從這裡走向全國；推行同城同價的平價路線，服務區的年營收早已超億元，若算上加油，2018年...

嘉興粽子星巴克咖啡浙江省杭州上海交通快餐小吃海寧滿記甜品麥當勞關愛吃貨成長協會咖啡經濟 2019-09-15

'豆瓣9.6，國漫史上最高分動畫是如何煉成的？'

"今年的暑期檔，毫無疑問是國漫的夏天。一部《哪吒》接連打破了動畫電影首日、單日、首周、單週、以及總票房的票房紀錄，目前總票房超過48億，穩居中國影史票房總榜Top2，也成為了全球影史單一市場票房最高的動畫電影。到今天為止，上映47天仍保持著單日票房的前三位。緊跟著這股國漫崛...

動畫動畫電影羅小黑戰記動漫漫畫大魚·海棠聲優人生第一份工作插畫大魚海棠哪吒徐崢黃渤軟件原畫 2019-09-14

'優秀的模糊測試代碼是如何煉成的？'

"所謂模糊測試，是指一種通過向目標系統提供非預期的輸入並監視異常結果來發現軟件漏洞的方法，它經過了近 20 年的發展，早已在程序員圈中成為一種主流漏洞挖掘技術。基於此，開發者們該如何編寫良好的模糊測試代碼？作者 | John Regehr譯者 | 彎月，責編 | 屠敏出品 ...

軟件編譯器操作系統程序員編程語言 Twitter CSDN 2019-09-14

'再獲四項省級殊榮：金天國際品質是如何煉成的'

"近日，在經中國質量協會、全國用戶委員會統一部署，山東省質量管理協會、山東省企業聯合會、山東省工業經濟聯合會組織開展的2018年用戶滿意度測評中，金天國際核心產品雪蓮生態保養貼榮獲“2018年山東省用戶滿意產品”榮譽稱號。此外，金天國際還連續斬獲山東省“製造業單項冠軍企業”...

山東技術原汁原味的德系SUV 江蘇煙臺生物技術養生安徽雪蓮中醫宿遷經濟食療 2019-09-12

'高端彩妝大贏家，YSL聖羅蘭美妝如何煉成爆款製造機？'

"YSL聖羅蘭，被稱為“爆款製造機”的美妝品牌，僅僅用了六年時間，就成功俘獲了中國億萬年輕消費者心智，聖羅蘭美妝靠的是什麼？《化妝品報》專訪YSL聖羅蘭美妝中國品牌總監邢夏淳，揭祕高端美妝YSL聖羅蘭的成功之道。文丨李娜YSL有多個性？有人曾這樣形容它的高跟鞋：“恨天高”可...

聖羅蘭化妝最in買手君伊夫·聖洛朗口紅市場營銷芭比布朗香水高跟鞋 Gucci 克里斯汀·迪奧美容伊勢丹歐萊雅玫珂菲時裝時尚設計開雲集團施華洛世奇羅蘭上海酒店創作者來直播騰訊 2019-09-12

'年營業額近6億！浙江最牛高速服務區是如何煉成的？'

浙江省嘉興星巴克咖啡粽子杭州上海快餐交通海寧滿記甜品小吃麥當勞關愛吃貨成長協會咖啡經濟無角菱 2019-09-12

'阿里巴巴商業帝國的基本盤是如何煉成的？'

"導讀從商業核心邏輯切入，抽絲剝繭阿里最穩固的電商基本盤是如何煉成的？一、核心商業：阿里巴巴最穩固的基本盤阿里巴巴成立於1999年，經歷B2B、C2C、B2C等一系列電商模式轉型，以核心商業為基本盤驅動飛輪旋轉，發展成為集電商、新零售、金融、物流、大文娛、雲計算為一體的龐大...

阿里巴巴集團 B2B C2C 雲計算淘寶網 eBay 天貓萬物嚐鮮節市場營銷易趣經濟誠信通餓了麼金融支付寶阿里旺旺速賣通亞馬遜中國搜索引擎人生第一份工作 2019-09-10

'「Python爬蟲」如何爬取翻頁url不變的網站'

"之前打算爬取一個圖片資源網站，但是在翻頁時發現它的url並沒有改變，無法簡單的通過request.get()訪問其他頁面。據搜索資料，瞭解到這些網站是通過ajax動態加載技術實現。即可以在不重新加載整個網頁的情況下，對網頁的某部分進行更新。幫忙轉發，關注，私信小編Pyth...

Python 網絡爬蟲瀏覽器 XML JSON 程序員操作系統 2019-09-09

'Python3網絡爬蟲中的requests高級用法詳解'

"本節我們再來了解下 Requests 的一些高級用法，如文件上傳，代理設置，Cookies 設置等等。1. 文件上傳我們知道 Reqeuests 可以模擬提交一些數據，假如有的網站需要我們上傳文件，我們同樣可以利用它來上傳，實現非常簡單，實例如下：import reque...

Python 網絡爬蟲 JSON 腳本語言 Origin 知乎 2019-09-07

'雷軍和他的小米：論500強是如何煉成的'

"2010年4月6日，北京中關村保福寺橋銀谷大廈807室，14個人。這些人中，有原Google中國工程研究院副院長林斌，原摩托羅拉北京研發中心高級總監周光平，原北京科技大學工業設計系主任劉德，皆為行業精英。此刻他們的目光都集中在一個人身上——雷軍。沉寂片刻，雷軍狠狠抽了口煙...

雷軍小米手機求伯君金山軟件軟件 WPS 中關村周光平馬化騰微軟盤古大學創業馬雲林斌丁磊人生第一份工作深圳工業設計財務軟件比爾·蓋茨 Google Word 電腦 2019-09-03

'網絡延遲是如何產生的？'

"網絡延遲網絡延遲是指一個IP包從源主機進程發出開始計時，到達目的地主機進程為止，所經歷的時間，以毫秒為單位。IP包從源主機一路經過多箇中繼設備，如交換機、路由器，最終到達終點，網絡延遲由以下三者組成：網絡延遲 = 傳輸延遲 + 處理延遲 +緩衝隊列延遲傳輸延遲這個延遲很好...

路由器 Google 算法軟件硬件 2019-09-03

'濱海新區板廠路派出所：全國一級所是如何煉成的'

" 津雲新聞訊：35年前，來自不同單位的十幾位民警，在幾間臨建中組建了板廠路派出所。條件雖然艱苦，工作展開雖然異常艱難，但全體民警始終踐行“全心全意為人民”的宗旨，在黨委政府和上級公安機關領導下，忠誠履職、積極作為，全力打造黨建統領、民意引領、多元化解矛盾、全時空守護平安、...

春節守護值班法律跳槽那些事兒經濟天津劉偉我在宮裡做廚師 2019-09-02

'萬元一件的羽絨服，羽絨服界的“賓利”是如何煉成的？'

"要風度不要溫度，是不少年輕人一向信奉的真理。臃腫顯胖、沒有設計感、價格高昂，這是不少人對待羽絨服的一致評價，也是羽絨服不像潮流服飾這麼受歡迎的主要原因之一。要說羽絨服的領頭羊，中國的品牌波司登已經算是其中的佼佼者了，開店4000多家，靠著輕便、收身的款式，逐漸讓人們開始接...

羽絨服加拿大奢侈品高能小子終極裝備最in買手君普拉達多倫多賓利汽車 Gucci 瑞典波士頓芝加哥時尚亞洲馬雲瑞士人生第一份工作設計腕錶波蘭波司登 X戰警 2019-09-01

'日本首富的生意經，優衣庫是如何煉成的？'

"銥星導讀柳井正：“每天每天，做到生厭地去做，是成功的祕訣。”圖/太古裡服務號優衣庫已成為三里屯太古裡標誌性品牌2018年，球王費德勒成為優衣庫全球代言人。截至目前，費德勒共獲得20個大滿貫冠軍，是世界上擁有最多大滿貫的男單球員。圖/網絡今年初夏的一個傍晚，我的一個朋友在北...

優衣庫 Zara 服裝萬能白T恤設計師時尚日本愛馬仕柳井正最in買手君 H&M 蓋璞人生第一份工作設計羅傑·費德勒市場營銷羽絨服無印良品三里屯和服上海 2019-08-31

'華為園區網絡如何支撐18.8萬員工高效辦公？'

"18.8萬員工，業務遍及170個國家；全球14個研發中心和36個創新中心，1000多個辦公地點；每年150萬+個合同和5億+行PO，平均增長50%以上；每天280萬+封郵件，8萬+次會議；研發IPD流程，供應鏈ISC平臺，客戶關係管理CRM平臺，財經平臺IFS以及HIS...

華為公司技術 Wi-Fi 設計人工智能跳槽那些事兒 2019-08-30

'【反詐宣傳】開學季大學生如何預防電信網絡詐騙'

"預防電信網絡詐騙近年來，大學生已成為電信網絡詐騙的最大受害群體之一，社會經驗少，警惕性不高使得他們屢屢上當受騙。臨近開學，小編在此介紹常以大學生為詐騙對象的三種電信詐騙類型，它們分別是：刷單詐騙、網絡遊戲詐騙、網上貸款詐騙。希望能引起廣大學生的關注，提高識騙防騙能力。一、...

開學季銀行支付寶電信淘寶網人生第一份工作網絡遊戲騰訊QQ 軟件 2019-08-30

'一臺“明日座駕”如何煉成？開了300公里CS75 PLUS後得到答案'

"時間要回到5天前，8月16日，長安汽車的戰略車型CS75 PLUS開啟全球預售，朋友圈被這款恍如從科幻電影中駛來的“明日座駕”刷屏，短短24小時，訂單破千，而這個數字還在像滾雪球一樣增加。從杭州啟程的試駕車隊，昨天走到長沙，車隊一位長安的工程師掩飾不住開心地和我分享：“訂...

長安汽車原汁原味的德系SUV BMW 技術設計無人駕駛長安奧迪工程師日本長沙都靈市人工智能崑崙山脈南昌上海重慶杭州意大利鳳凰 2019-08-24

推薦中...