網絡爬蟲基本原理（一）

網絡爬蟲技術 cpp軟件架構獅 2018-12-05

網絡爬蟲是捜索引擎抓取系統的重要組成部分。爬蟲的主要目的是將互聯網上的網頁下載到本地形成一個或聯網內容的鏡像備份。這篇博客主要對爬蟲以及抓取系統進行一個簡單的概述。

一、網絡爬蟲的基本結構及工作流程

一個通用的網絡爬蟲的框架如圖所示：

網絡爬蟲的基本工作流程如下：

1.首先選取一部分精心挑選的種子URL；

2.將這些URL放入待抓取URL隊列；

3.從待抓取URL隊列中取出待抓取在URL，解析DNS，並且得到主機的ip，並將URL對應的網頁下載下來，存儲進已下載網頁庫中。此外，將這些URL放進已抓取URL隊列。

4.分析已抓取URL隊列中的URL，分析其中的其他URL，並且將URL放入待抓取URL隊列，從而進入下一個循環。

二、從爬蟲的角度對互聯網進行劃分

對應的，可以將互聯網的所有頁面分為五個部分：

1.已下載未過期網頁

2.已下載已過期網頁：抓取到的網頁實際上是互聯網內容的一個鏡像與備份，互聯網是動態變化的，一部分互聯網上的內容已經發生了變化，這時，這部分抓取到的網頁就已經過期了。

3.待下載網頁：也就是待抓取URL隊列中的那些頁面

4.可知網頁：還沒有抓取下來，也沒有在待抓取URL隊列中，但是可以通過對已抓取頁面或者待抓取URL對應頁面進行分析獲取到的URL，認為是可知網頁。

5.還有一部分網頁，爬蟲是無法直接抓取下載的。稱為不可知網頁。

三、抓取策略

在爬蟲系統中，待抓取URL隊列是很重要的一部分。待抓取URL隊列中的URL以什麼樣的順序排列也是一個很重要的問題，因為這涉及到先抓取那個頁面，後抓取哪個頁面。而決定這些URL排列順序的方法，叫做抓取策略。下面重點介紹幾種常見的抓取策略：

1.深度優先遍歷策略

深度優先遍歷策略是指網絡爬蟲會從起始頁開始，一個鏈接一個鏈接跟蹤下去，處理完這條線路之後再轉入下一個起始頁，繼續跟蹤鏈接。我們以下面的圖為例：

遍歷的路徑：A-F-G E-H-I B C D

2.寬度優先遍歷策略

寬度優先遍歷策略的基本思路是，將新下載網頁中發現的鏈接直接插入待抓取URL隊列的末尾。也就是指網絡爬蟲會先抓取起始網頁中鏈接的所有網頁，然後再選擇其中的一個鏈接網頁，繼續抓取在此網頁中鏈接的所有網頁。還是以上面的圖為例：

遍歷路徑：A-B-C-D-E-F G H I

3.反向鏈接數策略

反向鏈接數是指一個網頁被其他網頁鏈接指向的數量。反向鏈接數表示的是一個網頁的內容受到其他人的推薦的程度。因此，很多時候搜索引擎的抓取系統會使用這個指標來評價網頁的重要程度，從而決定不同網頁的抓取先後順序。

在真實的網絡環境中，由於廣告鏈接、作弊鏈接的存在，反向鏈接數不能完全等他我那個也的重要程度。因此，搜索引擎往往考慮一些可靠的反向鏈接數。

4.Partial PageRank策略

Partial PageRank算法借鑑了PageRank算法的思想：對於已經下載的網頁，連同待抓取URL隊列中的URL，形成網頁集合，計算每個頁面的PageRank值，計算完之後，將待抓取URL隊列中的URL按照PageRank值的大小排列，並按照該順序抓取頁面。

如果每次抓取一個頁面，就重新計算PageRank值，一種折中方案是：每抓取K個頁面後，重新計算一次PageRank值。但是這種情況還會有一個問題：對於已經下載下來的頁面中分析出的鏈接，也就是我們之前提到的未知網頁那一部分，暫時是沒有PageRank值的。為了解決這個問題，會給這些頁面一個臨時的PageRank值：將這個網頁所有入鏈傳遞進來的PageRank值進行彙總，這樣就形成了該未知頁面的PageRank值，從而參與排序。下面舉例說明：

5.OPIC策略策略

該算法實際上也是對頁面進行一個重要性打分。在算法開始前，給所有頁面一個相同的初始現金（cash）。當下載了某個頁面P之後，將P的現金分攤給所有從P中分析出的鏈接，並且將P的現金清空。對於待抓取URL隊列中的所有頁面按照現金數進行排序。

6.大站優先策略

對於待抓取URL隊列中的所有網頁，根據所屬的網站進行分類。對於待下載頁面數多的網站，優先下載。這個策略也因此叫做大站優先策略。

來源:https://www.cnblogs.com/wawlian/archive/2012/06/18/2553061.html

相關推薦

'一文帶你瞭解爬蟲'

"前段時間我媽突然問我：兒子，爬蟲是什麼？我當時既驚訝又尷尬，驚訝的是為什麼我媽會對爬蟲好奇？尷尬的是我該怎麼給她解釋呢？一、爬蟲介紹1.爬蟲是什麼網絡爬蟲(web crawler 簡稱爬蟲)就是按照一定規則從互聯網上抓取信息的程序，既然是程序那和正常用戶訪問頁面有何區別？...

網絡爬蟲搜索引擎 Python 百度搜狗 Java 軟件 PHP 跳槽那些事兒 Linux Google 人生第一份工作騰訊 MySQL 中國鐵路客戶服務中心雅虎金山軟件 Perl 海豚美團網 Bing 天貓淘寶網 Ruby 螞蟻金服蟒蛇創業企鵝 2019-09-19

'python爬蟲模擬微博登錄'

"微博模擬登錄這是本次爬取的網址：https://weibo.com/一、請求分析找到登錄的位置，填寫用戶名密碼進行登錄操作看看這次請求響應的數據是什麼這是響應得到的數據，保存下來exectime: 8nonce: "HW9VSX"pcid: "gz-4ede4c6269a...

Python 微博網絡爬蟲百度 2019-09-16

'Python學習乾貨史上最全的 Python 爬蟲工具列表大全'

"這個列表包含與網頁抓取和數據處理的Python庫。網絡通用urllib -網絡庫(stdlib)。requests -網絡庫。grab – 網絡庫（基於pycurl）。pycurl – 網絡庫（綁定libcurl）。urllib3 – Python HTTP庫，安全連接池...

Python 網絡爬蟲 HTML Scrapy XML 瀏覽器 CSS XHTML jQuery C語言 JSON Excel 可視化技術 2019-09-15

'存信數據平臺公信寶被封“爬蟲”為罪魁禍首？'

"9月11日，金色財經獨家現場確認存信數據平臺公信寶被杭州市公安局西湖分局古蕩派出所查封，另有可靠消息稱有公信寶員工失聯。對於公信寶被查，有分析認為，大概率是因為“數據”的事情，而不是因為“區塊鏈和發幣”的事情。公信寶是何公司？公信寶的主體運營公司為杭州存信數據科技有限公司...

網絡爬蟲技術電腦運營商杭州法律區塊鏈跳槽那些事兒刑法大數據上海蜘蛛天津新聞芝麻信用西湖電子商務爬行動物歷史 2019-09-15

'幣圈大佬投資的區塊鏈公司遭查封，幣價盤中暴跌30%，竟是爬蟲惹的禍？創始人來頭不小'

"因爬蟲業務導致用戶私密數據洩露，由真格基金、李笑來參與投資的知名幣圈項目公信寶運營主體——杭州存信數據科技有限公司已被公安機關貼上了封條。受此消息影響，該公司發行的數字貨幣盤中暴跌最高超過30%。值得注意的是，公信寶團隊今年6月份從二級市場上，以7.69元人民幣單價回購了...

區塊鏈網絡爬蟲投資數字貨幣金融技術大數據京東商城運營商杭州支付寶法律腳本語言中國聯通證券投資基金頭號大贏家| 理財大賽第二季人生第一份工作電信數據庫芝麻信用同花順 2019-09-14

'金九銀十，你準備好了嗎？沒點Python面試題乾貨怎麼行？（一）'

"職場人沒有不知道：金三銀四，金九銀十的說法兒吧，今天干貨奉上，100個Python面試高頻題目。一. 遇到過得反爬蟲策略以及解決方法?1.通過headers反爬蟲2.基於用戶行為的發爬蟲：(同一IP短時間內訪問的頻率)3.動態網頁反爬蟲(通過ajax請求數據，或者通過J...

Python Scrapy 人生第一份工作 Redis HTML 數據庫網絡爬蟲 JavaScript 瀏覽器 jQuery 跳槽那些事兒 2019-09-13

'python小課堂23 - 正則表達式(一)'

"前言今天來介紹一下Python的正則表達式。先來看下定義，何為正則表達式？正則表達式是一個特殊的字符序列，一個字符串是否與我們給定的這個字符序列相匹配。正則最重要的功能就是處理字符串，例如檢索你在某一段字符串中的特定單詞，或者將原來某個位置的特定字符換成你想要的字符。而對...

Python PHP Java 程序員網絡爬蟲 2019-09-12

'寫python爬蟲，不會正則怎麼行呢？另贈學習資料'

"導讀：正則在各語言中的使用是有差異的，本文以 Python 3 為基礎。本文主要講述的是正則的語法，對於 re 模塊不做過多描述，只會對一些特殊地方做提示。很多人覺得正則很難，在我看來，這些人一定是沒有用心。其實正則很簡單，根據二八原則，我們只需要懂 20% 的內容就可以...

Python 網絡爬蟲 Java 百度 2019-09-12

'Python爬蟲入門並不難，進階也很簡單！只需要這13個階段就夠了'

"互聯網的數據爆炸式的增長，而利用 Python 爬蟲我們可以獲取大量有價值的數據：（分享一套完整的爬蟲學習教程，免費獲取方式在文末哦）1.爬取數據，進行市場調研和商業分析爬取知乎優質答案，篩選各話題下最優質的內容；抓取房產網站買賣信息，分析房價變化趨勢、做不同區域的房價...

Python 網絡爬蟲 Scrapy 數據庫瀏覽器知乎新聞豆瓣網 CSS HTML 人生第一份工作推薦技術騰訊機器學習 2019-09-10

'「Python爬蟲」如何爬取翻頁url不變的網站'

"之前打算爬取一個圖片資源網站，但是在翻頁時發現它的url並沒有改變，無法簡單的通過request.get()訪問其他頁面。據搜索資料，瞭解到這些網站是通過ajax動態加載技術實現。即可以在不重新加載整個網頁的情況下，對網頁的某部分進行更新。幫忙轉發，關注，私信小編Pyth...

Python 網絡爬蟲瀏覽器 XML JSON 程序員操作系統 2019-09-09

'人見人愛的最新 Python 爬蟲利器'

"文 | 過了即是客編輯 | EarlGrey推薦 | 編程派公眾號（ID：codingpy）Python上有一個非常著名的HTTP庫——requests，相比大家都聽說過，用過的人都說好！現在requests庫的作者又發佈了一個新庫，叫做requests-html，看名字...

Python HTML 網絡爬蟲 Links CSS TeX 2019-09-09

'講真，做Python一定不要只會一個方向'

"最近不少人在私信問芒果現在Python還好就業不好就業？發展前景怎麼樣？我30多歲了，還能不能轉行編程？Python該怎麼學？如果做Python到底該做爬蟲還是數據分析還是web？......等等這樣的問題，現在逐一談下我的看法，進而引申出目前如果做python，最好要掌...

Python 技術 Django 網絡爬蟲算法人生第一份工作 Java 深度學習腳本語言機器學習 Flask PHP 編程語言文章 2019-09-07

'Python3網絡爬蟲中的requests高級用法詳解'

"本節我們再來了解下 Requests 的一些高級用法，如文件上傳，代理設置，Cookies 設置等等。1. 文件上傳我們知道 Reqeuests 可以模擬提交一些數據，假如有的網站需要我們上傳文件，我們同樣可以利用它來上傳，實現非常簡單，實例如下：import reque...

Python 網絡爬蟲 JSON 腳本語言 Origin 知乎 2019-09-07

'爬蟲爬取還需要驗證？我爬某人爬資源從來都不需要誰的同意'

"前言很多時候我們做 Python 爬蟲時或者自動化測試時需要用到 selenium 庫，我們經常會卡在登錄的時候，登錄驗證碼是最頭疼的事情，特別是如今的文字驗證碼和圖形驗證碼。文字和圖形驗證碼還加了干擾線，本文就來講講怎麼繞過登錄頁面。登錄頁面的驗證，比如以下的圖形驗證碼...

網絡爬蟲 Chrome 瀏覽器 Python Google 百度腳本語言 Mozilla 簡書 Firefox 機器學習 2019-09-06

'各大網站中的爬蟲Python是怎樣出來的——基礎'

"一、需求:抓取主頁面：百度百科Python詞條 https://baike.baidu.com/item/Python/407313分析上面的源碼格式，便於提取：關鍵詞分析:位於class為lemmaWgt-lemmaTitle-title的dd元素的第一個h1標籤內...

Python 網絡爬蟲 HTML 瀏覽器 PyCharm Mozilla XML 百度百科 2019-09-06

'Python爬蟲：bilibili彈幕爬取與比對分析'

"最近受人之託研究了下b站的數據爬取做個小工具，最後朋友說不需要了，本著開源共享的原則，將研究成果與大家分享一波，話不多說直接上乾貨需求分析給定up主uid和用戶uid，爬取用戶在該up主所有視頻中發的所有彈幕 #pgc-card .pgc-card-href { ...

Bilibili Python 網絡爬蟲 XML 數據庫算法 Google 瀏覽器 JSON 百度鏡音雙子 2019-09-05

'自學爬蟲分佈式，我需要掌握哪些Python基礎？附贈視頻資料'

"接觸爬蟲已經有一段時間了，常常有人問我：我會點Python，想自學爬蟲，你看用什麼方法好呢？我：我喜歡邊做項目邊學習，爬取過程中遇到問題再百度，擴展xx：我看了網上教材，過程很簡略，最後給了一個編碼，有的我實例一下好像還不成功我：代碼也會“過期”，尤其是爬蟲，需要自己修改...

Python 網絡爬蟲騰訊QQ 2019-09-01

'「華爾街之狼」Kensho收購案一年半後，智能投研產業發展什麼樣？'

"人工智能技術除了可被用於提高金融服務效率外，還逐步被應用於資產管理領域，幫助B端機構投資者的投資研究工作與面向C端個人投資者的投資顧問建議，實現由信息向決策的更高效轉化，提供更客觀、準確的投資參考。而投資機會的準確判斷，需要建立在對宏觀、中觀、微觀層面，涉及政府政策、產業...

人工智能技術大數據天弘基金金融投資證券投資基金算法自然語言處理雲計算網絡爬蟲銀行人生第一份工作頭號大贏家| 理財大賽第二季華夏基金管理新聞珠海華潤銀行 2019-08-31

'python:教你用爬蟲通過代理自動刷網頁的瀏覽量'

"前言每當看到幾十萬的閱讀量的文章後面區區幾個評論, 心中就在想, 難道大家現在都這麼懶了嗎? 但是有些文章閱讀量不高, 評論為什麼這麼多呢? 我想這些應該都是刷的, 不光瀏覽量是刷的, 甚至那些無厘頭的評論都是刷的。有人要問了, 你憑什麼說別人刷的評論呢? 難道評論還可...

網絡爬蟲 Python 瀏覽器 HTML Chrome XML Origin Windows NT Gecko WebKit Safari Windows Mozilla 文章操作系統讀書 2019-08-29

'Python爬蟲增加訪問量 '

" 看著自己少得可憐的訪問量，突然有一個想用爬蟲刷訪問量的想法，主要也是抱著嘗試的心態，學習學習。其實市面上有一些軟件可以代刷流量比如流量精靈，使用感確實比我們自己寫的代碼要好一些Python資源共享群：626017123第一版：網上借鑑了一下以下代碼運行在pytho...

Python 網絡爬蟲 Gecko Windows NT CSDN Windows WebKit Chrome Mozilla 瀏覽器 OS X Safari Firefox 軟件 Mac電腦英特爾 2019-08-29

推薦中...