網絡爬蟲，如何做到 “盜亦有道” ？

網絡爬蟲法律 Scrapy Python 安卓網hiapk 2017-05-23

網絡爬蟲的實質，其實是從網絡上“偷”數據。通過網絡爬蟲，我們可以採集到所需要的資源，但是同樣，使用不當也可能會引發一些比較嚴重的問題。

因此，在使用網絡爬蟲時，我們需要做到“盜亦有道”。

網絡爬蟲主要分為以下三類：

小規模，數據量小，爬取速度不敏感；對於這類網絡爬蟲我們可以使用Requests庫來實現，主要用於爬取網頁；
中規模，數據規模較大，爬取速度敏感；對於這類網絡爬蟲我們可以使用Scrapy庫來實現，主要用於爬取網站或系列網站；
大規模，搜索引擎，爬取速度關鍵；此時需要定製開發，主要用於爬取全網，一般是建立全網搜索引擎，如百度、Google搜索等。

在這三種中，我們最為常見的是第一種，大多數均是小規模的爬取網頁的爬蟲。

對於網絡爬蟲，也有很多反對聲音。因為網絡爬蟲會不停的向服務器發出請求，影響服務器性能，對服務器產生騷擾行為，並加大了網站維護者的工作量。

除了對服務器的騷擾外，網絡爬蟲也有可能引發法律風險。因為服務器上的數據有產權歸屬，如果將該數據用於牟利的話，將會帶來法律風險。

此外，網絡爬蟲也可能會造成用戶的隱私洩露。

簡而言之，網路爬蟲的風險主要歸於以下三點：

對服務器的性能騷擾
內容層面的法律風險
個人隱私的洩露

因此，網絡爬蟲的使用需要有一定的規則。

在實際情況中，一些較大的網站都對網絡爬蟲進行了相關限制，整個互聯網上也將網絡爬蟲視為可規範的功能來看待。

對於一般的服務器來講，我們可以通過2種方式來限制網絡爬蟲：

如果網站的所有者有一定的技術能力，可以通過來源審查來限制網絡爬蟲。

來源審查，一般通過判斷User-Agent來進行限制，本篇文章著重介紹第2種。

通過Robots協議來告訴網絡爬蟲需要遵守的規則，哪些可以爬取，哪些是不允許的，並要求所有的爬蟲遵守該協議。

第2種是以公告的形式告知，Robots協議是建議但非約束性，網絡爬蟲可以不遵守，但可能會存在法律風險。通過這兩種方法，互聯網上形成了對網絡爬蟲的道德和技術上的有效限制。

那麼，我們在編寫網絡爬蟲時，就需要去尊重網站的維護人員對網站資源的管理。

互聯網上，部分網站沒有Robots協議，所有數據都可以爬取；不過，絕大多數的主流網站都支持Robots協議，有做相關限制，下面就具體介紹下Robots協議的基本語法。

Robots協議（Robots Exclusion Standard，網絡爬蟲排除標準）：

作用：網站告知網絡爬蟲哪些頁面可以爬取，哪些不行。

形式：在網站根目錄下的robots.txt文件。

Robots協議的基本語法：*代表所有，/代表根目錄。

比如，PMCAFF的Robots協議

User-agent: * Disallow: /article/edit Disallow: /discuss/write Disallow: /discuss/edit

第1行中User-agent:*，是指所有的網絡爬蟲都需要遵守如下協議；

第2行中Disallow: /article/edit，是指所有的網絡爬蟲都不允許訪問article/edit下的內容，其他同理。

如果觀察京東的Robots協議，可以看到下面有User-agent: EtaoSpider，Disallow: /，其中EtaoSpider是惡意爬蟲，不允許其爬取京東的任何資源。

User-agent: *  Disallow: /?*  Disallow: /pop/*.html  Disallow: /pinpai/*.html?*  User-agent: EtaoSpider  Disallow: /  User-agent: HuihuiSpider  Disallow: /  User-agent: GwdangSpider  Disallow: /  User-agent: WochachaSpider  Disallow: /

有了Robots協議後，可以對網站的內容做個規範，告訴所有的網絡爬蟲哪些可以爬取，哪些不允許。

需要特別注意的是，Robots協議都是存在根目錄下的，不同的根目錄可能Robots協議是不一樣的**，**在爬取時需要多加留意。

網絡爬蟲，“盜亦有道”。

參考資料：中國大學MOOC課程，Python網絡爬蟲與信息提取

相關推薦

'BigHit官宣：否認BTS田柾國的戀愛傳聞，並警告所有網絡鍵盤俠'

"深度解析韓國K-POP文化，歡迎搜索“80後馬里奧”的更多精彩文章！對於平日裡日程非常緊湊的韓國愛豆歌手來說，“假期”可能是所有人夢寐以求的“黃金時間”。不過聚集著超高人氣為一身的頂級愛豆就未必會如此了。因為這些頂級愛豆無論在世界上的哪個地方現身，都會被一大幫粉絲們一眼認...

戀愛文章法國真愛至上韓國歌手法律巴黎 2019-09-19

'如何認定結構化信託中優先級受益人與劣後級受益人之間的關係?'

"來源：民商事裁判規則特別提示：凡本號註明“來源”或“轉自”的作品均轉載自媒體，版權歸原作者及原出處所有。所分享內容為作者個人觀點，僅供讀者學習參考，不代表本號觀點。裁判要旨一、結構化信託中，劣後級受益人承擔信託到期後向優先級受益人返還本金並支付固定收益的義務，雙方為借款...

投資眾和股份陝國投A 法律張宇信用記錄關愛日上海民法 2019-09-19

'貪小利吃大虧瓊海一女子輕信網絡刷單被騙1.3萬元'

"南海網、南海網客戶端瓊海9月16日消息(南海網記者韓星)9月16日，記者從瓊海市公安局獲悉，為進一步遏制電信網絡詐騙違法犯罪勢頭的蔓延，提高市民防騙意識，瓊海警方公佈兩起常見電詐騙局，提醒廣大市民甄別並做好防範。案例一網絡刷單類詐騙9月13日，瓊海市一女子加入一服裝銷...

瓊海信用卡電信法律支付寶 2019-09-19

'手遊行業“世界中心”：天寒地凍的北歐是如何創造奇蹟？'

"按照華爾街的說法，一個估值超過10億美元的公司即可被稱為獨角獸（Unicorn）。按照這個標準，在遊戲行業，北歐可以說是獨角獸們的聚集地：芬蘭的Supercell（估值102億美元）、Rovio（上市市值10億美元），瑞典的Mojang（估值25億美元）、King（59億...

跳槽那些事兒人生第一份工作瑞典芬蘭 Rovio娛樂文化冰島赫爾辛基英國學前教育挪威丹麥韓國小遊戲我的世界加利福尼亞憤怒的小鳥市場營銷糖果粉碎傳奇 EA DICE Mojang 法律蘋果公司 Qfennudexiaoniao Qbuluochongtu 2019-09-19

'一文帶你瞭解爬蟲'

"前段時間我媽突然問我：兒子，爬蟲是什麼？我當時既驚訝又尷尬，驚訝的是為什麼我媽會對爬蟲好奇？尷尬的是我該怎麼給她解釋呢？一、爬蟲介紹1.爬蟲是什麼網絡爬蟲(web crawler 簡稱爬蟲)就是按照一定規則從互聯網上抓取信息的程序，既然是程序那和正常用戶訪問頁面有何區別？...

網絡爬蟲搜索引擎 Python 百度搜狗 Java 軟件 PHP 跳槽那些事兒 Linux Google 人生第一份工作騰訊 MySQL 中國鐵路客戶服務中心雅虎金山軟件 Perl 海豚美團網 Bing 天貓淘寶網 Ruby 螞蟻金服蟒蛇創業企鵝 2019-09-19

'私家偵探如何盯梢：4個人2臺車24小時跟蹤5天，處處小心“被發現了，至少打折一條腿。”'

"作者|孟繁勇編輯|崔世海原標題《私家偵探局中局》私家偵探，是一個在公眾看來頗為神祕的職業。商業調查、債務清償、取證等，但只有三成的業務和上述有關。調查業務七成的單子，其實是涉及“女小三”和“插足男”的婚外情。那個男子30歲左右，短髮精幹，進入商場內設的一家咖啡廳。私家...

投資濟南酒店法律人生第一份工作法務會計師發現佩奇知識產權青島山東 2019-09-19

'Python網絡數據採集入門教程'

"在這篇文章中，我們將介紹Python提供的幾乎所有的網絡數據採集工具，你可以將本文看作是我們的《終極網絡數據採集指南》的系列文章。我們將從最基本的工具到最先進的工具進行介紹，並將涵蓋每一個的利弊。當然，我們並不能涵蓋我們討論的每個工具的所有方面，但是這篇文章應該足以讓你瞭...

Python 瀏覽器 Chrome HTML 文章 JavaScript JSON CSS Apache Nginx 操作系統 Reddit OS X 2019-09-19

'打官司時，法院是如何對證據審查的？被告不說話，可以判決嗎？'

"大家都知道，當事人在打官司的過程當中，法院都會要求其提供一定的證據來證明自己的訴訟成立。但是很多人都會以為證據就是指物證。那麼今天我們來說一下證據的重要性，證據都有哪些種類？法院又是如何審核證據的？沒有口供其他證據管用嗎？一、法院認定的證據類型1、首先就是當事人自己的口...

法律刑法 2019-09-18

'網絡黑公關已形成地下產業鏈犯罪成本低取證卻很難'

"來源：法制日報揪出幕後金主掃除網絡黑惡勢力明碼標價替客戶詆譭對手多家企業遭遇網絡黑公關專家呼籲□ 本報記者張維一股來自網絡世界的黑惡勢力,正在侵蝕著互聯網秩序。這就是日漸浮出水面的“網絡黑公關”。近日,一段關於抹黑美團及其CEO王興的價目表在網絡中傳播,並引發公眾熱議。...

美團網移動互聯網王興文章騰訊法律法制日報陳磊刑法人生第一份工作鹽城中國政法大學江蘇黑社會大豐中國人民大學阿里巴巴集團新聞政治萬達集團 2019-09-18

'機器人火熱背後，下一步會如何？行業專家這些觀點值得一看'

"2019年9月16日，由中國機電一體化應用協會指導，CIRS組委會和中國機器人網、中國機電一體化應用協會智能機器人分會共同主辦的第九屆中國國際機器人高峰論壇在中國上海召開，一千多名來自全國各地的行業專家以及學者出席了本次會議。中國機器人網CEO趙勇、中國機電一體化應用協會...

機器人人工智能機械電子技術高峰李亞平上海能源法律環境保護操作系統經濟復星國際 2019-09-18

'新中國70年人權事業發展如何？看事實'

"新中國開創了中國人權事業發展的新紀元，尤其是改革開放和黨的十八大以來，中國人權事業快速前行，實現了跨越式發展，取得了歷史性成就。國家的獨立和主權得到有效保障。新中國成立後，中國政府廢除了西方列強強加給中國的不平等條約，肅清帝國主義國家在華特權和勢力，維護了國家主權，捍衛了...

民主醫療保險農村憲法文化義務教育經濟中國歷史歷史法律兩會頭號大贏家| 理財大賽第二季養老保險 2019-09-18

'如何確定要不要離婚？心理學家教你用一分鐘看清婚姻結局'

"從婚姻發展的角度來看，怎麼樣子適合離婚？我們說一段婚姻走到結束，或者是我們看到婚姻產生各種各樣矛盾衝突的時候，我們很多人會考慮離婚。就像今天有一個客戶和我說她要離婚，她說她老公在外面劈腿了，她老公對她不好，現在對她做的事情令人髮指，做的什麼事情呢？就是和她在一起心在不俺，...

不完美媽媽戀愛婚外情法律 2019-09-18

'貨幣信用，與人如何控制自己的行為有關'

"實際上，今天大多數發達國家並沒有徹底採用自由放任的做法，在經濟上都仍有著一定的政府幹預。由於自由放任和自由市場兩者都是相當理想化的觀念，一些學者批評自由放任的財產權理論，認為它有著對私人利益高於公共利益的不恰當偏見，市場的調整機制是無法妥善處理市場失靈的狀況的，因此需要一...

經濟法律政治原汁原味的德系SUV 2019-09-18

'網貸平臺是怎麼通過網絡仲裁的方式追回欠款的？'

" 有人認為,只是5000元而已，這沒什麼大不了的，最大的後果不就是催收嗎？只要我不回短信，不接電話，他們還能拿我怎樣？1、借5000元逾期半年會有什麼後果？前兩日，卡友謝某某突然收到了當地法院寄來的一系列執行文書，包括執行通知書、執行裁定書、報告財產令、財產申報表等。其...

信用記錄關愛日法律刑法 2019-09-18

'司法機關對非法集資款如何處理？哪些要追繳？怎樣清退？'

"司法機關對非法集資款應當在審判完畢後，按照集資人的出資情況退還給集資人，由於非法集資行為是我國法律上嚴格禁止的，在對非法集資情況進行處理後，必須要對非法集資款進行退還處理。一、司法機關對非法集資款如何處理？對案件偵查審判完畢後，對追繳回的款項，按被集資人的集資額比例，扣除...

刑法法律民法 2019-09-18

'遭受暴力威脅放棄遺產繼承的行為效力如何？'

"遺產繼承的糾紛總是在現實社會中不斷地上演。我們常常看到兄弟姐妹因為父母死後留下的財產，而爭論不休甚至是大打出手的。那在現實生活中因遭受暴力威脅而放棄遺產繼承的行為效力如何呢？律師對話第535期邀請到劉豔梅律師為大家解答，接下來讓我們一起看一下劉豔梅律師的對話內容。一、如何...

法律民法 2019-09-18

'拆遷陷阱大PK，如何區分“誤拆”與“違法強拆”'

"■點擊右上角【關注】“賈素飛征地拆遷律師”頭條號，私信回覆“諮詢”，即可享有一對一法律服務諮詢。■徵地拆遷律師四有新標準：有專長；有態度；有口碑；有人情味來源：張志同北京京潤律師；僅供學習交流使用近年來，“暴力式”徵收呈現下降趨勢，然而“誤拆”或“誤碰式”強拆卻呈明顯上...

法律刑法人生第一份工作廣東江蘇 2019-09-17

'有償刪帖有可能構成犯罪網絡″刪帖中介″被檢方批捕'

" “兄弟,又來活了。”隨著信息,一條鏈接出現在胡某的QQ對話框裡,他轉手就發送給了米某。對於他們來說,點點鼠標,充當“刪帖中介”,有償幫人在網上刪帖,就能輕輕鬆鬆把錢賺,沒想到卻觸犯了刑法。日前,兩人因涉嫌非法經營罪被上海市嘉定區檢察院批准逮捕。男子當“刪帖中介”賺外...

刑法上海法律天津 4月吃什麼 2019-09-17

'多動症？不要輕易給孩子扣帽子：專家教你如何判斷多動和焦慮'

"很多父母帶孩子去看心理醫生都是因為孩子在學校的表現不好。當搜索引擎被髮明出來以後，很多家長都會根據孩子表現出來的行為，去搜索對應病症。但其實這並不科學，也不夠準確。所以，當你對孩子的行為有疑惑時，不如直接像醫生尋求建議。事實上，擔憂孩子的學習是家長尋求心理治療或從合格的專...

不完美媽媽跳槽那些事兒玩具新生兒法律 2019-09-17

'產研專家學者集聚一堂談機器人未來會如何？落地產業或是出路'

機器人人工智能機械電子技術經濟高峰李亞平投資上海復星國際能源法律操作系統 2019-09-17

推薦中...