Python用3條命令創建你的爬蟲

編程語言 Python 網絡爬蟲 GitHub IT技術Java交流 2017-05-24

Python3爬蟲工具

Mini-Spider是一個實用的爬蟲工具，它的意義在於快速獲得你所要的資源，而不用去關注諸如爬蟲構造、數據存儲、網絡環境、語言實現等一系列的事情。現在你只需要簡單的幾個命令，就可以創建一個爬蟲，並完成你的任務！

GitHub地址:MIni-Spider

https://github.com/ZYunH/Mini-Spider

對於大部分的剛剛開始使用Python的開發人員，創建一個爬蟲並不是一件容易的事情。通常來說，一個完整的小型爬蟲也至少需要以下的特性：

正確的提取程序（正則表達式以及一些解析html網頁的python庫）
合理的錯誤處理程序（爬蟲經常遇見各種錯誤，例如SSL驗證錯誤、超時、頭文件錯誤等等）
數據的持久性（你需要保存相應的文件、提取的鏈接，對於一些資源型文件你可能還需要一個下載器）
使用Mini-Spider你就可以忽略這些煩人的事情。

相比於普通的爬蟲，Mini-Spider不需要你去制定提取規則、錯誤處理、數據存儲。

你需要做的僅僅是告訴Mini-Spider你需要提取什麼和這些資源的位置！

.安裝

安裝Mini-Spider只需要在終端中輸入一條命令。（對於windows是cmd.exe，Linux&mac是terminal）

注意：Mini-Spider僅僅支持python3.x，如果沒有下載python3的童鞋請去官網下載

https://www.python.org/downloads/

Python用3條命令創建你的爬蟲

使用

現在Mini-Spider還不夠完善，但對於一些簡單的需求往往具有非常高的效率。

例如在一個論壇中提取圖片這項工作亦或是在所有的單位通知中尋找一些文件這些功能，Mini-Spider僅需要幾條命令即可。

這裡，以提取蜂鳥網的圖片為例來介紹如何使用Mini-Spider。

示例中的爬蟲實際上可以在蜂鳥網的任意帖子使用，因為需要提取的格式都是一樣的，這意味著使用Mini-Spider創建出來的爬蟲往往可以重複使用，儘管創建他們僅需要兩條命令。

示例網址：http://bbs.fengniao.com/forum/9373824.html

Python用3條命令創建你的爬蟲

這是示例的帖子，現在通過幾個簡單的命令來將他們全部提取。

1）在終端中輸入

-a 命令的作用是分析該網站，並查找html 以及 jpg 資源

Python用3條命令創建你的爬蟲

得到輸入

Python用3條命令創建你的爬蟲

2）可以通過觀察以上輸出發現

[0]組的所有元素是我們需要提取的版主圖片

[11]組的第(2)個元素是下一個頁面的地址

下面來創建提取他們的提取器

Python用3條命令創建你的爬蟲

-c 0 代表創建提取[0]組所有元素的提取器

-to r 標識該提取器得到的數據是資源數據（也就是我們需要提取的圖片）

Python用3條命令創建你的爬蟲

-c 11 2 代表創建提取[11]組的第二個元素的提取器

-to u 標識該提取器得到的數據是下一個頁面的地址（也就是爬取得下一個目標）

3）開始提取

現在爬蟲已經創建完畢！

我們僅需一個命令開始爬取

Python用3條命令創建你的爬蟲

-start http://bbs.fengniao.com/forum/9373824.html 命令代表從該URL開始爬取

可以看到爬蟲遍歷了該帖子所有頁面，並提取到了21張圖片

4）下載

下面將這些圖片下載到我們的計算機上

Python用3條命令創建你的爬蟲

download hereresult 代表將數據庫中的資源地址內容全部下載到result文件上（here代表運行路徑，單層目錄不需要加斜槓或反斜槓，多層目錄例如在Unix上可以使用hereresult/first）

如此，我們在當前路徑的文件result中看到所有圖片

Python用3條命令創建你的爬蟲

.循環利用你的爬蟲

創建出來的爬蟲其實僅僅是兩個提取器文件，即

Python用3條命令創建你的爬蟲

屏幕快照 2017-05-22 20.34.02.png

只要擁有這兩個提取器文件，你就可以在任何時候任何地方使用它。

例如，提取蜂鳥網的任意帖子，你可以這樣做

$ mini-spider -start [你需要的帖子的鏈接]

然後下載他們

$ mini-spider -download hereresult

（hereresult可以省略，如果省略這意味著你將他們下載到當前目錄下，這樣可能會導致目錄文件過多而混亂）

下面嘗試提取另一個帖子

http://bbs.fengniao.com/forum/9602611.html

$ mini-spider -start http://bbs.fengniao.com/forum/9602611.htmlurl: 1/33||resource: 5/26url: 1/34||resource: 5/26url: 0/34||resource: 5/26

然後下載

$ mini-spider -download

完成！

詳細查看https://github.com/ZYunH/Mini-Spider

學習過程中遇到什麼問題或者想獲取學習資源的話，歡迎加入學習交流群

626062078，我們一起學Python！

相關推薦

'一文帶你瞭解爬蟲'

"前段時間我媽突然問我：兒子，爬蟲是什麼？我當時既驚訝又尷尬，驚訝的是為什麼我媽會對爬蟲好奇？尷尬的是我該怎麼給她解釋呢？一、爬蟲介紹1.爬蟲是什麼網絡爬蟲(web crawler 簡稱爬蟲)就是按照一定規則從互聯網上抓取信息的程序，既然是程序那和正常用戶訪問頁面有何區別？...

網絡爬蟲搜索引擎 Python 百度搜狗 Java 軟件 PHP 跳槽那些事兒 Linux Google 人生第一份工作騰訊 MySQL 中國鐵路客戶服務中心雅虎金山軟件 Perl 海豚美團網 Bing 天貓淘寶網 Ruby 螞蟻金服蟒蛇創業企鵝 2019-09-19

'用Python實現進制轉換，這一篇教程就夠了！這也太完美了'

"前言Python 實現進制轉換一、導言導語：在計算機進行數據交換時，常常會有一個進制轉換的過程，我們知道計算機只認0 和 1.在內存系統中，基本基於二進制進行運算的，但是有時候數據過於龐大，為了方便存儲管理，計算機會使用十六進制存儲數據，但是怎麼實現數據轉換呢？我們人類由...

Python 電腦 C語言腳本語言工程師迪吉多 2019-09-18

'用 Python 寫一個安卓 APP'

"作者：youerning來源：http://youerning.blog.51cto.com/10513771/1733534前言用 Python 寫安卓 APP 肯定不是最好的選擇，目前用Java和 kotlin 寫的居多，但是肯定也是一個很偷懶的選擇，而且實在不想學習...

Python Android Java Linux Windows 虛擬機 Google Apache VirtualBox iOS Kotlin GitHub 設計 VMware 電腦 2019-09-18

'阿里在職架構師推出了的一份Python學習清單，這一定是你最需要的'

"站在風口上，豬都能飛起來。人工智能風口，讓Pyhon這門膠水語言轉變成非常火的網紅語言。編程功力深厚的程序員花一兩個星期就能上手Python，而一些新手程序員花幾個月就可以上手。學編程，用Python確實是一個相當不錯的選擇。不過，面對Python網上有紛雜的資料，一些程...

Python MySQL 數據庫 Linux 程序員讀書 Django 面向對象程序編程 CSS HTML JavaScript MongoDB jQuery 人工智能編程語言算法硬件物聯網路由器操作系統 2019-09-16

'python爬蟲模擬微博登錄'

"微博模擬登錄這是本次爬取的網址：https://weibo.com/一、請求分析找到登錄的位置，填寫用戶名密碼進行登錄操作看看這次請求響應的數據是什麼這是響應得到的數據，保存下來exectime: 8nonce: "HW9VSX"pcid: "gz-4ede4c6269a...

Python 微博網絡爬蟲百度 2019-09-16

'Python學習乾貨史上最全的 Python 爬蟲工具列表大全'

"這個列表包含與網頁抓取和數據處理的Python庫。網絡通用urllib -網絡庫(stdlib)。requests -網絡庫。grab – 網絡庫（基於pycurl）。pycurl – 網絡庫（綁定libcurl）。urllib3 – Python HTTP庫，安全連接池...

Python 網絡爬蟲 HTML Scrapy XML 瀏覽器 CSS XHTML jQuery C語言 JSON Excel 可視化技術 2019-09-15

'用Python控制Excel實現自動化辦公！附全套學習教程'

"1.安裝2.操作一個簡單的Excel文檔操作註釋及代碼：操作完成後，數據存儲結果如下：3. 操作簡單Excel文檔並添加數據格式操作代碼如下：附帶數據格式的定義操作效果如圖所示：4.Excel中添加不同類型的數據操作代碼如下：將不同的數據按照指定的格式添加到文件中代碼執行...

Excel Python 2019-09-15

'入門Python，總遇到這樣那樣的安裝問題，手把手教會你'

"轉發本文並私信我"python"，即可獲得Python資料以及更多系列文章(持續更新的)最近有挺多小夥伴問我要入門 Python 的資料，還有小夥伴完全沒有入門 Python 就直接購買了我的 pandas 專欄。因此我決定寫幾篇 Python 數據處理分析必備的入門知識...

Python 腳本語言 Windows 電腦操作系統文章 2019-09-15

'他只靠Python就找到了一份年薪50W的工作，有了這套教程你也可以'

"Python現在非常火，語法簡單而且功能強大，很多同學都想學Python！所以小的給各位看官們準備了高價值Python學習視頻教程及相關電子版書籍，歡迎前來免費領取！1我沒在超大型公司待過，但是作為一個python愛好者和使用者，簡單說一下自己的想法。（1）一定要掌握計算...

Python 英語技術電腦 Git 算法多看閱讀人生第一份工作數學 Linux 數據庫數據結構 HTML5 Vim 上海網絡爬蟲北上廣操作系統 JavaScript 數據挖掘網易有道軟件工程 2019-09-14

'Python黑客實戰編程--3分鐘教你如何暴力破解FTP服務器口令'

"很多關注我的小夥伴在上篇文章裡學習到了如何利用python去破解加密的ZIP壓縮文件，感覺很有意思，就有很多小夥伴問我有沒有利用python腳本實現FTP服務器口令的暴力破解，今天小編就以此篇文章內容給小夥伴們普及一下如何利用python編程腳本暴力破解ftp服務器口令!...

Python 黑客腳本語言文章人生第一份工作 2019-09-14

'為啥子這麼多人開始學Python？看完這些你就清楚了'

"Python具有豐富和強大的庫。它常被暱稱為膠水語言，能夠把用其他語言製作的各種模塊（尤其是C/C++）很輕鬆地聯結在一起。在小編看來，基本上可以負責任地認為，Python 可以做任何事情。無論是從入門級選手到專業級數據挖掘、科學計算、圖像處理、人工智能，Python 都...

Python 人工智能編程語言 0verflow Stack Overflow 數據挖掘 Google 圖像處理 Excel 機器學習 C語言 Java 微軟 GitHub 程序員電腦腳本語言 Facebook 人生第一份工作設計 2019-09-14

'金九銀十，你準備好了嗎？沒點Python面試題乾貨怎麼行？（一）'

"職場人沒有不知道：金三銀四，金九銀十的說法兒吧，今天干貨奉上，100個Python面試高頻題目。一. 遇到過得反爬蟲策略以及解決方法?1.通過headers反爬蟲2.基於用戶行為的發爬蟲：(同一IP短時間內訪問的頻率)3.動態網頁反爬蟲(通過ajax請求數據，或者通過J...

Python Scrapy 人生第一份工作 Redis HTML 數據庫網絡爬蟲 JavaScript 瀏覽器 jQuery 跳槽那些事兒 2019-09-13

'圖解Numpy精翻版，一文帶你入門Python數據處理'

"本文精心翻譯自Jay Alammar的博客：https://jalammar.github.io/visual-numpy/，其用圖解的方式詳細介紹了 NumPy的功能和使用示例。NumPy 是 Python 生態中數據分析、機器學習和科學計算的基礎。它極大地簡化了向量和...

Python 機器學習算術數據結構廣播 2019-09-13

'Java和Python，我該選哪個？10年的大牛為你詳細解析兩種崗位前景'

"聲明：這是一篇容易引起撕逼的文章，為了祖國和諧，人民安康，請各位看官儘量理性討論。同時，這篇文章是面向一些初入行的朋友進行一些相對中肯一點的分析和建議而已，雖然有濃厚的個人色彩，但我還是儘量以事實說話，以代碼說話，大牛們就不要拿自己的牛逼經驗來這裡裝逼了，當然，你如果非得...

Java Python 技術編程語言程序員算法設計文章 2019-09-12

'寫python爬蟲，不會正則怎麼行呢？另贈學習資料'

"導讀：正則在各語言中的使用是有差異的，本文以 Python 3 為基礎。本文主要講述的是正則的語法，對於 re 模塊不做過多描述，只會對一些特殊地方做提示。很多人覺得正則很難，在我看來，這些人一定是沒有用心。其實正則很簡單，根據二八原則，我們只需要懂 20% 的內容就可以...

Python 網絡爬蟲 Java 百度 2019-09-12

'用Python處理了數據還要導入Excel做圖表？直接Python做漂亮圖表'

"請關注本號，後續會有更多相關教程。轉發本文並私信我"python"，即可獲得按水平領域分類好的Python資料系列文章"替代Excel Vba"系列（一）：用Python的pandas快速彙總"Python替代Excel Vba"系列（二）：pandas分組統計與操作Ex...

Python Excel 腳本語言可視化技術 2019-09-10

'玩手機不如自學一下Python，清華1000集視頻教程大彙總無償送給你'

"Python一句話概括：需要拿著遊標卡尺學習的語言python是一款服務器端解釋型開源非編譯腳本語言。它常被暱稱為膠水語言，能夠把用其他語言製作的各種模塊（尤其是C/C++）很輕鬆地聯結在一起。Python的優勢：Python學習簡單，被譽為“最易學習的語言”。Pytho...

Python MySQL Django Git Linux jQuery 物聯網人工智能 JavaScript C語言數據庫清華大學 HTML CSS 黑客機器學習人民的名義 MongoDB 大數據 Java 腳本語言路由器編程語言硬件算法操作系統 2019-09-10

'看完本文若還不能讓你學通python，我願永久退出編程界'

"0基礎小白怎麼學Python？今天給大家分享一些學習Python的基本概念圖，入門書籍、視頻教程以及學習路上最有效的方法。Python基本概念最全圖1.Python 解釋器：2.Python數據結構：3.變量與運算符：4.Python 流程控制：5.Python 文件處理...

Python 程序員工程師機器學習跳槽那些事兒數據結構網絡爬蟲 2019-09-10

'Python爬蟲入門並不難，進階也很簡單！只需要這13個階段就夠了'

"互聯網的數據爆炸式的增長，而利用 Python 爬蟲我們可以獲取大量有價值的數據：（分享一套完整的爬蟲學習教程，免費獲取方式在文末哦）1.爬取數據，進行市場調研和商業分析爬取知乎優質答案，篩選各話題下最優質的內容；抓取房產網站買賣信息，分析房價變化趨勢、做不同區域的房價...

Python 網絡爬蟲 Scrapy 數據庫瀏覽器知乎新聞豆瓣網 CSS HTML 人生第一份工作推薦技術騰訊機器學習 2019-09-10

推薦中...