網絡爬蟲的世界你不懂?

網絡爬蟲 編程語言 Python HTML 天才瘋子 2017-03-31
  • 網絡爬蟲(定義)網絡爬蟲的世界你不懂?

(又被稱為網頁蜘蛛,網絡機器人,在FOAF社區中間,更經常的稱為網頁追逐者,不常使用的名字還有螞蟻、自動索引、模擬程序或者蠕蟲)

是一種按照一定的規則,自動地抓取萬維網信息的程序或者腳本。

是一種“自動化瀏覽網絡”的程序,或者說是一種網絡機器人。

通俗來講就是:

把別人網站的信息弄到自己的電腦上,再做一些過濾,篩選,歸納,整理,排序等等,如果數據量足夠大,算法足夠好,能給別人提供優質的檢索服務,就可以做成類似google或baidu了

  • 應用

它們被廣泛用於互聯網搜索引擎或其他類似網站,以獲取或更新這些網站的內容和檢索方式。它們可以自動採集所有其能夠訪問到的頁面內容,以供搜索引擎做進一步處理(分檢整理下載的頁面),而使得用戶能更快的檢索到他們需要的信息。

  • 簡單介紹

網絡爬蟲的世界你不懂?

網絡爬蟲框架主要由控制器、解析器和索引庫三大部分組成,而爬蟲工作原理主要是解析器這個環節,解析器的主要工作是下載網頁,進行頁面的處理,主要是將一些JS腳本標籤、CSS代碼內容、空格字符、HTML標籤等內容處理掉,爬蟲的基本工作是由解析器完成。所以解析器的具體流程是:

入口訪問->下載內容->分析結構->提取內容

  • 如何進行

  • 網絡爬蟲的世界你不懂?

①分析爬蟲目標結構

(通過瀏覽器的開發者模式)

②實現爬蟲

(先安裝python,學會用第三方python庫,學會用python框架)

網絡爬蟲的世界你不懂?

感謝大家的閱讀,歡迎大家關注天才瘋子!

相關推薦

推薦中...