接上一篇原理
更新策略
互聯網是實時變化的動態性極強
網頁更新的策略主要是
決定何時更新之前已經下載過的頁面
更新策略分以下幾種供參考
分佈式抓取系統結構
取系統需要面對的是整個互聯網上數以億計的網頁
單個抓取 抓程序不可能完成這樣的任務
所以往往需要多個抓取程序一起來處理
一般來說抓取系統往往是一個分佈式的三層結構
如圖
最下一層是分佈在不同地理位置的數據中心
在每個數據中心裡有若干臺抓取服務器
而每臺抓取服務器上可能部署了若干套爬蟲程序
這就構成了一個基本的分佈式抓取系統。
然而對於一個數據中心內的不同抓取服務器
協同工作的方式有幾種:
1.主從式
如圖
有一臺專門的Master服務器來維護待抓取URL隊列
它負責每次將URL分發到不同的Slave服務器
而Slave服務器則負責實際的網頁下載工作
Master服務器除了維護待抓取URL隊列以及分發URL之外,還要負責調解各個Slave服務器的負載情況
以免某些Slave服務器過於清閒或者勞累。
2.對等式
如圖
學習過程中遇到什麼問題或者想獲取學習資源的話,歡迎加入學習交流群
626062078,我們一起學Python!
相關推薦
'Python什麼情況下會生成 pyc文件?通過pyc文件瞭解Python運行原理'
"由於最近一位同學在做分佈式計算時,部分模塊只把 pyc文件拷貝部署至遠程計算節點,導致主節點程序更新後,計算節點拋出了錯誤異常,於是有了這篇文章...示例如下,有兩個py模塊,testops.py 與 testops_imported.py模塊。我們先來看 testops...
'Python中的Lambda,Map和Filter'
"今天的部分介紹了在Python中使用lambda,map和filter函數。我們將介紹每個的基本語法,並通過一些示例來熟悉使用它們。讓我們開始吧!*** Lambda***lambda運算符或lambda函數用於在Python中創建小型的、一次性的匿名函數對象基本語法la...
'《What the f*ck Python!》那難以理解和反人類直覺的例子及原理'
"歡迎各位小哥哥小姐姐閱讀本<小生>的文章,對大家學習有幫助,請點贊加關注哦!!!!!!!!!!您的點贊和關注將是我持續更新的動力呢.^v^有不懂的問題可以私聊我哦!前言最近,發現了一個在GitHub關於Python的一個非常有趣的項目。這個項目叫《What t...
'Python Requests作者另一神作,Records通用而優雅的數據庫訪問庫'
"我們在開發過程中經常涉及與數據庫進行交互,比如MySQL、Oracle、PostgreSQL、Sqlite,一般,我們使用其對應的Python 第三方模塊,實現相關數據庫操作,如下MySQL數據庫:mysql-connector,pymysql PostgreSQL數據庫...
'python爬蟲模擬微博登錄'
"微博模擬登錄這是本次爬取的網址:https://weibo.com/一、請求分析找到登錄的位置,填寫用戶名密碼進行登錄操作看看這次請求響應的數據是什麼這是響應得到的數據,保存下來exectime: 8nonce: "HW9VSX"pcid: "gz-4ede4c6269a...
'Python中的Requests模塊,星號和括號'
"requests模塊官方地址:https://github.com/psf/requests官方文檔 :https://2.python-requests.org/en/master/用於http請求的模塊 ,用於網頁數據抓取七個主要方法Python資源共享群:62601...
'Python基礎學習教程系列講解——try_except異常處理機制'
"在Python編程中不可避免的會出現錯誤,在調試階段出現語法之類的錯誤時,Pycharm會在Debug窗口提示錯誤,但是程序在運行時由於內部隱含的問題而引起錯誤,會導致程序終止執行。比如以下例程中,使用urllib庫打開URL時由於網絡問題而發生了錯誤:import ur...
'用Python控制Excel實現自動化辦公!附全套學習教程'
"1.安裝2.操作一個簡單的Excel文檔操作註釋及代碼:操作完成後,數據存儲結果如下:3. 操作簡單Excel文檔並添加數據格式操作代碼如下:附帶數據格式的定義操作效果如圖所示:4.Excel中添加不同類型的數據操作代碼如下:將不同的數據按照指定的格式添加到文件中代碼執行...
推薦中...