先來看看我們要下載的圖片(美女哦!)
本次下載使用的是Python 3.5 + BeautifulSoup4 + requests 組合
第一步:
先看看要爬取的網站是否允許爬取(遵守互聯網規則):
在瀏覽器輸入要爬取的網站首頁地址,加上robots.txt,例如:
www.baidu.com/robots.txt 將中間的baidu換成你要爬取的網站
本次要爬取的網站robots協議如下:
可以看到,並未禁止對網站上圖片的爬取
第二步:
分析網頁源碼:
在圖片上點鼠標右鍵,選擇“審查元素”,即可在瀏覽器中查看當前圖片的地址:
<div class=”content”>
<center>
<img …>
</center>
</div>
第三步:
根據圖片地址,制定爬取規則:
讀取網頁,將源代碼傳入BeautifulSoup中,通過其中一些方法,找到圖片地址和名稱
Img_addr = soup.find(“div”, class_=”content”).find(“center”).find_all(“img”)
第四步:
爬取圖片,並保存在本地
源代碼如下:
本地結果:
是不是很神奇呢?
總結:這次寫的代碼還可以簡化、改進,這裡只是做一個小小的演示。在爬取過程中,還會遇到有多個分頁、反爬取、動態加載等問題,上面的代碼遇到這些問題就不適合使用了。希望大家喜歡,謝謝。
相關推薦
'Python什麼情況下會生成 pyc文件?通過pyc文件瞭解Python運行原理'
"由於最近一位同學在做分佈式計算時,部分模塊只把 pyc文件拷貝部署至遠程計算節點,導致主節點程序更新後,計算節點拋出了錯誤異常,於是有了這篇文章...示例如下,有兩個py模塊,testops.py 與 testops_imported.py模塊。我們先來看 testops...
'Python中的Lambda,Map和Filter'
"今天的部分介紹了在Python中使用lambda,map和filter函數。我們將介紹每個的基本語法,並通過一些示例來熟悉使用它們。讓我們開始吧!*** Lambda***lambda運算符或lambda函數用於在Python中創建小型的、一次性的匿名函數對象基本語法la...
'《What the f*ck Python!》那難以理解和反人類直覺的例子及原理'
"歡迎各位小哥哥小姐姐閱讀本<小生>的文章,對大家學習有幫助,請點贊加關注哦!!!!!!!!!!您的點贊和關注將是我持續更新的動力呢.^v^有不懂的問題可以私聊我哦!前言最近,發現了一個在GitHub關於Python的一個非常有趣的項目。這個項目叫《What t...
'Python Requests作者另一神作,Records通用而優雅的數據庫訪問庫'
"我們在開發過程中經常涉及與數據庫進行交互,比如MySQL、Oracle、PostgreSQL、Sqlite,一般,我們使用其對應的Python 第三方模塊,實現相關數據庫操作,如下MySQL數據庫:mysql-connector,pymysql PostgreSQL數據庫...
'python爬蟲模擬微博登錄'
"微博模擬登錄這是本次爬取的網址:https://weibo.com/一、請求分析找到登錄的位置,填寫用戶名密碼進行登錄操作看看這次請求響應的數據是什麼這是響應得到的數據,保存下來exectime: 8nonce: "HW9VSX"pcid: "gz-4ede4c6269a...
'Python中的Requests模塊,星號和括號'
"requests模塊官方地址:https://github.com/psf/requests官方文檔 :https://2.python-requests.org/en/master/用於http請求的模塊 ,用於網頁數據抓取七個主要方法Python資源共享群:62601...
'Python基礎學習教程系列講解——try_except異常處理機制'
"在Python編程中不可避免的會出現錯誤,在調試階段出現語法之類的錯誤時,Pycharm會在Debug窗口提示錯誤,但是程序在運行時由於內部隱含的問題而引起錯誤,會導致程序終止執行。比如以下例程中,使用urllib庫打開URL時由於網絡問題而發生了錯誤:import ur...
'用Python控制Excel實現自動化辦公!附全套學習教程'
"1.安裝2.操作一個簡單的Excel文檔操作註釋及代碼:操作完成後,數據存儲結果如下:3. 操作簡單Excel文檔並添加數據格式操作代碼如下:附帶數據格式的定義操作效果如圖所示:4.Excel中添加不同類型的數據操作代碼如下:將不同的數據按照指定的格式添加到文件中代碼執行...
推薦中...