python爬蟲，登陸神器之Selenium程序演示

Python 網絡爬蟲 Chrome 瀏覽器 HTML 鼠標 Windows CSS 平地摔VS天然呆 2019-05-30

前面幾篇介紹了下Selenium幹什麼用的，怎麼安裝Selenium和WebDriver，這篇就來個簡單演示程序讓它run起來，看代碼領會精神是比較直接的。

Python Selenium的運行原理

上代碼前，再囉嗦下Selenium是怎麼運行起來，跟WebDriver是什麼關係。

我們安裝的Selenium Python庫提供了一系列接口(API)，比如鼠標點擊，拖動，填寫輸入框等等。

上一篇我們安裝的WebDriver是chrome瀏覽器的chromedriver，是用來跟瀏覽器保持通信，就是當你調用API時，要靠這個driver來把消息傳遞給瀏覽器，瀏覽器才能響應你。

當你運行程序後，driver會以進程的方式常駐在內存中，如果是windows用戶，你在任務管理器的進程中會看到chromedriver.exe這個進程。

Python Selenium演示程序

我們使用瀏覽器一般會做以下幾件事情：

1.打開一個網頁

2.鼠標在頁面上滑動 **

**3.點擊一個鏈接

4.在不同網頁(tab)間切換

5.在表單(輸入框)中填寫信息，並提交

6.打開網頁後，希望能自動讀取cookies(實現自動登錄等行為)

我們來寫段小程序演示一下1,2,3,5，至於切換tab和cookies管理我們另開文章說明。這段程序演示打開猿人學首頁，並來回滑動頁面，然後點擊頁面右上角的搜索圖標，輸入“Python教程”後回車。

代碼在Python3.6版本中調試通過。囉嗦完了該上代碼了。

#coding=utf-8
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
import time
#打開Chrome瀏覽器
driver = webdriver.Chrome(executable_path="C:/chromedriver.exe")
#瀏覽器最大化
driver.maximize_window()
#打開猿人學首頁
driver.get('https://www.yuanrenxue.com')
time.sleep(3)
#滑動到頁面中間處
driver.execute_script("window.scrollTo(0,document.body.scrollHeight/2)")
time.sleep(3)
#滑動到頁面最下方
driver.execute_script("window.scrollTo(0,document.body.scrollHeight)")
time.sleep(3)
#滑動到頁面最上方
driver.execute_script("window.scrollTo(0,0)")
time.sleep(3)
#通過html的class屬性來定位鏈接位置，並點擊
driver.find_element_by_class_name('slide-left').click()
time.sleep(3)
#定位頁面右上角的搜索圖標並點擊
driver.find_element_by_class_name('search-show').click()
#找到輸入框
search = driver.find_element_by_class_name("search-input")
#輸入 Python教程
search.send_keys(u'python教程')
time.sleep(7)
#回車
search.send_keys(Keys.RETURN)
time.sleep(5)
driver.quit()

看完演示過程，我們再來回顧一下操作步驟。

首先是要調用Chrome()方法打開瀏覽器。

然後是調用get()方法打開網站。

剩下的事情就是開始模擬鼠標和鍵盤行為了。

頁面滑動是靠執行JS代碼來實現的，那個代碼可以直接拷貝使用。

點擊鏈接前，你先要定位到這個元素(鏈接)，怎麼定位元素？

我們上面的例子是靠找html class屬性來實現的，調用的find_element_by_class_name()方法來定位元素的class name，還可以靠xpath，靠css，靠class id來定位，這都要針對你具體的網站來選擇，選擇依據就是怎麼方便怎麼來，後面我們再具體聊這塊，具體的我們在下一篇文章中聊。

向輸入框中輸入字符並回車也很簡單。

先定位到輸入框，然後調用send_keys()方法輸入。

注意這裡只能輸入unicode，輸utf，gbk編碼字符串是要報錯的。

總結：

1.上面所有的函數調用都是從 from selenium import webdriver 這個包裡調用的，我們要操作的相關API基本都在這裡面。

2.點擊鏈接，在輸入框裡輸入字符等操作，要先定位到這個元素處。

3.定位元素的方法有很多：xpath ,css ,class id,class name都可以。

4.程序運行完了要記得調用driver.quit()退出，不然chromedriver.exe進程不會自己退出，反覆這樣運行程序的話，內存裡就會有好幾個chromedriver.exe。

思考：

上面每個幾行代碼我都加了time.sleep()這是為什麼？

一個原因是為了演示流程更清晰，在每個操作步驟處停留幾秒，觀看更清楚。

第二個原因是：我們知道打開一個網頁後瀏覽器會加載一段時間，根據網絡情況，加載時間有快有慢，在資源還沒有加載完的情況下，我們去定位元素有可能是定位不到的，這時就會報錯。所以讓它停留一段時間來加載資源。

其實selenium是有自己的等待函數的，這裡先用time.sleep()來簡單代替。

相關推薦

'python爬蟲模擬微博登錄'

"微博模擬登錄這是本次爬取的網址：https://weibo.com/一、請求分析找到登錄的位置，填寫用戶名密碼進行登錄操作看看這次請求響應的數據是什麼這是響應得到的數據，保存下來exectime: 8nonce: "HW9VSX"pcid: "gz-4ede4c6269a...

Python 微博網絡爬蟲百度 2019-09-16

'PyPy是Python解釋器的替代品，某些 Python 程序來說會快很多倍'

"歡迎各位小哥哥小姐姐閱讀本<小生>的文章,對大家學習有幫助,請點贊加關注哦!!!!!!!!!!您的點贊和關注將是我持續更新的動力呢.^v^有不懂的問題可以私聊我哦!前言Python因其強大、靈活且易於使用等特性，而贏得了聲譽。這些優點使其在各種各樣的應用程序、...

Python 技術彙編語言機器學習讀書 2019-09-16

'Python學習乾貨史上最全的 Python 爬蟲工具列表大全'

"這個列表包含與網頁抓取和數據處理的Python庫。網絡通用urllib -網絡庫(stdlib)。requests -網絡庫。grab – 網絡庫（基於pycurl）。pycurl – 網絡庫（綁定libcurl）。urllib3 – Python HTTP庫，安全連接池...

Python 網絡爬蟲 HTML Scrapy XML 瀏覽器 CSS XHTML jQuery C語言 JSON Excel 可視化技術 2019-09-15

'寫python爬蟲，不會正則怎麼行呢？另贈學習資料'

"導讀：正則在各語言中的使用是有差異的，本文以 Python 3 為基礎。本文主要講述的是正則的語法，對於 re 模塊不做過多描述，只會對一些特殊地方做提示。很多人覺得正則很難，在我看來，這些人一定是沒有用心。其實正則很簡單，根據二八原則，我們只需要懂 20% 的內容就可以...

Python 網絡爬蟲 Java 百度 2019-09-12

'Python爬蟲入門並不難，進階也很簡單！只需要這13個階段就夠了'

"互聯網的數據爆炸式的增長，而利用 Python 爬蟲我們可以獲取大量有價值的數據：（分享一套完整的爬蟲學習教程，免費獲取方式在文末哦）1.爬取數據，進行市場調研和商業分析爬取知乎優質答案，篩選各話題下最優質的內容；抓取房產網站買賣信息，分析房價變化趨勢、做不同區域的房價...

Python 網絡爬蟲 Scrapy 數據庫瀏覽器知乎新聞豆瓣網 CSS HTML 人生第一份工作推薦技術騰訊機器學習 2019-09-10

'Python全棧之路系列之元組數據類型'

"元組(tuple)和列表的唯一區別就是列表可以更改，元組不可以更改，其他功能與列表一樣創建元組的兩種方法第一種ages = (11, 22, 33, 44, 55)第二種ages = tuple((11, 22, 33, 44, 55))如果元祖內只有一個元素，那麼需要加...

Python 2019-09-09

'「Python爬蟲」如何爬取翻頁url不變的網站'

"之前打算爬取一個圖片資源網站，但是在翻頁時發現它的url並沒有改變，無法簡單的通過request.get()訪問其他頁面。據搜索資料，瞭解到這些網站是通過ajax動態加載技術實現。即可以在不重新加載整個網頁的情況下，對網頁的某部分進行更新。幫忙轉發，關注，私信小編Pyth...

Python 網絡爬蟲瀏覽器 XML JSON 程序員操作系統 2019-09-09

'人見人愛的最新 Python 爬蟲利器'

"文 | 過了即是客編輯 | EarlGrey推薦 | 編程派公眾號（ID：codingpy）Python上有一個非常著名的HTTP庫——requests，相比大家都聽說過，用過的人都說好！現在requests庫的作者又發佈了一個新庫，叫做requests-html，看名字...

Python HTML 網絡爬蟲 Links CSS TeX 2019-09-09

'python面試題之@classmethod, @staticmethod, @property？'

"回答背景知識這些都是裝飾器（decorator）。裝飾器是一種特殊的函數，要麼接受函數作為輸入參數，並返回一個函數，要麼接受一個類作為輸入參數，並返回一個類。@標記是語法糖（syntactic sugar），可以讓你以簡單易讀得方式裝飾目標對象。@my_decorator...

Python 人生第一份工作 2019-09-07

'各大網站中的爬蟲Python是怎樣出來的——基礎'

"一、需求:抓取主頁面：百度百科Python詞條 https://baike.baidu.com/item/Python/407313分析上面的源碼格式，便於提取：關鍵詞分析:位於class為lemmaWgt-lemmaTitle-title的dd元素的第一個h1標籤內...

Python 網絡爬蟲 HTML 瀏覽器 PyCharm Mozilla XML 百度百科 2019-09-06

'Python爬蟲：bilibili彈幕爬取與比對分析'

"最近受人之託研究了下b站的數據爬取做個小工具，最後朋友說不需要了，本著開源共享的原則，將研究成果與大家分享一波，話不多說直接上乾貨需求分析給定up主uid和用戶uid，爬取用戶在該up主所有視頻中發的所有彈幕 #pgc-card .pgc-card-href { ...

Bilibili Python 網絡爬蟲 XML 數據庫算法 Google 瀏覽器 JSON 百度鏡音雙子 2019-09-05

'Python逆轉未來之職業發展規劃'

"相關公司研發部門構成技術總監產品研發產品人員設計人員技術研發前端開發（HTML5、IOS、Android）後端開發（Java、PHP、Python、Go）爬蟲開發數據分析機器學習運維測試（白盒測試、黑盒測試）Python的職業發展和成長路徑方向 web方...

Python Linux 人生第一份工作技術算法工程師設計網絡爬蟲機器學習數據庫 HTML5 iOS Android Java PHP 2019-09-05

'比Excel的查找替換功能強大得多，Python數據處理神器，pandas'

"轉發本文並私信我"python"，即可獲得Python資料以及更多系列文章(持續更新的)經常聽別人說 Python 在數據領域有多厲害，結果學了很長時間，連數據處理都麻煩得要死。後來才發現，原來不是 Python 數據處理厲害，而是他有數據分析神器—— pandas前言E...

Excel Python 2019-09-03

'自學爬蟲分佈式，我需要掌握哪些Python基礎？附贈視頻資料'

"接觸爬蟲已經有一段時間了，常常有人問我：我會點Python，想自學爬蟲，你看用什麼方法好呢？我：我喜歡邊做項目邊學習，爬取過程中遇到問題再百度，擴展xx：我看了網上教材，過程很簡略，最後給了一個編碼，有的我實例一下好像還不成功我：代碼也會“過期”，尤其是爬蟲，需要自己修改...

Python 網絡爬蟲騰訊QQ 2019-09-01

'python:教你用爬蟲通過代理自動刷網頁的瀏覽量'

"前言每當看到幾十萬的閱讀量的文章後面區區幾個評論, 心中就在想, 難道大家現在都這麼懶了嗎? 但是有些文章閱讀量不高, 評論為什麼這麼多呢? 我想這些應該都是刷的, 不光瀏覽量是刷的, 甚至那些無厘頭的評論都是刷的。有人要問了, 你憑什麼說別人刷的評論呢? 難道評論還可...

網絡爬蟲 Python 瀏覽器 HTML Chrome XML Origin Windows NT Gecko WebKit Safari Windows Mozilla 文章操作系統讀書 2019-08-29

'Python爬蟲增加訪問量 '

" 看著自己少得可憐的訪問量，突然有一個想用爬蟲刷訪問量的想法，主要也是抱著嘗試的心態，學習學習。其實市面上有一些軟件可以代刷流量比如流量精靈，使用感確實比我們自己寫的代碼要好一些Python資源共享群：626017123第一版：網上借鑑了一下以下代碼運行在pytho...

Python 網絡爬蟲 Gecko Windows NT CSDN Windows WebKit Chrome Mozilla 瀏覽器 OS X Safari Firefox 軟件 Mac電腦英特爾 2019-08-29

'python爬蟲入門，10分鐘就夠了，這可能是我見過最簡單的基礎教學'

"一、基礎入門1.1什麼是爬蟲爬蟲(spider，又網絡爬蟲)，是指向網站/網絡發起請求，獲取資源後分析並提取有用數據的程序。從技術層面來說就是通過程序模擬瀏覽器請求站點的行為，把站點返回的HTML代碼/JSON數據/二進制數據（圖片、視頻）爬到本地，進而提取自己需要的...

Python 網絡爬蟲瀏覽器 HTML XML 數據庫 JSON CSS 技術 Redis MySQL 2019-08-29

'重點！python爬蟲教程：爬蟲的基本流程'

"爬蟲的基本流程1.發起請求：通過HTTP庫向目標站點發起請求，即發送一個Request，請求可以包含額外的headers等信息，然後等待服務器響應。這個請求的過程就像我們打開瀏覽器，在瀏覽器地址欄輸入網址：www.baidu.com，然後點擊回車。這個過程其實就相當於瀏覽...

網絡爬蟲 Python 瀏覽器數據庫 Windows 信息安全 HTML JSON WebKit Mozilla Safari Chrome Windows NT Gecko MP4 百度 2019-08-28

'圖形界面讓代碼運行更加直觀，python模塊之Tkinter 顯示篇'

"在日常操作中，我們使用軟件基本都是直接利用鼠標點擊操作，但是編程中我們往往是使用鍵盤進行操作的，這樣的操作其實對於一名程序員來說沒有什麼問題，但是如果你想讓自己寫的程序給別人使用，除了考慮別人電腦環境之外，一個能夠讓別人操作方便的圖形化界面顯然也挺重要的。那麼我們有哪些模...

Python 軟件程序員操作系統鼠標電腦 2019-08-28

'乾貨 | 十分鐘帶你從入門到進階python爬蟲'

"程序員的戀愛保證書1、對你不離不棄，憐惜你，心疼你，保護你2、做你的趴耳朵，不和你爭吵，不對你發脾氣3、做你的妻管嚴，對你死心塌地，始終如一，絕不三心二意4、一起做家務，一起逛菜市場，一起討價還價，一起做飯，學會做可口的飯菜一、基礎入門1.1什麼是爬蟲爬蟲(spider，...

Python 網絡爬蟲程序員瀏覽器 XML HTML 數據庫 JSON CSS Redis 技術 MySQL 2019-08-23

推薦中...