python爬蟲：常見的登陸方式

網絡爬蟲 Python GitHub Chrome 瀏覽器 Google 平地摔VS天然呆 2019-06-13

常見的登錄方式有以下兩種：

查看登錄頁面，csrf,cookie;授權；cookie
直接發送post請求,獲取cookie

上面只是簡單的描述，下面是詳細的針對兩種登錄方式的時候爬蟲的處理方法

第一種情況

這種例子其實也比較多，現在很多網站的登錄都是第一種的方法，這裡通過以github為例子：

分析頁面

獲取authenticity_token信息

我們都知道登錄頁面這裡都是一個form表單提交，我可以可以通過谷歌瀏覽器對其進行分析

如上圖我們找到了這個token信息

所以我們在登錄之前應該先通過代碼訪問這個登錄頁面獲取這個authenticity_token信息

獲取登陸頁面的cookie信息

set-cookie這裡是登錄頁面的cookie

分析登錄包獲取提交地址

當我們輸入用戶名和密碼之後點擊提交，我們可以從包裡找到如上圖的地址，就是post請求提交form的信息

請求的地址：https://github.com/session

請求的參數有：

"commit": "Sign in",

"utf8":"✓",

"authenticity_token":“KM6Q0mM9FtI95wYsI/WU3BnaMbYrmV60c0YTQlZjBuAuYa193LP2Gd8BTCmQBSFvPFZRlk3/1TFOnOgGUdy7Ig==”,

"login":"[email protected]",

"password":"123"

從這裡我們也可以看出提交參數中的“authenticity_token”，而這個參數就是需要我們從登陸頁面先獲取到。

當我們登錄成功後：

再次訪問github，這個時候cookie裡就增加了兩個cookie信息，而這個信息是登錄後在增加的信息

所以如果我們想要通過程序登錄，我們就需要在登錄成功後再次獲取cookie信息

然後通過這個cookie去訪問我們github的其他信息例如我們的個人信息設置頁面：

https://github.com/settings/profile

代碼實現

下面代碼實現了登錄並訪問https://github.com/settings/repositories

import requests
from bs4 import BeautifulSoup
Base_URL = "https://github.com/login"
Login_URL = "https://github.com/session"
def get_github_html(url):
 '''
 這裡用於獲取登錄頁的html，以及cookie
 :param url: https://github.com/login
 :return: 登錄頁面的HTML,以及第一次的cooke
 '''
 response = requests.get(url)
 first_cookie = response.cookies.get_dict()
 return response.text,first_cookie
def get_token(html):
 '''
 處理登錄後頁面的html
 :param html:
 :return: 獲取csrftoken
 '''
 soup = BeautifulSoup(html,'lxml')
 res = soup.find("input",attrs={"name":"authenticity_token"})
 token = res["value"]
 return token
def gihub_login(url,token,cookie):
 '''
 這個是用於登錄
 :param url: https://github.com/session
 :param token: csrftoken
 :param cookie: 第一次登錄時候的cookie
 :return: 返回第一次和第二次合併後的cooke
 '''
 data= {
 "commit": "Sign in",
 "utf8":"✓",
 "authenticity_token":token,
 "login":"你的github賬號",
 "password":"*****"
 }
 response = requests.post(url,data=data,cookies=cookie)
 print(response.status_code)
 cookie = response.cookies.get_dict()
 #這裡註釋的解釋一下，是因為之前github是通過將兩次的cookie進行合併的
 #現在不用了可以直接獲取就行
 # cookie.update(second_cookie)
 return cookie
if __name__ == '__main__':
 html,cookie = get_github_html(Base_URL)
 token = get_token(html)
 cookie = gihub_login(Login_URL,token,cookie)
 response = requests.get("https://github.com/settings/repositories",cookies=cookie)
 print(response.text)

第二種情況

這裡通過伯樂在線為例子，這個相對於第一種就比較簡單了，沒有太多的分析過程直接發送post請求，然後獲取cookie,通過cookie去訪問其他頁面,下面直接是代碼實現例子：

http://www.jobbole.com/bookmark/ 這個地址是隻有登錄之後才能訪問的頁面，否則會直接返回登錄頁面

這裡說一下：http://www.jobbole.com/wp-admin/admin-ajax.php是登錄的請求地址這個可以在抓包裡可以看到

import requests
def login():
 url = "http://www.jobbole.com/wp-admin/admin-ajax.php"
 data = {
 "action": "user_login",
 "user_login":"zhaofan1015",
 "user_pass": '******',
 }
 response = requests.post(url,data)
 cookie = response.cookies.get_dict()
 print(cookie)
 url2 ="http://www.jobbole.com/bookmark/"
 response2 = requests.get(url2,cookies=cookie)
 print(response2.text)
login()

做什麼事情都需要不斷地堅持下去，編程也一樣。現在python語言十分火熱，職場對python的需求也很高，薪資待遇都很棒。所以希望大家能夠堅持學習，‘剩’者為王，堅持下來的人才有資格稱王。如果你覺得本文對你的學習有幫助的話，不妨點個關注，我會持續更新。

相關推薦

'一文帶你瞭解爬蟲'

"前段時間我媽突然問我：兒子，爬蟲是什麼？我當時既驚訝又尷尬，驚訝的是為什麼我媽會對爬蟲好奇？尷尬的是我該怎麼給她解釋呢？一、爬蟲介紹1.爬蟲是什麼網絡爬蟲(web crawler 簡稱爬蟲)就是按照一定規則從互聯網上抓取信息的程序，既然是程序那和正常用戶訪問頁面有何區別？...

網絡爬蟲搜索引擎 Python 百度搜狗 Java 軟件 PHP 跳槽那些事兒 Linux Google 人生第一份工作騰訊 MySQL 中國鐵路客戶服務中心雅虎金山軟件 Perl 海豚美團網 Bing 天貓淘寶網 Ruby 螞蟻金服蟒蛇創業企鵝 2019-09-19

'Python網絡數據採集入門教程'

"在這篇文章中，我們將介紹Python提供的幾乎所有的網絡數據採集工具，你可以將本文看作是我們的《終極網絡數據採集指南》的系列文章。我們將從最基本的工具到最先進的工具進行介紹，並將涵蓋每一個的利弊。當然，我們並不能涵蓋我們討論的每個工具的所有方面，但是這篇文章應該足以讓你瞭...

Python 瀏覽器 Chrome HTML 文章 JavaScript JSON CSS Apache Nginx 操作系統 Reddit OS X 2019-09-19

'Python什麼情況下會生成 pyc文件？通過pyc文件瞭解Python運行原理'

"由於最近一位同學在做分佈式計算時，部分模塊只把 pyc文件拷貝部署至遠程計算節點，導致主節點程序更新後，計算節點拋出了錯誤異常，於是有了這篇文章...示例如下，有兩個py模塊，testops.py 與 testops_imported.py模塊。我們先來看 testops...

Python 分佈式計算 2019-09-18

'用Python實現進制轉換，這一篇教程就夠了！這也太完美了'

"前言Python 實現進制轉換一、導言導語：在計算機進行數據交換時，常常會有一個進制轉換的過程，我們知道計算機只認0 和 1.在內存系統中，基本基於二進制進行運算的，但是有時候數據過於龐大，為了方便存儲管理，計算機會使用十六進制存儲數據，但是怎麼實現數據轉換呢？我們人類由...

Python 電腦 C語言腳本語言工程師迪吉多 2019-09-18

'用 Python 寫一個安卓 APP'

"作者：youerning來源：http://youerning.blog.51cto.com/10513771/1733534前言用 Python 寫安卓 APP 肯定不是最好的選擇，目前用Java和 kotlin 寫的居多，但是肯定也是一個很偷懶的選擇，而且實在不想學習...

Python Android Java Linux Windows 虛擬機 Google Apache VirtualBox iOS Kotlin GitHub 設計 VMware 電腦 2019-09-18

'推薦十四款常見的Web前端開發框架以後別隻知道Bootstrap啦'

"在做web開發的時候經常會遇到一個問題，那就是，選擇什麼樣的框架來做前端開發。下面封程中把目前常用的一些前端的框架簡單的給大家介紹一下.1. BootstrapBoostrap絕對是目前最流行用得最廣泛的一款框架如上圖。它是一套優美，直觀並且給力的web設計工具包，可以用...

jQuery Apache 設計 JavaScript Flash 瀏覽器 iOS 技術 CSS HTML Adobe Systems 2019-09-17

'Python的概念化知識、優化技巧和常見算法性能優化（高級下篇）'

"6、字典實現原理CPython中使用偽隨機探測的散列表作為字典底層數據結構。只有可哈希對象才能作為字典的鍵。如果一個對象有一個在整個生命週期都不變的散列值，而且這個值可以與其他對象進行比較，那麼這個對象就是可哈希Python中所有不可變的內置類型都是可哈希的。可變（列表，...

Python 算法數據結構 XML 編譯器 2019-09-17

'Python中的Lambda，Map和Filter'

"今天的部分介紹了在Python中使用lambda，map和filter函數。我們將介紹每個的基本語法，並通過一些示例來熟悉使用它們。讓我們開始吧！*** Lambda***lambda運算符或lambda函數用於在Python中創建小型的、一次性的匿名函數對象基本語法la...

Python Java 2019-09-17

'8個用於業餘項目的優秀Python庫'

"這些庫可以使你更容易構架個人項目。在Python/Django的世界裡有這樣一個諺語：為語言而來，為社區而留。對絕大多數人來說的確是這樣的，但是，還有一件事情使得我們一直停留在Python的世界裡，不願離開，那就是我們可以很容易地利用一頓午餐或晚上幾個小時的時間，把一個想...

Python Django 數據庫 HTML XML 腳本語言 Java 機器學習搜索引擎編程語言 2019-09-16

'《What the f*ck Python!》那難以理解和反人類直覺的例子及原理'

"歡迎各位小哥哥小姐姐閱讀本<小生>的文章,對大家學習有幫助,請點贊加關注哦!!!!!!!!!!您的點贊和關注將是我持續更新的動力呢.^v^有不懂的問題可以私聊我哦!前言最近，發現了一個在GitHub關於Python的一個非常有趣的項目。這個項目叫《What t...

Python Calvin Klein JavaScript Stack Overflow 機器學習腳本語言 2019-09-16

'Python Requests作者另一神作，Records通用而優雅的數據庫訪問庫'

"我們在開發過程中經常涉及與數據庫進行交互，比如MySQL、Oracle、PostgreSQL、Sqlite，一般，我們使用其對應的Python 第三方模塊，實現相關數據庫操作，如下MySQL數據庫：mysql-connector，pymysql PostgreSQL數據庫...

數據庫 Python SQL MySQL HTML YAML PostgreSQL Excel 2019-09-16

'阿里在職架構師推出了的一份Python學習清單，這一定是你最需要的'

"站在風口上，豬都能飛起來。人工智能風口，讓Pyhon這門膠水語言轉變成非常火的網紅語言。編程功力深厚的程序員花一兩個星期就能上手Python，而一些新手程序員花幾個月就可以上手。學編程，用Python確實是一個相當不錯的選擇。不過，面對Python網上有紛雜的資料，一些程...

Python MySQL 數據庫 Linux 程序員讀書 Django 面向對象程序編程 CSS HTML JavaScript MongoDB jQuery 人工智能編程語言算法硬件物聯網路由器操作系統 2019-09-16

'亞馬遜運營中常見的10個誤區，該如何避免？'

"賣家朋友在運營店鋪中，會遇到各種各樣的問題。賣家在運營過程中，總有考慮不周到之處。下面為賣家朋友深入剖析亞馬遜店鋪運營中的10大誤區，及相應應對之策，避免大家踩雷。一、產品發了FBA，上架了，但依舊推不起來產品發了FBA後，一般會有購物車，但有賣家發現自己的產品發了FBA...

亞馬遜公司 Google 萬物嚐鮮節市場營銷 2019-09-16

'python爬蟲模擬微博登錄'

"微博模擬登錄這是本次爬取的網址：https://weibo.com/一、請求分析找到登錄的位置，填寫用戶名密碼進行登錄操作看看這次請求響應的數據是什麼這是響應得到的數據，保存下來exectime: 8nonce: "HW9VSX"pcid: "gz-4ede4c6269a...

Python 微博網絡爬蟲百度 2019-09-16

'PyPy是Python解釋器的替代品，某些 Python 程序來說會快很多倍'

"歡迎各位小哥哥小姐姐閱讀本<小生>的文章,對大家學習有幫助,請點贊加關注哦!!!!!!!!!!您的點贊和關注將是我持續更新的動力呢.^v^有不懂的問題可以私聊我哦!前言Python因其強大、靈活且易於使用等特性，而贏得了聲譽。這些優點使其在各種各樣的應用程序、...

Python 技術彙編語言機器學習讀書 2019-09-16

'VBA 會被 Python 代替嗎？'

"VBA和Python都可以處理Excel，VBA和Python各有什麼優勢?有傳言說，微軟會使用Python來替代VBA處理Excel，真的會替代麼？在知乎上看到這篇文章，我覺得分析得挺對的，特轉載一下，內容有所刪減。來源：https://zhuanlan.zhihu.c...

Python Excel 電腦微軟 Word 跳槽那些事兒設計軟件技術 PowerShell 人生第一份工作歷史程序設計數據結構財會人工智能金融 2019-09-16

'Python中的Requests模塊，星號和括號'

"requests模塊官方地址：https://github.com/psf/requests官方文檔：https://2.python-requests.org/en/master/用於http請求的模塊，用於網頁數據抓取七個主要方法Python資源共享群：62601...

Python JSON 2019-09-16

'為什麼有人說 Python 的多線程是雞肋？不是真正意義上的多線程？'

"歡迎各位小哥哥小姐姐閱讀本<小生>的文章,對大家學習有幫助,請點贊加關注哦!!!!!!!!!!您的點贊和關注將是我持續更新的動力呢.^v^有不懂的問題可以私聊我哦!問題：1、Python 多線程為什麼耗時更長？2、為什麼在 Python 裡面推薦使用多進程而不...

Python 機器學習中央處理器腳本語言網絡爬蟲 2019-09-15

'Python學習乾貨史上最全的 Python 爬蟲工具列表大全'

"這個列表包含與網頁抓取和數據處理的Python庫。網絡通用urllib -網絡庫(stdlib)。requests -網絡庫。grab – 網絡庫（基於pycurl）。pycurl – 網絡庫（綁定libcurl）。urllib3 – Python HTTP庫，安全連接池...

Python 網絡爬蟲 HTML Scrapy XML 瀏覽器 CSS XHTML jQuery C語言 JSON Excel 可視化技術 2019-09-15

'Python基礎學習教程系列講解——try_except異常處理機制'

"在Python編程中不可避免的會出現錯誤，在調試階段出現語法之類的錯誤時，Pycharm會在Debug窗口提示錯誤，但是程序在運行時由於內部隱含的問題而引起錯誤，會導致程序終止執行。比如以下例程中，使用urllib庫打開URL時由於網絡問題而發生了錯誤：import ur...

Python PyCharm 2019-09-15

推薦中...