使用Python爬百度閱讀（並推薦本書）

編程語言百度閱讀 Python JSON 勰門歪道 2017-06-02

在「百度閱讀」上購買了一本《創新公司：皮克斯的啟示》電子書，但坑爹的發現百度閱讀 APP 的體驗實在渣。於是就想看看是不是可以把電子書爬下來，放到 kindle 裡面讀。

一開始以為這本書就是睡前讀物，沒讀一會就發現這貨絕對是管理方法乾貨，尤其是對需要創造性的團隊管理。

使用Python爬百度閱讀（並推薦本書）

創新公司：皮克斯的啟示， [美] 艾德·卡特姆 / 埃米·華萊士著，靳婷婷譯，中信出版社， 2015 年 2 月

接下來進入正題，如何使用 Python 爬取「百度閱讀」中的內容。

環境準備

Python 2.7.6：我偷懶用的是 MacBook Pro 系統自帶的版本；
requests 庫: 用於獲取「百度閱讀」返回的數據（安裝傳送門點擊文末閱讀原文）。

抓取過程

整個過程大概分三個部分：

抓取數據
解析數據
組裝存儲數據

1 抓取數據

一開始我想簡單了，以為「百度閱讀」的數據都是寫在靜態頁面裡的（如果不是低估這個事情的複雜度，我應該就不會做這個事情了）。然後查看源碼一看傻眼了，小說的數據是異步加載過來的。

我 Google 了好一陣技能：

在 Chrome 中用 contrl + command + i 打開「開發者工具」，切換到 network 下刷新「百度閱讀」，逐一查看 XHR 和 script 兩個類。

在 script 分類下有個 jsonp 請求是小說內容，請求的地址是：

http://wenku.baidu.com/content/49422a3769eae009581becba?m=8ed1dedb240b11bf0731336eff95093f&type=json&cn=1&_=1&t=1423309200&callback=wenku7

如果把地址裡面的 callback=wenku7 去掉，返回的就是一個 json 字符串，這樣解析起來就簡單多了。

2 解析數據

get 到這些信息後，就可以利用 requests 獲取 json 數據，把數據打印處理研究後發現，json 的節點主要是 t 屬性和 c 屬性，t 屬性是用來定義 html 標籤的，例如 div 、 p、 h 等等。而電子書的內容都在 c 屬性內。

但 C 屬性的值有兩種類型，一種就是電子書內容，另一種則是另一個列表，裡面又包含了 t 屬性和 c 屬性（嵌套關係）。

對於這種簡單的嵌套關係關係使用遞歸函數基本就解決了。

3 組裝存儲數據

解析完 json 的結構，直接用 file.write() 講電子書的內容保存為本地的 .txt 文件。然後再用一個比較好用的電子書轉換工具：「calibre」，將.txt 文件轉成 .mobi 和 .epub 格式。

至此整個過程就結束了，完整的代碼如下（因為隱私原因隱藏了 cookie 信息）。

#coding: utf8

小結

代碼基本是以實用主義出發了，是能用就行，後面遇到實用過程中問題再急需優化。
慣例：需要《創新公司》電子書，可以到公號：「勰門歪道」回覆創新公司獲取；

推薦閱讀：公眾號如何做到0.16RMB一個新增用戶

上篇文章：我們為什麼讀書？| 推薦三本書

相關推薦

'學習PythonforDataScience:如何科學的使用Python'

"Python for Data Science是數據分析領域專業人士必須學習的東西。隨著IT行業的發展，對熟練數據科學家的需求急劇增加，Python已經發展成為最受歡迎的編程語言。通過這篇博客，您將學習基礎知識，如何分析數據，然後使用Python創建一些漂亮的可視化。這篇...

Python 可視化技術機器學習腳本語言瀏覽器算術 Guido 算法筆記本電腦 2019-09-14

'使用Python代替Excel做數據分析已成，抓緊學，趕上第一波熱潮'

"我是個只會用Excel的數據分析工作者。有一天，我和朋友約好晚上一起吃飯，離下班還有5分鐘，老闆突然Q我：老闆：你今天加個班我：好呀好呀老闆：我有幾個Excel,需要你把它們合成一張表我：好呀好呀老闆：給！你自己看著辦吧！我懷著忐忑的心情打開了一個神祕的壓縮包：912個C...

Python Excel 數據庫機器學習跳槽那些事兒軟件可視化技術工程師電腦鼠標人生第一份工作 2019-09-13

'使用IDA Python尋找二進制漏洞'

"本文介紹瞭如何通過 IDA Python 腳本來實現對棧溢出漏洞的檢測，並以 ascii_easy 一道 PWN 基礎題為例來實戰。介紹Python資源共享群：626017123IDAPython 是一個用於複雜逆向工程任務的強大的自動化工具。儘管有很多文章介紹了用 ID...

Python 腳本語言六貫棋文章操作系統 2019-09-10

'揭祕為什麼應使用 Python 開展科學研究'

"您可能很難相信，Python 編程語言竟然不是一種新語言，實際上，它比 Java™ 語言甚至 HTTP 還要成熟。但不幸的是，人們長期以來一直對 Python 存在某些誤解，比如認為 Python 速度緩慢。這種誤解的根源在於，使用解釋器和標準 Python（使用名為 C...

Python Fortran Octave C語言 MATLAB Java 編譯器 GPU 超級計算機編程語言中央處理器英特爾 GNU 英偉達可視化技術 2019-09-09

'「Python爬蟲」如何爬取翻頁url不變的網站'

"之前打算爬取一個圖片資源網站，但是在翻頁時發現它的url並沒有改變，無法簡單的通過request.get()訪問其他頁面。據搜索資料，瞭解到這些網站是通過ajax動態加載技術實現。即可以在不重新加載整個網頁的情況下，對網頁的某部分進行更新。幫忙轉發，關注，私信小編Pyth...

Python 網絡爬蟲瀏覽器 XML JSON 程序員操作系統 2019-09-09

'用本書中游戲學Python基礎，再看這兩本書，可掌握Python3的全部'

"在之前的內容裡，我給大家介紹了Python的相關遊戲，然而，相對於Python3的版本，很多書籍並不適合基礎薄弱的學習者。所以，今天給大家推薦這三本書，從用遊戲入門Python→到Python2和3版本的轉換→再到深入Python3學習，有這三本書就足夠了。第一本書：用1...

Python 文章 Word 動畫小遊戲井字棋 2019-09-07

'Python爬蟲：bilibili彈幕爬取與比對分析'

"最近受人之託研究了下b站的數據爬取做個小工具，最後朋友說不需要了，本著開源共享的原則，將研究成果與大家分享一波，話不多說直接上乾貨需求分析給定up主uid和用戶uid，爬取用戶在該up主所有視頻中發的所有彈幕 #pgc-card .pgc-card-href { ...

Bilibili Python 網絡爬蟲 XML 數據庫算法 Google 瀏覽器 JSON 百度鏡音雙子 2019-09-05

'30行Python代碼爬取Wifi密碼，我的手機沒有卡，上網全靠它！真香'

"平時下班或者放學回到家，很多人喜歡打打遊戲看看電影，但是一個月30天，經常流量不夠用，有很多人就裝上了Wifi，但是卻經常被別人連自家的，然後打遊戲看電影卡頓就很煩，但是自己又沒有辦法知道別人家的Wifi，很難受。這種情況該怎麼辦呢？別怕，我們又Python這個強大的編程...

Wi-Fi Python 電腦技術數據庫無線網卡編程語言 2019-09-04

'Python中循環操作和Numpy數組運算性能優化——Numba使用介紹'

"直到遇到Numba，才知道“一行代碼讓Python的運行速度提高100倍” 的論調，並不是譁眾取寵。Numba Numba最初是由Continuum Analytics內部開發，此公司也開發了著名的Anaconda，但現在它是開源的。Numba是Python的即時編譯器...

Python Linux GitHub Fortran Continuum GPU 中央處理器 ARM 數值算法 Windows 編譯器超微半導體 LLVM 2019-09-03

'使用Python進行機器學習的假設檢驗（附鏈接&代碼）'

"作者：Jose Garcia翻譯：張睿毅校對：張一豪本文約3800字，建議閱讀10分鐘。作者給出了假設檢驗的解讀與Python實現的詳細的假設檢驗中的主要操作。也許所有機器學習的初學者，或者中級水平的學生，或者統計專業的學生，都聽說過這個術語，假設檢驗。我將簡要介紹一下這...

Python 機器學習讀書大學 2019-09-03

'斯坦福教授推薦：從python入門到精通看這三本書就夠了！附PDF版'

"今天給大家推薦三本書，有兩本是屬於一個系列，即《Python核心編程》第二版和第三版，一本講基礎和一本講進階，非常適合Python的初學者和有一定基礎的學習者。還有一本書適合所有想學Python編程的學習者，書中十分易用且豐富的功能，一定會給你帶來不一樣的收穫，這本書的名...

Python 斯坦福大學數據庫面向對象程序編程泛函編程歷史 2019-08-30

'使用 Python 處理 JSON 格式的數據'

"如果你不希望從頭開始創造一種數據格式來存放數據，JSON 是一個很好的選擇。如果你對 Python 有所瞭解，就更加事半功倍了。下面就來介紹一下如何使用 Python 處理 JSON 數據。-- Seth Kenlon（作者）JSON 的全稱是 JavaScript 對象...

JSON Python JavaScript 數據結構編程語言 2019-08-29

'使用Python加速數據分析的10個小技巧'

"本文列舉了一些使用Python和Jupyter Notebook的技巧，討論瞭如何輕鬆分析數據以及如何進行格式化編碼、輸出和調試等操作。作者：讀芯術在編程領域，有時一個小技巧就能節省大量時間，甚至能起到救命的效果。這些“必殺技”往往能在未來的數據分析中發揮重大作用。1. ...

Python LaTeX GitHub 腳本語言筆記本電腦 HTML 可視化技術大熊貓 2019-08-29

'python程序員，80%以上是看這本書入門python'

"經數據分析，這麼多人都是看這本書入門python的為什麼有這麼多人學python？1、python入門容易，是編程語言中能最快入門的2、python很強大、應用範圍廣，就業選擇多........當然，python的優點很多，分析python已就業程序員發現，他們大多都是看...

Python 程序員 2019-08-28

'清華學霸用這本書自學Python，7天編寫了12個遊戲，堪稱寶藏書籍'

"學習Python的人，總會到處尋找資料，比如這裡看點視頻，那裡看點文章，但最後依然學不好Python。因為缺乏系統的學習，對於基礎較差的學習者總是不那麼容易的。我今天介紹的這本書會對剛剛入門的Python摯友起到一個指引方向，它會用生動形象的遊戲來塑造代碼有趣的靈魂，讓代...

Python 清華大學跳槽那些事兒軟件文章 2019-08-28

'《瘋狂Python講義》，終於，這本書徹底玩大了！！！'

"Python越來越牛了？自從連續半年拿下TOP1編程語言後，無論是薪資還是招聘需求，都越來越多了！我發現只要我推送Python相關的文章，大家就紛紛提問：小姐姐，我該不該學Python？如何學Python？鑑於大家都有這方面的困惑，今天就給大家推薦一本巨有影響力的Pyth...

Python 網絡爬蟲 Scrapy 程序員大數據京東商城編程語言 JSON 數據庫招聘合金彈頭 2019-08-28

'推薦：一個適合於Python新手的入門練手項目'

"源：Python熱愛者隨著人工智能的興起，國內掀起了一股Python學習熱潮，入門級編程語言，大多選擇Python，有經驗的程序員，也開始學習Python，正所謂是人生苦短，我用Python。有個Python入門練手項目，一直沒有和大家推薦過，這個開源項目還是一本書，這本...

Python Java JavaScript 數據庫程序員 Git NoSQL Ruby 人工智能 HTML 編程語言 CSS 瀏覽器 FLOW 網絡爬蟲 GitHub 設計軟件計步器 Origin 電腦軟件設計可視化技術 2019-08-28

'「手把手教你」使用Python實現統計套利'

"文章轉載自公眾號人工智能量化實驗室，作者 Frankie的賬號一、交易對象選取我們以商品期貨市場的螺紋鋼品種的跨期套利為例，選取兩組不同到期月份的同種商品期貨合約作為交易對象。相關性檢驗通過新浪財經的期貨數據接口爬取螺紋鋼rb1903到rb1908的六組數據，先看一...

Python JSON 期貨社交網絡新浪 2019-08-27

'超詳細的Python標準庫介紹與基本使用方式！（附python教程分享）'

"《python標準庫》目錄：Python 標準庫概覽概覽操作系統接口os 模塊提供了很多與操作系統交互的函數:應該用 import os 風格而非 from os import *。這樣可以保證隨操作系統不同而有所變化的 os.open() 不會覆蓋內置函數 open()...

Python 操作系統腳本語言 UNIX 算法數學 2019-08-23

'學透這13個Python爬蟲，這天下將沒有你爬不到的數據'

"Python簡直就是萬能的，你用Python都做過哪些事？用網頁看各大網站的VIP視頻，用python下載？用Python玩跳一跳，跳到50000分？過年過節各大親友群、紅包群搶紅包還用Python？（PS: 有正在學習或者想要學習的寶寶、私信小編“學習”即可免費領取學習...

Python 網絡爬蟲程序員 Scrapy 人工智能編程語言技術大數據英語讀書 Redis 2019-08-23

推薦中...