Python爬蟲：大規模爬取喜馬拉雅電臺詳細音頻數據

編程語言 Python 網絡爬蟲 NoSQL 布咯咯 2017-06-19

一：前言

本次爬取的是喜馬拉雅的熱門欄目下全部電臺的每個頻道的信息和頻道中的每個音頻數據的各種信息，然後把爬取的數據保存到mongodb以備後續使用。這次數據量在70萬左右。音頻數據包括音頻下載地址，頻道信息，簡介等等，非常多。

二：運行環境

IDE：Pycharm 2017
Python3.6
pymongo 3.4.0
requests 2.14.2
lxml 3.7.2
BeautifulSoup 4.5.3

三：實例分析

首先進入這次爬取的主頁面 www.ximalaya.com/dq/all/ ，可以看到每頁12個頻道，每個頻道下面有很多的音頻，有的頻道中還有很多分頁。 抓取計劃：循環84個頁面，對每個頁面解析後抓取每個頻道的名稱，圖片鏈接，頻道鏈接保存到mongodb。

Python爬蟲：大規模爬取喜馬拉雅電臺詳細音頻數據

2.打開開發者模式，分析頁面，很快就可以得到想要的數據的位置。下面的代碼就實現了抓取全部熱門頻道的信息，就可以保存到mongodb中。

Python爬蟲：大規模爬取喜馬拉雅電臺詳細音頻數據

３.下面就是開始獲取每個頻道中的全部音頻數據了，前面通過解析頁面獲取到了美國頻道的鏈接。比如我們進入www.ximalaya.com/6565682/album/237771　這個鏈接後分析頁面結構。可以看出每個音頻都有特定的ID，這個ID可以在一個div中的屬性中獲取。

Python爬蟲：大規模爬取喜馬拉雅電臺詳細音頻數據

4.接著點擊一個音頻鏈接，進入開發者模式後刷新頁面然後點擊XHR，再點擊一個json鏈接可以看到這個就包括這個音頻的全部詳細信息。

Python爬蟲：大規模爬取喜馬拉雅電臺詳細音頻數據

5.上面只是對一個頻道的主頁面解析全部音頻信息，但是實際上頻道的音頻鏈接是有很多分頁的。

Python爬蟲：大規模爬取喜馬拉雅電臺詳細音頻數據

6.全部代碼

完整代碼地址github.com/rieuse/learnPython

Python爬蟲：大規模爬取喜馬拉雅電臺詳細音頻數據

7.如果改成異步的形式可以快一點，只需要修改成下面這樣就行了。我試了每分鐘要比普通的多獲取近100條數據。這個源代碼也在github中。

Python爬蟲：大規模爬取喜馬拉雅電臺詳細音頻數據

五：總結

這次抓取的數據量很多，後續可以進行很多研究。比如播放量排行榜，時間區段排行，等等。後續我繼續學習跟進。

貼出我的github地址，我的爬蟲代碼和學習的基礎部分都放進去了，有喜歡的朋友可以點擊 start follw一起學習交流吧！github.com/rieuse/learnPython

相關推薦

'「Python爬蟲」如何爬取翻頁url不變的網站'

"之前打算爬取一個圖片資源網站，但是在翻頁時發現它的url並沒有改變，無法簡單的通過request.get()訪問其他頁面。據搜索資料，瞭解到這些網站是通過ajax動態加載技術實現。即可以在不重新加載整個網頁的情況下，對網頁的某部分進行更新。幫忙轉發，關注，私信小編Pyth...

Python 網絡爬蟲瀏覽器 XML JSON 程序員操作系統 2019-09-09

'爬蟲爬取還需要驗證？我爬某人爬資源從來都不需要誰的同意'

"前言很多時候我們做 Python 爬蟲時或者自動化測試時需要用到 selenium 庫，我們經常會卡在登錄的時候，登錄驗證碼是最頭疼的事情，特別是如今的文字驗證碼和圖形驗證碼。文字和圖形驗證碼還加了干擾線，本文就來講講怎麼繞過登錄頁面。登錄頁面的驗證，比如以下的圖形驗證碼...

網絡爬蟲 Chrome 瀏覽器 Python Google 百度腳本語言 Mozilla 簡書 Firefox 機器學習 2019-09-06

'Python爬蟲：bilibili彈幕爬取與比對分析'

"最近受人之託研究了下b站的數據爬取做個小工具，最後朋友說不需要了，本著開源共享的原則，將研究成果與大家分享一波，話不多說直接上乾貨需求分析給定up主uid和用戶uid，爬取用戶在該up主所有視頻中發的所有彈幕 #pgc-card .pgc-card-href { ...

Bilibili Python 網絡爬蟲 XML 數據庫算法 Google 瀏覽器 JSON 百度鏡音雙子 2019-09-05

'30行Python代碼爬取Wifi密碼，我的手機沒有卡，上網全靠它！真香'

"平時下班或者放學回到家，很多人喜歡打打遊戲看看電影，但是一個月30天，經常流量不夠用，有很多人就裝上了Wifi，但是卻經常被別人連自家的，然後打遊戲看電影卡頓就很煩，但是自己又沒有辦法知道別人家的Wifi，很難受。這種情況該怎麼辦呢？別怕，我們又Python這個強大的編程...

Wi-Fi Python 電腦技術數據庫無線網卡編程語言 2019-09-04

'學透這13個Python爬蟲，這天下將沒有你爬不到的數據'

"Python簡直就是萬能的，你用Python都做過哪些事？用網頁看各大網站的VIP視頻，用python下載？用Python玩跳一跳，跳到50000分？過年過節各大親友群、紅包群搶紅包還用Python？（PS: 有正在學習或者想要學習的寶寶、私信小編“學習”即可免費領取學習...

Python 網絡爬蟲程序員 Scrapy 人工智能編程語言技術大數據英語讀書 Redis 2019-08-23

'有捷徑為什麼要走彎路！手把手教你用 Python 爬取網頁'

"寫在最前面這篇簡單的 Python 教程中，我們一共採取了下面幾個步驟，來爬取網頁內容：連接並獲取一個網頁的內容用 BeautifulSoup 處理獲得的 html 數據在 soup 對象裡循環搜索需要的 html 元素進行簡單的數據清理把數據寫入 csv 文件中大多數人...

Python HTML 腳本語言 JSON GitHub 網絡爬蟲 Scrapy 電腦技術 XML 2019-08-22

'用python一天爬取20萬條企業信息，20條線程共同努力的結果'

"爬蟲環境python3.7+pycharm最近發現一個網站，首商網，上面企業信息百萬以上，然而網站一點兒反爬機制都沒有，這對我們喜歡爬蟲的來講豈不是太爽了，直接拿出擼一套代碼，用了三次併發，每次用20條線程，爬了五六個小時，拿下了20萬條數據，美滋滋！還是老規矩，下面直接...

Python 網絡爬蟲 PyCharm WebKit Gecko Mozilla Chrome Windows NT Safari 2019-08-18

'剛學完這這13個Python爬蟲，這天下就沒有我爬不下的數據，還有誰'

Python 網絡爬蟲程序員 Scrapy 人工智能技術編程語言大數據設計英語人生第一份工作跳槽那些事兒 Redis 2019-08-18

'學透這13個Python爬蟲，爬取天下的的數據，附教程'

"Python簡直就是萬能的，你用Python都做過哪些事？用網頁看各大網站的VIP視頻，用python下載？用Python玩跳一跳，跳到50000分？過年過節各大親友群、紅包群搶紅包還用Python？（PS: 有正在學習或者想要學習的寶寶、私信小編“888”即可免費領取4...

Python 網絡爬蟲程序員 Scrapy 編程語言人工智能大數據技術英語 HTML 跳槽那些事兒 Redis 2019-08-12

'手把手教你用Python爬中國電影票房數據'

"和很多同學接觸過程中，我發現自學Python數據分析的一個難點是資料繁多，過於複雜。大部分網上的資料總是從Python語法教起，夾雜著大量Python開發的知識點，花了很多時間卻始終雲裡霧裡，不知道哪些知識才是真正有用的。本來以為上手就能寫爬蟲出圖，卻在看基礎的過程中消耗...

Python 網絡爬蟲 Excel JSON 讀書 2019-08-11

'python爬取新浪新聞'

"一、這裡提前解釋說明：urlretrieve(url, filename=None, reporthook=None, data=None)參數filename指定了保存本地路徑（如果參數未指定，urllib會生成一個臨時文件保存數據。）參數reporthook是一個回調...

Python 新浪新浪新聞新聞 2019-08-09

'一小時入門Python爬蟲，連我都會了！Python爬取租房數據實例'

"一、什麼叫爬蟲爬蟲，又名"網絡爬蟲"，就是能夠自動訪問互聯網並將網站內容下載下來的程序。它也是搜索引擎的基礎，像百度和GOOGLE都是憑藉強大的網絡爬蟲，來檢索海量的互聯網信息的然後存儲到雲端，為網友提供優質的搜索服務的。二、爬蟲有什麼用你可能會說，除了做搜索引擎的公司，...

Python 網絡爬蟲數據庫 Links HTML JSON SQL 人生第一份工作租房 PyCharm 搜索引擎 MySQL Google 軟件 XML 百度 2019-08-06

'30行Python代碼爬取Wifi密碼，我的手機沒有卡，上網全靠它！真香'

Wi-Fi Python 電腦技術數據庫無線網卡編程語言 2019-07-31

'厲害了，爬蟲Python3用代碼爬取Wifi密碼，永久免費用網'

"厲害了，爬蟲Python3用代碼爬取Wifi密碼，永久免費用網平時下班或者放學回到家，很多人喜歡打打遊戲看看電影，但是一個月30天，經常流量不夠用，有很多人就裝上了Wifi，但是卻經常被別人連自家的，然後打遊戲看電影卡頓就很煩，但是自己又沒有辦法知道別人家的Wifi，很難...

Wi-Fi Python 網絡爬蟲電腦數據庫技術無線網卡編程語言筆記本電腦 2019-07-28

'這樣學習python數據爬蟲分佈式，三兩天輕鬆搞定'

"現行環境下大數據與人工智能的重要依託還是龐大的數據和分析採集，類似於淘寶京東百度騰訊級別的企業能夠通過數據可觀的用戶群體獲取需要的數據。而一般企業可能就沒有這種通過產品獲取數據的能力和條件。利用爬蟲我們可以解決部分數據的問題。1：學習Python基礎知識並實現...

Python 網絡爬蟲數據庫 MongoDB 數據結構 Scrapy 機器學習大數據 Redis 工程師百度騰訊京東商城人生第一份工作 2019-07-18

'30行Python代碼爬取Wifi密碼，我的手機沒有卡，上網全靠它'

Wi-Fi Python 電腦技術數據庫無線網卡編程語言 2019-07-17

'python爬蟲利器，you-get，讓天下沒有難爬的網頁'

"今天給大家介紹一款爬蟲利器，小白也可以拿來即用的利器：you-get。You-Get 是一個 Python 編寫的命令行下載器，用於從 Web 下載媒體內容（視頻，音頻，圖像）。這個程序在 GitHub 上已有 2 萬多的 Star。you-get 能做什麼？從熱門網站下...

Python 網絡爬蟲瀏覽器 Bilibili YouTube GitHub Java 優酷土豆 HTML Chrome 網易雲音樂 Facebook 網易視頻百度貼吧 2019-07-16

'新手學Python精選：Python如何爬取動態網頁內容'

"解析動態內容根據權威機構發佈的全球互聯網可訪問性審計報告，全球約有四分之三的網站其內容或部分內容是通過JavaScript動態生成的，這就意味著在瀏覽器窗口中“查看網頁源代碼”時無法在HTML代碼中找到這些內容，也就是說我們之前用的抓取數據的方式無法正常運轉了。解決這樣的...

Python JavaScript Chrome 瀏覽器 HTML WebKit JSON 網絡爬蟲 Firefox Safari 蘋果公司技術創作者來直播跳槽那些事兒 2019-07-16

'這13個Python項目，讓你輕鬆爬取任何數據，就是這麼牛'

"Python簡直就是萬能的，你用Python都做過哪些事？用網頁看各大網站的VIP視頻，用python下載？用Python玩跳一跳，跳到50000分？過年過節各大親友群、紅包群搶紅包還用Python？（PS: 有正在學習或者想要學習的寶寶、私信小編“ 資料 ”，即可免費領...

Python 網絡爬蟲程序員 Scrapy 編程語言人工智能技術大數據英語人生第一份工作 HTML Redis 跳槽那些事兒 2019-07-16

學透這13個Python爬蟲，網上數據隨便爬，附教程

Python簡直就是萬能的，你用Python都做過哪些事？用網頁看各大網站的VIP視頻，用python下載？用Python玩跳一跳，跳到50000分？過年...

Python 網絡爬蟲程序員 Scrapy 編程語言人工智能技術大數據英語軟件 Redis HTML 跳槽那些事兒 2019-07-15

推薦中...