'Python爬蟲：bilibili彈幕爬取與比對分析'

Bilibili Python 網絡爬蟲 XML 數據庫算法 Google 瀏覽器 JSON 百度鏡音雙子 BigDataKer 2019-09-05

最近受人之託研究了下b站的數據爬取做個小工具，最後朋友說不需要了，本著開源共享的原則，將研究成果與大家分享一波，話不多說直接上乾貨

需求分析

給定up主uid和用戶uid，爬取用戶在該up主所有視頻中發的所有彈幕

python基礎教程 Python編程從入門到實踐計算機核心編程語言程序設計網絡爬蟲數據分析零基礎自學全套項目實戰視頻教程學習書籍

￥49.8

購買

需求拆解

獲取up主所有視頻

打開b站，隨便搜索一個up主，打開所有視頻頁面，f12看異步請求就一目瞭然了

接口地址:https://space.bilibili.com/ajax/member/getSubmitVideos?mid=up主的uid&pagesize=30&tid=0&page=1&keyword=&

直接通過GET請求訪問，該接口限制pagesize為100，數目超過就會返回錯誤，但是該接口會返回一個總數與頁數，所以我們首先請求一次，獲取相關參數再分批次請求，獲取到數據後對vlist進行json數據解析就可以，我們主要獲取的是aid，也就是av號

最近受人之託研究了下b站的數據爬取做個小工具，最後朋友說不需要了，本著開源共享的原則，將研究成果與大家分享一波，話不多說直接上乾貨

需求分析

給定up主uid和用戶uid，爬取用戶在該up主所有視頻中發的所有彈幕

python基礎教程 Python編程從入門到實踐計算機核心編程語言程序設計網絡爬蟲數據分析零基礎自學全套項目實戰視頻教程學習書籍

￥49.8

購買

需求拆解

獲取up主所有視頻

打開b站，隨便搜索一個up主，打開所有視頻頁面，f12看異步請求就一目瞭然了

接口地址:https://space.bilibili.com/ajax/member/getSubmitVideos?mid=up主的uid&pagesize=30&tid=0&page=1&keyword=&

最近受人之託研究了下b站的數據爬取做個小工具，最後朋友說不需要了，本著開源共享的原則，將研究成果與大家分享一波，話不多說直接上乾貨

需求分析

給定up主uid和用戶uid，爬取用戶在該up主所有視頻中發的所有彈幕

python基礎教程 Python編程從入門到實踐計算機核心編程語言程序設計網絡爬蟲數據分析零基礎自學全套項目實戰視頻教程學習書籍

￥49.8

購買

需求拆解

獲取up主所有視頻

打開b站，隨便搜索一個up主，打開所有視頻頁面，f12看異步請求就一目瞭然了

接口地址:https://space.bilibili.com/ajax/member/getSubmitVideos?mid=up主的uid&pagesize=30&tid=0&page=1&keyword=&

獲取視頻所有彈幕

使用firefox瀏覽器打開視頻，f12後搜索list.so請求會發現彈幕xml文件，同樣也是GET請求

接口地址:https://api.bilibili.com/x/v1/dm/list.so?oid=112062851 http://comment.bilibili.com/{cid}..xml

但是在百度的過程中發現了一個直接讀取xml文件的地址，更加方便

接口地址：http://comment.bilibili.com/{cid}.xml

這個cid就是彈幕xml的文件編號，通過分析異步請求，發現了返回這個cid的返回接口

接口地址：https://api.bilibili.com/x/player/pagelist?aid=視頻av號&jsonp=jsonp

最近受人之託研究了下b站的數據爬取做個小工具，最後朋友說不需要了，本著開源共享的原則，將研究成果與大家分享一波，話不多說直接上乾貨

需求分析

給定up主uid和用戶uid，爬取用戶在該up主所有視頻中發的所有彈幕

python基礎教程 Python編程從入門到實踐計算機核心編程語言程序設計網絡爬蟲數據分析零基礎自學全套項目實戰視頻教程學習書籍

￥49.8

購買

需求拆解

獲取up主所有視頻

打開b站，隨便搜索一個up主，打開所有視頻頁面，f12看異步請求就一目瞭然了

接口地址:https://space.bilibili.com/ajax/member/getSubmitVideos?mid=up主的uid&pagesize=30&tid=0&page=1&keyword=&

獲取視頻所有彈幕

使用firefox瀏覽器打開視頻，f12後搜索list.so請求會發現彈幕xml文件，同樣也是GET請求

接口地址:https://api.bilibili.com/x/v1/dm/list.so?oid=112062851 http://comment.bilibili.com/{cid}..xml

但是在百度的過程中發現了一個直接讀取xml文件的地址，更加方便

接口地址：http://comment.bilibili.com/{cid}.xml

這個cid就是彈幕xml的文件編號，通過分析異步請求，發現了返回這個cid的返回接口

接口地址：https://api.bilibili.com/x/player/pagelist?aid=視頻av號&jsonp=jsonp

最近受人之託研究了下b站的數據爬取做個小工具，最後朋友說不需要了，本著開源共享的原則，將研究成果與大家分享一波，話不多說直接上乾貨

需求分析

給定up主uid和用戶uid，爬取用戶在該up主所有視頻中發的所有彈幕

python基礎教程 Python編程從入門到實踐計算機核心編程語言程序設計網絡爬蟲數據分析零基礎自學全套項目實戰視頻教程學習書籍

￥49.8

購買

需求拆解

獲取up主所有視頻

打開b站，隨便搜索一個up主，打開所有視頻頁面，f12看異步請求就一目瞭然了

接口地址:https://space.bilibili.com/ajax/member/getSubmitVideos?mid=up主的uid&pagesize=30&tid=0&page=1&keyword=&

獲取視頻所有彈幕

使用firefox瀏覽器打開視頻，f12後搜索list.so請求會發現彈幕xml文件，同樣也是GET請求

接口地址:https://api.bilibili.com/x/v1/dm/list.so?oid=112062851 http://comment.bilibili.com/{cid}..xml

但是在百度的過程中發現了一個直接讀取xml文件的地址，更加方便

接口地址：http://comment.bilibili.com/{cid}.xml

這個cid就是彈幕xml的文件編號，通過分析異步請求，發現了返回這個cid的返回接口

接口地址：https://api.bilibili.com/x/player/pagelist?aid=視頻av號&jsonp=jsonp

需要注意的是返回的是一個數組，這說明如果視頻彈幕過多的話可能有多個xml文件，我們需要遍歷獲取

彈幕xml文件分析

文件格式內容如下所示

最近受人之託研究了下b站的數據爬取做個小工具，最後朋友說不需要了，本著開源共享的原則，將研究成果與大家分享一波，話不多說直接上乾貨

需求分析

給定up主uid和用戶uid，爬取用戶在該up主所有視頻中發的所有彈幕

python基礎教程 Python編程從入門到實踐計算機核心編程語言程序設計網絡爬蟲數據分析零基礎自學全套項目實戰視頻教程學習書籍

￥49.8

購買

需求拆解

獲取up主所有視頻

打開b站，隨便搜索一個up主，打開所有視頻頁面，f12看異步請求就一目瞭然了

接口地址:https://space.bilibili.com/ajax/member/getSubmitVideos?mid=up主的uid&pagesize=30&tid=0&page=1&keyword=&

獲取視頻所有彈幕

使用firefox瀏覽器打開視頻，f12後搜索list.so請求會發現彈幕xml文件，同樣也是GET請求

接口地址:https://api.bilibili.com/x/v1/dm/list.so?oid=112062851 http://comment.bilibili.com/{cid}..xml

但是在百度的過程中發現了一個直接讀取xml文件的地址，更加方便

接口地址：http://comment.bilibili.com/{cid}.xml

這個cid就是彈幕xml的文件編號，通過分析異步請求，發現了返回這個cid的返回接口

接口地址：https://api.bilibili.com/x/player/pagelist?aid=視頻av號&jsonp=jsonp

需要注意的是返回的是一個數組，這說明如果視頻彈幕過多的話可能有多個xml文件，我們需要遍歷獲取

彈幕xml文件分析

文件格式內容如下所示

最近受人之託研究了下b站的數據爬取做個小工具，最後朋友說不需要了，本著開源共享的原則，將研究成果與大家分享一波，話不多說直接上乾貨

需求分析

給定up主uid和用戶uid，爬取用戶在該up主所有視頻中發的所有彈幕

python基礎教程 Python編程從入門到實踐計算機核心編程語言程序設計網絡爬蟲數據分析零基礎自學全套項目實戰視頻教程學習書籍

￥49.8

購買

需求拆解

獲取up主所有視頻

打開b站，隨便搜索一個up主，打開所有視頻頁面，f12看異步請求就一目瞭然了

接口地址:https://space.bilibili.com/ajax/member/getSubmitVideos?mid=up主的uid&pagesize=30&tid=0&page=1&keyword=&

獲取視頻所有彈幕

使用firefox瀏覽器打開視頻，f12後搜索list.so請求會發現彈幕xml文件，同樣也是GET請求

接口地址:https://api.bilibili.com/x/v1/dm/list.so?oid=112062851 http://comment.bilibili.com/{cid}..xml

但是在百度的過程中發現了一個直接讀取xml文件的地址，更加方便

接口地址：http://comment.bilibili.com/{cid}.xml

這個cid就是彈幕xml的文件編號，通過分析異步請求，發現了返回這個cid的返回接口

接口地址：https://api.bilibili.com/x/player/pagelist?aid=視頻av號&jsonp=jsonp

需要注意的是返回的是一個數組，這說明如果視頻彈幕過多的話可能有多個xml文件，我們需要遍歷獲取

彈幕xml文件分析

文件格式內容如下所示

可以看到裡面d標籤的文字內容就是發送的彈幕，但是我們還需要對彈幕的發送者與我們給定的用戶進行對比，所以需要對d標籤的屬性p進行分析，p屬性使用逗號隔開的一系列數據，其中各個參數屬性如下

我們只需要獲取裡面的第7個參數用戶的唯一標識即可

難點分析

用戶id轉換

在彈幕xml文件中獲取的用戶標識是用戶uid經過hash後的編碼，所以我們需要進行轉換後才能對比校驗，經過使用在線hash網站中的一個個hash函數嘗試比對，發現hash算法為crc32b，crc32是一個常見算法，用於文件校驗，但是crc32b百度了一圈也搜索不到是個啥東西，無奈出國google了一下，crc32b只是將crc32算法加密後的結果轉換成了16進制，下面提供c#實現的功能函數

 /// <summary>
 /// CRC32校驗算法
 /// </summary>
 protected static ulong[] Crc32Table;
 //生成CRC32碼錶
 public static void GetCRC32Table()
 {
 ulong Crc;
 Crc32Table = new ulong[256];
 int i, j;
 for (i = 0; i < 256; i++)
 {
 Crc = (ulong)i;
 for (j = 8; j > 0; j--)
 {
 if ((Crc & 1) == 1)
 Crc = (Crc >> 1) ^ 0xEDB88320;
 else
 Crc >>= 1;
 }
 Crc32Table[i] = Crc;
 }
 }
 //獲取字符串的CRC32校驗值
 public static ulong GetCRC32Str(string sInputString)
 {
 //生成碼錶
 GetCRC32Table();
 byte[] buffer = System.Text.ASCIIEncoding.ASCII.GetBytes(sInputString); ulong value = 0xffffffff;
 int len = buffer.Length;
 for (int i = 0; i < len; i++)
 {
 value = (value >> 8) ^ Crc32Table[(value & 0xFF) ^ buffer[i]];
 }
 return value ^ 0xffffffff;
 }
 public static string GetCRC32bStr(string sInputString)
 {
 return GetCRC32Str(sInputString).ToString("x");
 }

最近受人之託研究了下b站的數據爬取做個小工具，最後朋友說不需要了，本著開源共享的原則，將研究成果與大家分享一波，話不多說直接上乾貨

需求分析

給定up主uid和用戶uid，爬取用戶在該up主所有視頻中發的所有彈幕

python基礎教程 Python編程從入門到實踐計算機核心編程語言程序設計網絡爬蟲數據分析零基礎自學全套項目實戰視頻教程學習書籍

￥49.8

購買

需求拆解

獲取up主所有視頻

打開b站，隨便搜索一個up主，打開所有視頻頁面，f12看異步請求就一目瞭然了

接口地址:https://space.bilibili.com/ajax/member/getSubmitVideos?mid=up主的uid&pagesize=30&tid=0&page=1&keyword=&

獲取視頻所有彈幕

使用firefox瀏覽器打開視頻，f12後搜索list.so請求會發現彈幕xml文件，同樣也是GET請求

接口地址:https://api.bilibili.com/x/v1/dm/list.so?oid=112062851 http://comment.bilibili.com/{cid}..xml

但是在百度的過程中發現了一個直接讀取xml文件的地址，更加方便

接口地址：http://comment.bilibili.com/{cid}.xml

這個cid就是彈幕xml的文件編號，通過分析異步請求，發現了返回這個cid的返回接口

接口地址：https://api.bilibili.com/x/player/pagelist?aid=視頻av號&jsonp=jsonp

需要注意的是返回的是一個數組，這說明如果視頻彈幕過多的話可能有多個xml文件，我們需要遍歷獲取

彈幕xml文件分析

文件格式內容如下所示

我們只需要獲取裡面的第7個參數用戶的唯一標識即可

難點分析

用戶id轉換

 /// <summary>
 /// CRC32校驗算法
 /// </summary>
 protected static ulong[] Crc32Table;
 //生成CRC32碼錶
 public static void GetCRC32Table()
 {
 ulong Crc;
 Crc32Table = new ulong[256];
 int i, j;
 for (i = 0; i < 256; i++)
 {
 Crc = (ulong)i;
 for (j = 8; j > 0; j--)
 {
 if ((Crc & 1) == 1)
 Crc = (Crc >> 1) ^ 0xEDB88320;
 else
 Crc >>= 1;
 }
 Crc32Table[i] = Crc;
 }
 }
 //獲取字符串的CRC32校驗值
 public static ulong GetCRC32Str(string sInputString)
 {
 //生成碼錶
 GetCRC32Table();
 byte[] buffer = System.Text.ASCIIEncoding.ASCII.GetBytes(sInputString); ulong value = 0xffffffff;
 int len = buffer.Length;
 for (int i = 0; i < len; i++)
 {
 value = (value >> 8) ^ Crc32Table[(value & 0xFF) ^ buffer[i]];
 }
 return value ^ 0xffffffff;
 }
 public static string GetCRC32bStr(string sInputString)
 {
 return GetCRC32Str(sInputString).ToString("x");
 }

通過代碼GET請求保存xml文件

在保存xml文件的過程中發現輸出流轉為文字永遠是亂碼，經過查看請求網頁中header中的值，發現返回的xml數據流是壓縮格式的

最近受人之託研究了下b站的數據爬取做個小工具，最後朋友說不需要了，本著開源共享的原則，將研究成果與大家分享一波，話不多說直接上乾貨

需求分析

給定up主uid和用戶uid，爬取用戶在該up主所有視頻中發的所有彈幕

python基礎教程 Python編程從入門到實踐計算機核心編程語言程序設計網絡爬蟲數據分析零基礎自學全套項目實戰視頻教程學習書籍

￥49.8

購買

需求拆解

獲取up主所有視頻

打開b站，隨便搜索一個up主，打開所有視頻頁面，f12看異步請求就一目瞭然了

接口地址:https://space.bilibili.com/ajax/member/getSubmitVideos?mid=up主的uid&pagesize=30&tid=0&page=1&keyword=&

獲取視頻所有彈幕

使用firefox瀏覽器打開視頻，f12後搜索list.so請求會發現彈幕xml文件，同樣也是GET請求

接口地址:https://api.bilibili.com/x/v1/dm/list.so?oid=112062851 http://comment.bilibili.com/{cid}..xml

但是在百度的過程中發現了一個直接讀取xml文件的地址，更加方便

接口地址：http://comment.bilibili.com/{cid}.xml

這個cid就是彈幕xml的文件編號，通過分析異步請求，發現了返回這個cid的返回接口

接口地址：https://api.bilibili.com/x/player/pagelist?aid=視頻av號&jsonp=jsonp

需要注意的是返回的是一個數組，這說明如果視頻彈幕過多的話可能有多個xml文件，我們需要遍歷獲取

彈幕xml文件分析

文件格式內容如下所示

我們只需要獲取裡面的第7個參數用戶的唯一標識即可

難點分析

用戶id轉換

 /// <summary>
 /// CRC32校驗算法
 /// </summary>
 protected static ulong[] Crc32Table;
 //生成CRC32碼錶
 public static void GetCRC32Table()
 {
 ulong Crc;
 Crc32Table = new ulong[256];
 int i, j;
 for (i = 0; i < 256; i++)
 {
 Crc = (ulong)i;
 for (j = 8; j > 0; j--)
 {
 if ((Crc & 1) == 1)
 Crc = (Crc >> 1) ^ 0xEDB88320;
 else
 Crc >>= 1;
 }
 Crc32Table[i] = Crc;
 }
 }
 //獲取字符串的CRC32校驗值
 public static ulong GetCRC32Str(string sInputString)
 {
 //生成碼錶
 GetCRC32Table();
 byte[] buffer = System.Text.ASCIIEncoding.ASCII.GetBytes(sInputString); ulong value = 0xffffffff;
 int len = buffer.Length;
 for (int i = 0; i < len; i++)
 {
 value = (value >> 8) ^ Crc32Table[(value & 0xFF) ^ buffer[i]];
 }
 return value ^ 0xffffffff;
 }
 public static string GetCRC32bStr(string sInputString)
 {
 return GetCRC32Str(sInputString).ToString("x");
 }

通過代碼GET請求保存xml文件

在保存xml文件的過程中發現輸出流轉為文字永遠是亂碼，經過查看請求網頁中header中的值，發現返回的xml數據流是壓縮格式的

最近受人之託研究了下b站的數據爬取做個小工具，最後朋友說不需要了，本著開源共享的原則，將研究成果與大家分享一波，話不多說直接上乾貨

需求分析

給定up主uid和用戶uid，爬取用戶在該up主所有視頻中發的所有彈幕

python基礎教程 Python編程從入門到實踐計算機核心編程語言程序設計網絡爬蟲數據分析零基礎自學全套項目實戰視頻教程學習書籍

￥49.8

購買

需求拆解

獲取up主所有視頻

打開b站，隨便搜索一個up主，打開所有視頻頁面，f12看異步請求就一目瞭然了

接口地址:https://space.bilibili.com/ajax/member/getSubmitVideos?mid=up主的uid&pagesize=30&tid=0&page=1&keyword=&

獲取視頻所有彈幕

使用firefox瀏覽器打開視頻，f12後搜索list.so請求會發現彈幕xml文件，同樣也是GET請求

接口地址:https://api.bilibili.com/x/v1/dm/list.so?oid=112062851 http://comment.bilibili.com/{cid}..xml

但是在百度的過程中發現了一個直接讀取xml文件的地址，更加方便

接口地址：http://comment.bilibili.com/{cid}.xml

這個cid就是彈幕xml的文件編號，通過分析異步請求，發現了返回這個cid的返回接口

接口地址：https://api.bilibili.com/x/player/pagelist?aid=視頻av號&jsonp=jsonp

需要注意的是返回的是一個數組，這說明如果視頻彈幕過多的話可能有多個xml文件，我們需要遍歷獲取

彈幕xml文件分析

文件格式內容如下所示

我們只需要獲取裡面的第7個參數用戶的唯一標識即可

難點分析

用戶id轉換

 /// <summary>
 /// CRC32校驗算法
 /// </summary>
 protected static ulong[] Crc32Table;
 //生成CRC32碼錶
 public static void GetCRC32Table()
 {
 ulong Crc;
 Crc32Table = new ulong[256];
 int i, j;
 for (i = 0; i < 256; i++)
 {
 Crc = (ulong)i;
 for (j = 8; j > 0; j--)
 {
 if ((Crc & 1) == 1)
 Crc = (Crc >> 1) ^ 0xEDB88320;
 else
 Crc >>= 1;
 }
 Crc32Table[i] = Crc;
 }
 }
 //獲取字符串的CRC32校驗值
 public static ulong GetCRC32Str(string sInputString)
 {
 //生成碼錶
 GetCRC32Table();
 byte[] buffer = System.Text.ASCIIEncoding.ASCII.GetBytes(sInputString); ulong value = 0xffffffff;
 int len = buffer.Length;
 for (int i = 0; i < len; i++)
 {
 value = (value >> 8) ^ Crc32Table[(value & 0xFF) ^ buffer[i]];
 }
 return value ^ 0xffffffff;
 }
 public static string GetCRC32bStr(string sInputString)
 {
 return GetCRC32Str(sInputString).ToString("x");
 }

通過代碼GET請求保存xml文件

在保存xml文件的過程中發現輸出流轉為文字永遠是亂碼，經過查看請求網頁中header中的值，發現返回的xml數據流是壓縮格式的

所以我們對GET請求的方法進行了一些設置，首先Accept-Encoding需要與真正的訪問請求保持一致，然後設置自動解壓，下面提供c#示例

 public static String HttpGet_BiliBiliXmlFile(string Url)
 {
 HttpWebRequest request = (HttpWebRequest)WebRequest.Create(Url);
 request.Method = "GET";
 request.ContentType = "text/html;charset=UTF-8";
 request.Headers[HttpRequestHeader.AcceptEncoding] = "gzip, deflate, br";
 request.Headers[HttpRequestHeader.AcceptLanguage] = "zh-CN,zh;q=0.8,zh-TW;q=0.7,zh-HK;q=0.5,en-US;q=0.3,en;q=0.2";
 //自動解壓
 request.AutomaticDecompression = DecompressionMethods.GZip | DecompressionMethods.Deflate; 
 HttpWebResponse response = (HttpWebResponse)request.GetResponse();
 Stream myResponseStream = response.GetResponseStream();
 StreamReader myStreamReader = new StreamReader(myResponseStream, Encoding.UTF8);
 string retString = myStreamReader.ReadToEnd();
 myStreamReader.Close();
 myResponseStream.Close();
 return retString;
 }

本文轉載於博客園，作者：Pine_Yan

原文：https://www.cnblogs.com/yanpeng19940119/p/11415457.html

'Python爬蟲：bilibili彈幕爬取與比對分析'

需求分析

需求拆解

需求分析

需求拆解

需求分析

需求拆解

需求分析

需求拆解

需求分析

需求拆解

需求分析

需求拆解

需求分析

需求拆解

難點分析

需求分析

需求拆解

難點分析

需求分析

需求拆解

難點分析

需求分析

需求拆解

難點分析

相關推薦