'python爬蟲學習:爬蟲QQ說說並生成詞雲圖,又是一波神操作'

"

自學過一段時間的python,用django自己做了個網站,也用requests+BeautifulSoup爬蟲過些簡單的網站,週末研究學習了一波,準備爬取QQ空間的說說,並把內容存在txt中,讀取生成雲圖。

好久不登qq了,空間說說更是幾年不玩了,裡面滿滿的都是上學時候的回憶,看著看著就笑了,笑著笑著就...哈哈哈~~

無圖言虛空

"

自學過一段時間的python,用django自己做了個網站,也用requests+BeautifulSoup爬蟲過些簡單的網站,週末研究學習了一波,準備爬取QQ空間的說說,並把內容存在txt中,讀取生成雲圖。

好久不登qq了,空間說說更是幾年不玩了,裡面滿滿的都是上學時候的回憶,看著看著就笑了,笑著笑著就...哈哈哈~~

無圖言虛空

python爬蟲學習:爬蟲QQ說說並生成詞雲圖,又是一波神操作

當年的我還是那麼風華正茂、幽默風趣...

言歸正傳,本次使用的是selenium模擬登錄+BeautifulSoup4爬取數據+wordcloud生成詞雲圖

喜歡的話關注收藏評論轉發比心麼麼噠!Python學習有大量的項目開發和新手教學視頻PDF書籍,轉發私信回覆【Python】

BeautifulSoup安裝

pip install beautifulsoup4

這裡有beautifulsoup4 的 官方文檔

還需要用到解析器,我選擇的是html5lib解析器pip install html5lib

下表列出了主要的解析器,以及它們的優缺點:

"

自學過一段時間的python,用django自己做了個網站,也用requests+BeautifulSoup爬蟲過些簡單的網站,週末研究學習了一波,準備爬取QQ空間的說說,並把內容存在txt中,讀取生成雲圖。

好久不登qq了,空間說說更是幾年不玩了,裡面滿滿的都是上學時候的回憶,看著看著就笑了,笑著笑著就...哈哈哈~~

無圖言虛空

python爬蟲學習:爬蟲QQ說說並生成詞雲圖,又是一波神操作

當年的我還是那麼風華正茂、幽默風趣...

言歸正傳,本次使用的是selenium模擬登錄+BeautifulSoup4爬取數據+wordcloud生成詞雲圖

喜歡的話關注收藏評論轉發比心麼麼噠!Python學習有大量的項目開發和新手教學視頻PDF書籍,轉發私信回覆【Python】

BeautifulSoup安裝

pip install beautifulsoup4

這裡有beautifulsoup4 的 官方文檔

還需要用到解析器,我選擇的是html5lib解析器pip install html5lib

下表列出了主要的解析器,以及它們的優缺點:

python爬蟲學習:爬蟲QQ說說並生成詞雲圖,又是一波神操作

selenium模擬登錄

使用selenium模擬登錄QQ空間,安裝pip install selenium

我用的是chrom瀏覽器,webdriver.Chrome(),獲取Chrome瀏覽器的驅動。這裡還需要下載安裝對應瀏覽器的驅動,否則在運行腳本時,會報錯同理window的也一樣,下載對應的驅動,解壓後,將下載的**.exe 放到Python的安裝目錄,例如 D:\\python 。 同時需要Python的安裝目錄添加到系統環境變量裡。qq登錄頁http://i.qq.com,利用webdriver打開qq空間的登錄頁面

"

自學過一段時間的python,用django自己做了個網站,也用requests+BeautifulSoup爬蟲過些簡單的網站,週末研究學習了一波,準備爬取QQ空間的說說,並把內容存在txt中,讀取生成雲圖。

好久不登qq了,空間說說更是幾年不玩了,裡面滿滿的都是上學時候的回憶,看著看著就笑了,笑著笑著就...哈哈哈~~

無圖言虛空

python爬蟲學習:爬蟲QQ說說並生成詞雲圖,又是一波神操作

當年的我還是那麼風華正茂、幽默風趣...

言歸正傳,本次使用的是selenium模擬登錄+BeautifulSoup4爬取數據+wordcloud生成詞雲圖

喜歡的話關注收藏評論轉發比心麼麼噠!Python學習有大量的項目開發和新手教學視頻PDF書籍,轉發私信回覆【Python】

BeautifulSoup安裝

pip install beautifulsoup4

這裡有beautifulsoup4 的 官方文檔

還需要用到解析器,我選擇的是html5lib解析器pip install html5lib

下表列出了主要的解析器,以及它們的優缺點:

python爬蟲學習:爬蟲QQ說說並生成詞雲圖,又是一波神操作

selenium模擬登錄

使用selenium模擬登錄QQ空間,安裝pip install selenium

我用的是chrom瀏覽器,webdriver.Chrome(),獲取Chrome瀏覽器的驅動。這裡還需要下載安裝對應瀏覽器的驅動,否則在運行腳本時,會報錯同理window的也一樣,下載對應的驅動,解壓後,將下載的**.exe 放到Python的安裝目錄,例如 D:\\python 。 同時需要Python的安裝目錄添加到系統環境變量裡。qq登錄頁http://i.qq.com,利用webdriver打開qq空間的登錄頁面

python爬蟲學習:爬蟲QQ說說並生成詞雲圖,又是一波神操作
"

自學過一段時間的python,用django自己做了個網站,也用requests+BeautifulSoup爬蟲過些簡單的網站,週末研究學習了一波,準備爬取QQ空間的說說,並把內容存在txt中,讀取生成雲圖。

好久不登qq了,空間說說更是幾年不玩了,裡面滿滿的都是上學時候的回憶,看著看著就笑了,笑著笑著就...哈哈哈~~

無圖言虛空

python爬蟲學習:爬蟲QQ說說並生成詞雲圖,又是一波神操作

當年的我還是那麼風華正茂、幽默風趣...

言歸正傳,本次使用的是selenium模擬登錄+BeautifulSoup4爬取數據+wordcloud生成詞雲圖

喜歡的話關注收藏評論轉發比心麼麼噠!Python學習有大量的項目開發和新手教學視頻PDF書籍,轉發私信回覆【Python】

BeautifulSoup安裝

pip install beautifulsoup4

這裡有beautifulsoup4 的 官方文檔

還需要用到解析器,我選擇的是html5lib解析器pip install html5lib

下表列出了主要的解析器,以及它們的優缺點:

python爬蟲學習:爬蟲QQ說說並生成詞雲圖,又是一波神操作

selenium模擬登錄

使用selenium模擬登錄QQ空間,安裝pip install selenium

我用的是chrom瀏覽器,webdriver.Chrome(),獲取Chrome瀏覽器的驅動。這裡還需要下載安裝對應瀏覽器的驅動,否則在運行腳本時,會報錯同理window的也一樣,下載對應的驅動,解壓後,將下載的**.exe 放到Python的安裝目錄,例如 D:\\python 。 同時需要Python的安裝目錄添加到系統環境變量裡。qq登錄頁http://i.qq.com,利用webdriver打開qq空間的登錄頁面

python爬蟲學習:爬蟲QQ說說並生成詞雲圖,又是一波神操作
python爬蟲學習:爬蟲QQ說說並生成詞雲圖,又是一波神操作

打開之後右擊檢查查看頁面元素,發現帳號密碼登錄在login_frame裡,先定位到所在的frame,driver.switch_to.frame("login_frame") ,再自動點擊 帳號密碼登錄 按鈕,自動輸入帳號密碼登錄,並且打開說說頁面,詳細代碼如下

"

自學過一段時間的python,用django自己做了個網站,也用requests+BeautifulSoup爬蟲過些簡單的網站,週末研究學習了一波,準備爬取QQ空間的說說,並把內容存在txt中,讀取生成雲圖。

好久不登qq了,空間說說更是幾年不玩了,裡面滿滿的都是上學時候的回憶,看著看著就笑了,笑著笑著就...哈哈哈~~

無圖言虛空

python爬蟲學習:爬蟲QQ說說並生成詞雲圖,又是一波神操作

當年的我還是那麼風華正茂、幽默風趣...

言歸正傳,本次使用的是selenium模擬登錄+BeautifulSoup4爬取數據+wordcloud生成詞雲圖

喜歡的話關注收藏評論轉發比心麼麼噠!Python學習有大量的項目開發和新手教學視頻PDF書籍,轉發私信回覆【Python】

BeautifulSoup安裝

pip install beautifulsoup4

這裡有beautifulsoup4 的 官方文檔

還需要用到解析器,我選擇的是html5lib解析器pip install html5lib

下表列出了主要的解析器,以及它們的優缺點:

python爬蟲學習:爬蟲QQ說說並生成詞雲圖,又是一波神操作

selenium模擬登錄

使用selenium模擬登錄QQ空間,安裝pip install selenium

我用的是chrom瀏覽器,webdriver.Chrome(),獲取Chrome瀏覽器的驅動。這裡還需要下載安裝對應瀏覽器的驅動,否則在運行腳本時,會報錯同理window的也一樣,下載對應的驅動,解壓後,將下載的**.exe 放到Python的安裝目錄,例如 D:\\python 。 同時需要Python的安裝目錄添加到系統環境變量裡。qq登錄頁http://i.qq.com,利用webdriver打開qq空間的登錄頁面

python爬蟲學習:爬蟲QQ說說並生成詞雲圖,又是一波神操作
python爬蟲學習:爬蟲QQ說說並生成詞雲圖,又是一波神操作

打開之後右擊檢查查看頁面元素,發現帳號密碼登錄在login_frame裡,先定位到所在的frame,driver.switch_to.frame("login_frame") ,再自動點擊 帳號密碼登錄 按鈕,自動輸入帳號密碼登錄,並且打開說說頁面,詳細代碼如下

python爬蟲學習:爬蟲QQ說說並生成詞雲圖,又是一波神操作

這個時候可以看到已經打開了qq說說的頁面了,注意 部分空間打開之後會出現一個提示框,需要先模擬點擊事件關閉這個提示框

"

自學過一段時間的python,用django自己做了個網站,也用requests+BeautifulSoup爬蟲過些簡單的網站,週末研究學習了一波,準備爬取QQ空間的說說,並把內容存在txt中,讀取生成雲圖。

好久不登qq了,空間說說更是幾年不玩了,裡面滿滿的都是上學時候的回憶,看著看著就笑了,笑著笑著就...哈哈哈~~

無圖言虛空

python爬蟲學習:爬蟲QQ說說並生成詞雲圖,又是一波神操作

當年的我還是那麼風華正茂、幽默風趣...

言歸正傳,本次使用的是selenium模擬登錄+BeautifulSoup4爬取數據+wordcloud生成詞雲圖

喜歡的話關注收藏評論轉發比心麼麼噠!Python學習有大量的項目開發和新手教學視頻PDF書籍,轉發私信回覆【Python】

BeautifulSoup安裝

pip install beautifulsoup4

這裡有beautifulsoup4 的 官方文檔

還需要用到解析器,我選擇的是html5lib解析器pip install html5lib

下表列出了主要的解析器,以及它們的優缺點:

python爬蟲學習:爬蟲QQ說說並生成詞雲圖,又是一波神操作

selenium模擬登錄

使用selenium模擬登錄QQ空間,安裝pip install selenium

我用的是chrom瀏覽器,webdriver.Chrome(),獲取Chrome瀏覽器的驅動。這裡還需要下載安裝對應瀏覽器的驅動,否則在運行腳本時,會報錯同理window的也一樣,下載對應的驅動,解壓後,將下載的**.exe 放到Python的安裝目錄,例如 D:\\python 。 同時需要Python的安裝目錄添加到系統環境變量裡。qq登錄頁http://i.qq.com,利用webdriver打開qq空間的登錄頁面

python爬蟲學習:爬蟲QQ說說並生成詞雲圖,又是一波神操作
python爬蟲學習:爬蟲QQ說說並生成詞雲圖,又是一波神操作

打開之後右擊檢查查看頁面元素,發現帳號密碼登錄在login_frame裡,先定位到所在的frame,driver.switch_to.frame("login_frame") ,再自動點擊 帳號密碼登錄 按鈕,自動輸入帳號密碼登錄,並且打開說說頁面,詳細代碼如下

python爬蟲學習:爬蟲QQ說說並生成詞雲圖,又是一波神操作

這個時候可以看到已經打開了qq說說的頁面了,注意 部分空間打開之後會出現一個提示框,需要先模擬點擊事件關閉這個提示框

python爬蟲學習:爬蟲QQ說說並生成詞雲圖,又是一波神操作

同時因為說說內容是動態加載的,需要自動下拉滾動條,加載出全部的內容,再模擬點擊 下一頁 加載內容。具體代碼見下面。

BeautifulSoup爬取說說

F12查看內容,可以找到說說在feed_wrap這個<div>,<ol>裡面的<li>標籤數組裡面,具體每條說說內容在<div> class="bd"的<pre>標籤中。

"

自學過一段時間的python,用django自己做了個網站,也用requests+BeautifulSoup爬蟲過些簡單的網站,週末研究學習了一波,準備爬取QQ空間的說說,並把內容存在txt中,讀取生成雲圖。

好久不登qq了,空間說說更是幾年不玩了,裡面滿滿的都是上學時候的回憶,看著看著就笑了,笑著笑著就...哈哈哈~~

無圖言虛空

python爬蟲學習:爬蟲QQ說說並生成詞雲圖,又是一波神操作

當年的我還是那麼風華正茂、幽默風趣...

言歸正傳,本次使用的是selenium模擬登錄+BeautifulSoup4爬取數據+wordcloud生成詞雲圖

喜歡的話關注收藏評論轉發比心麼麼噠!Python學習有大量的項目開發和新手教學視頻PDF書籍,轉發私信回覆【Python】

BeautifulSoup安裝

pip install beautifulsoup4

這裡有beautifulsoup4 的 官方文檔

還需要用到解析器,我選擇的是html5lib解析器pip install html5lib

下表列出了主要的解析器,以及它們的優缺點:

python爬蟲學習:爬蟲QQ說說並生成詞雲圖,又是一波神操作

selenium模擬登錄

使用selenium模擬登錄QQ空間,安裝pip install selenium

我用的是chrom瀏覽器,webdriver.Chrome(),獲取Chrome瀏覽器的驅動。這裡還需要下載安裝對應瀏覽器的驅動,否則在運行腳本時,會報錯同理window的也一樣,下載對應的驅動,解壓後,將下載的**.exe 放到Python的安裝目錄,例如 D:\\python 。 同時需要Python的安裝目錄添加到系統環境變量裡。qq登錄頁http://i.qq.com,利用webdriver打開qq空間的登錄頁面

python爬蟲學習:爬蟲QQ說說並生成詞雲圖,又是一波神操作
python爬蟲學習:爬蟲QQ說說並生成詞雲圖,又是一波神操作

打開之後右擊檢查查看頁面元素,發現帳號密碼登錄在login_frame裡,先定位到所在的frame,driver.switch_to.frame("login_frame") ,再自動點擊 帳號密碼登錄 按鈕,自動輸入帳號密碼登錄,並且打開說說頁面,詳細代碼如下

python爬蟲學習:爬蟲QQ說說並生成詞雲圖,又是一波神操作

這個時候可以看到已經打開了qq說說的頁面了,注意 部分空間打開之後會出現一個提示框,需要先模擬點擊事件關閉這個提示框

python爬蟲學習:爬蟲QQ說說並生成詞雲圖,又是一波神操作

同時因為說說內容是動態加載的,需要自動下拉滾動條,加載出全部的內容,再模擬點擊 下一頁 加載內容。具體代碼見下面。

BeautifulSoup爬取說說

F12查看內容,可以找到說說在feed_wrap這個<div>,<ol>裡面的<li>標籤數組裡面,具體每條說說內容在<div> class="bd"的<pre>標籤中。

python爬蟲學習:爬蟲QQ說說並生成詞雲圖,又是一波神操作
"

自學過一段時間的python,用django自己做了個網站,也用requests+BeautifulSoup爬蟲過些簡單的網站,週末研究學習了一波,準備爬取QQ空間的說說,並把內容存在txt中,讀取生成雲圖。

好久不登qq了,空間說說更是幾年不玩了,裡面滿滿的都是上學時候的回憶,看著看著就笑了,笑著笑著就...哈哈哈~~

無圖言虛空

python爬蟲學習:爬蟲QQ說說並生成詞雲圖,又是一波神操作

當年的我還是那麼風華正茂、幽默風趣...

言歸正傳,本次使用的是selenium模擬登錄+BeautifulSoup4爬取數據+wordcloud生成詞雲圖

喜歡的話關注收藏評論轉發比心麼麼噠!Python學習有大量的項目開發和新手教學視頻PDF書籍,轉發私信回覆【Python】

BeautifulSoup安裝

pip install beautifulsoup4

這裡有beautifulsoup4 的 官方文檔

還需要用到解析器,我選擇的是html5lib解析器pip install html5lib

下表列出了主要的解析器,以及它們的優缺點:

python爬蟲學習:爬蟲QQ說說並生成詞雲圖,又是一波神操作

selenium模擬登錄

使用selenium模擬登錄QQ空間,安裝pip install selenium

我用的是chrom瀏覽器,webdriver.Chrome(),獲取Chrome瀏覽器的驅動。這裡還需要下載安裝對應瀏覽器的驅動,否則在運行腳本時,會報錯同理window的也一樣,下載對應的驅動,解壓後,將下載的**.exe 放到Python的安裝目錄,例如 D:\\python 。 同時需要Python的安裝目錄添加到系統環境變量裡。qq登錄頁http://i.qq.com,利用webdriver打開qq空間的登錄頁面

python爬蟲學習:爬蟲QQ說說並生成詞雲圖,又是一波神操作
python爬蟲學習:爬蟲QQ說說並生成詞雲圖,又是一波神操作

打開之後右擊檢查查看頁面元素,發現帳號密碼登錄在login_frame裡,先定位到所在的frame,driver.switch_to.frame("login_frame") ,再自動點擊 帳號密碼登錄 按鈕,自動輸入帳號密碼登錄,並且打開說說頁面,詳細代碼如下

python爬蟲學習:爬蟲QQ說說並生成詞雲圖,又是一波神操作

這個時候可以看到已經打開了qq說說的頁面了,注意 部分空間打開之後會出現一個提示框,需要先模擬點擊事件關閉這個提示框

python爬蟲學習:爬蟲QQ說說並生成詞雲圖,又是一波神操作

同時因為說說內容是動態加載的,需要自動下拉滾動條,加載出全部的內容,再模擬點擊 下一頁 加載內容。具體代碼見下面。

BeautifulSoup爬取說說

F12查看內容,可以找到說說在feed_wrap這個<div>,<ol>裡面的<li>標籤數組裡面,具體每條說說內容在<div> class="bd"的<pre>標籤中。

python爬蟲學習:爬蟲QQ說說並生成詞雲圖,又是一波神操作
python爬蟲學習:爬蟲QQ說說並生成詞雲圖,又是一波神操作
"

自學過一段時間的python,用django自己做了個網站,也用requests+BeautifulSoup爬蟲過些簡單的網站,週末研究學習了一波,準備爬取QQ空間的說說,並把內容存在txt中,讀取生成雲圖。

好久不登qq了,空間說說更是幾年不玩了,裡面滿滿的都是上學時候的回憶,看著看著就笑了,笑著笑著就...哈哈哈~~

無圖言虛空

python爬蟲學習:爬蟲QQ說說並生成詞雲圖,又是一波神操作

當年的我還是那麼風華正茂、幽默風趣...

言歸正傳,本次使用的是selenium模擬登錄+BeautifulSoup4爬取數據+wordcloud生成詞雲圖

喜歡的話關注收藏評論轉發比心麼麼噠!Python學習有大量的項目開發和新手教學視頻PDF書籍,轉發私信回覆【Python】

BeautifulSoup安裝

pip install beautifulsoup4

這裡有beautifulsoup4 的 官方文檔

還需要用到解析器,我選擇的是html5lib解析器pip install html5lib

下表列出了主要的解析器,以及它們的優缺點:

python爬蟲學習:爬蟲QQ說說並生成詞雲圖,又是一波神操作

selenium模擬登錄

使用selenium模擬登錄QQ空間,安裝pip install selenium

我用的是chrom瀏覽器,webdriver.Chrome(),獲取Chrome瀏覽器的驅動。這裡還需要下載安裝對應瀏覽器的驅動,否則在運行腳本時,會報錯同理window的也一樣,下載對應的驅動,解壓後,將下載的**.exe 放到Python的安裝目錄,例如 D:\\python 。 同時需要Python的安裝目錄添加到系統環境變量裡。qq登錄頁http://i.qq.com,利用webdriver打開qq空間的登錄頁面

python爬蟲學習:爬蟲QQ說說並生成詞雲圖,又是一波神操作
python爬蟲學習:爬蟲QQ說說並生成詞雲圖,又是一波神操作

打開之後右擊檢查查看頁面元素,發現帳號密碼登錄在login_frame裡,先定位到所在的frame,driver.switch_to.frame("login_frame") ,再自動點擊 帳號密碼登錄 按鈕,自動輸入帳號密碼登錄,並且打開說說頁面,詳細代碼如下

python爬蟲學習:爬蟲QQ說說並生成詞雲圖,又是一波神操作

這個時候可以看到已經打開了qq說說的頁面了,注意 部分空間打開之後會出現一個提示框,需要先模擬點擊事件關閉這個提示框

python爬蟲學習:爬蟲QQ說說並生成詞雲圖,又是一波神操作

同時因為說說內容是動態加載的,需要自動下拉滾動條,加載出全部的內容,再模擬點擊 下一頁 加載內容。具體代碼見下面。

BeautifulSoup爬取說說

F12查看內容,可以找到說說在feed_wrap這個<div>,<ol>裡面的<li>標籤數組裡面,具體每條說說內容在<div> class="bd"的<pre>標籤中。

python爬蟲學習:爬蟲QQ說說並生成詞雲圖,又是一波神操作
python爬蟲學習:爬蟲QQ說說並生成詞雲圖,又是一波神操作
python爬蟲學習:爬蟲QQ說說並生成詞雲圖,又是一波神操作

至此QQ說說已經爬取下來,並且保存在了qq_word文件裡

接下來生成詞雲圖

使用wordcloud包生成詞雲圖,pip install wordcloud

這裡還可以使用jieba分詞,我並沒有使用,因為我覺得qq說說的句子讀起來才有點感覺,個人喜好,用jieba分詞可以看到說說高頻次的一些詞語。

設置下wordcloud的一些屬性,注意 這裡要設置font_path屬性,否則漢字會出現亂碼。

"

自學過一段時間的python,用django自己做了個網站,也用requests+BeautifulSoup爬蟲過些簡單的網站,週末研究學習了一波,準備爬取QQ空間的說說,並把內容存在txt中,讀取生成雲圖。

好久不登qq了,空間說說更是幾年不玩了,裡面滿滿的都是上學時候的回憶,看著看著就笑了,笑著笑著就...哈哈哈~~

無圖言虛空

python爬蟲學習:爬蟲QQ說說並生成詞雲圖,又是一波神操作

當年的我還是那麼風華正茂、幽默風趣...

言歸正傳,本次使用的是selenium模擬登錄+BeautifulSoup4爬取數據+wordcloud生成詞雲圖

喜歡的話關注收藏評論轉發比心麼麼噠!Python學習有大量的項目開發和新手教學視頻PDF書籍,轉發私信回覆【Python】

BeautifulSoup安裝

pip install beautifulsoup4

這裡有beautifulsoup4 的 官方文檔

還需要用到解析器,我選擇的是html5lib解析器pip install html5lib

下表列出了主要的解析器,以及它們的優缺點:

python爬蟲學習:爬蟲QQ說說並生成詞雲圖,又是一波神操作

selenium模擬登錄

使用selenium模擬登錄QQ空間,安裝pip install selenium

我用的是chrom瀏覽器,webdriver.Chrome(),獲取Chrome瀏覽器的驅動。這裡還需要下載安裝對應瀏覽器的驅動,否則在運行腳本時,會報錯同理window的也一樣,下載對應的驅動,解壓後,將下載的**.exe 放到Python的安裝目錄,例如 D:\\python 。 同時需要Python的安裝目錄添加到系統環境變量裡。qq登錄頁http://i.qq.com,利用webdriver打開qq空間的登錄頁面

python爬蟲學習:爬蟲QQ說說並生成詞雲圖,又是一波神操作
python爬蟲學習:爬蟲QQ說說並生成詞雲圖,又是一波神操作

打開之後右擊檢查查看頁面元素,發現帳號密碼登錄在login_frame裡,先定位到所在的frame,driver.switch_to.frame("login_frame") ,再自動點擊 帳號密碼登錄 按鈕,自動輸入帳號密碼登錄,並且打開說說頁面,詳細代碼如下

python爬蟲學習:爬蟲QQ說說並生成詞雲圖,又是一波神操作

這個時候可以看到已經打開了qq說說的頁面了,注意 部分空間打開之後會出現一個提示框,需要先模擬點擊事件關閉這個提示框

python爬蟲學習:爬蟲QQ說說並生成詞雲圖,又是一波神操作

同時因為說說內容是動態加載的,需要自動下拉滾動條,加載出全部的內容,再模擬點擊 下一頁 加載內容。具體代碼見下面。

BeautifulSoup爬取說說

F12查看內容,可以找到說說在feed_wrap這個<div>,<ol>裡面的<li>標籤數組裡面,具體每條說說內容在<div> class="bd"的<pre>標籤中。

python爬蟲學習:爬蟲QQ說說並生成詞雲圖,又是一波神操作
python爬蟲學習:爬蟲QQ說說並生成詞雲圖,又是一波神操作
python爬蟲學習:爬蟲QQ說說並生成詞雲圖,又是一波神操作

至此QQ說說已經爬取下來,並且保存在了qq_word文件裡

接下來生成詞雲圖

使用wordcloud包生成詞雲圖,pip install wordcloud

這裡還可以使用jieba分詞,我並沒有使用,因為我覺得qq說說的句子讀起來才有點感覺,個人喜好,用jieba分詞可以看到說說高頻次的一些詞語。

設置下wordcloud的一些屬性,注意 這裡要設置font_path屬性,否則漢字會出現亂碼。

python爬蟲學習:爬蟲QQ說說並生成詞雲圖,又是一波神操作

喜歡的話關注收藏評論轉發比心麼麼噠!Python學習有大量的項目開發和新手教學視頻PDF書籍,轉發私信回覆【資料】

"

自學過一段時間的python,用django自己做了個網站,也用requests+BeautifulSoup爬蟲過些簡單的網站,週末研究學習了一波,準備爬取QQ空間的說說,並把內容存在txt中,讀取生成雲圖。

好久不登qq了,空間說說更是幾年不玩了,裡面滿滿的都是上學時候的回憶,看著看著就笑了,笑著笑著就...哈哈哈~~

無圖言虛空

python爬蟲學習:爬蟲QQ說說並生成詞雲圖,又是一波神操作

當年的我還是那麼風華正茂、幽默風趣...

言歸正傳,本次使用的是selenium模擬登錄+BeautifulSoup4爬取數據+wordcloud生成詞雲圖

喜歡的話關注收藏評論轉發比心麼麼噠!Python學習有大量的項目開發和新手教學視頻PDF書籍,轉發私信回覆【Python】

BeautifulSoup安裝

pip install beautifulsoup4

這裡有beautifulsoup4 的 官方文檔

還需要用到解析器,我選擇的是html5lib解析器pip install html5lib

下表列出了主要的解析器,以及它們的優缺點:

python爬蟲學習:爬蟲QQ說說並生成詞雲圖,又是一波神操作

selenium模擬登錄

使用selenium模擬登錄QQ空間,安裝pip install selenium

我用的是chrom瀏覽器,webdriver.Chrome(),獲取Chrome瀏覽器的驅動。這裡還需要下載安裝對應瀏覽器的驅動,否則在運行腳本時,會報錯同理window的也一樣,下載對應的驅動,解壓後,將下載的**.exe 放到Python的安裝目錄,例如 D:\\python 。 同時需要Python的安裝目錄添加到系統環境變量裡。qq登錄頁http://i.qq.com,利用webdriver打開qq空間的登錄頁面

python爬蟲學習:爬蟲QQ說說並生成詞雲圖,又是一波神操作
python爬蟲學習:爬蟲QQ說說並生成詞雲圖,又是一波神操作

打開之後右擊檢查查看頁面元素,發現帳號密碼登錄在login_frame裡,先定位到所在的frame,driver.switch_to.frame("login_frame") ,再自動點擊 帳號密碼登錄 按鈕,自動輸入帳號密碼登錄,並且打開說說頁面,詳細代碼如下

python爬蟲學習:爬蟲QQ說說並生成詞雲圖,又是一波神操作

這個時候可以看到已經打開了qq說說的頁面了,注意 部分空間打開之後會出現一個提示框,需要先模擬點擊事件關閉這個提示框

python爬蟲學習:爬蟲QQ說說並生成詞雲圖,又是一波神操作

同時因為說說內容是動態加載的,需要自動下拉滾動條,加載出全部的內容,再模擬點擊 下一頁 加載內容。具體代碼見下面。

BeautifulSoup爬取說說

F12查看內容,可以找到說說在feed_wrap這個<div>,<ol>裡面的<li>標籤數組裡面,具體每條說說內容在<div> class="bd"的<pre>標籤中。

python爬蟲學習:爬蟲QQ說說並生成詞雲圖,又是一波神操作
python爬蟲學習:爬蟲QQ說說並生成詞雲圖,又是一波神操作
python爬蟲學習:爬蟲QQ說說並生成詞雲圖,又是一波神操作

至此QQ說說已經爬取下來,並且保存在了qq_word文件裡

接下來生成詞雲圖

使用wordcloud包生成詞雲圖,pip install wordcloud

這裡還可以使用jieba分詞,我並沒有使用,因為我覺得qq說說的句子讀起來才有點感覺,個人喜好,用jieba分詞可以看到說說高頻次的一些詞語。

設置下wordcloud的一些屬性,注意 這裡要設置font_path屬性,否則漢字會出現亂碼。

python爬蟲學習:爬蟲QQ說說並生成詞雲圖,又是一波神操作

喜歡的話關注收藏評論轉發比心麼麼噠!Python學習有大量的項目開發和新手教學視頻PDF書籍,轉發私信回覆【資料】

python爬蟲學習:爬蟲QQ說說並生成詞雲圖,又是一波神操作
"

相關推薦

推薦中...