Python爬取CSDN博客文章

編程語言 Python CSDN 文章代碼黑客 2017-05-14

CSDN的Python創意編程活動開始第一天就看到了，但是認為自己是菜鳥，就向當“吃瓜群眾”，後來看到有好多人的代碼是關於爬蟲的，當初我就是由於對爬蟲感興趣才自學的Python。現在也打算參加一下這個活動。

由於經常使用CSDN，所以收藏了好多優秀的文章，但是對於收藏夾沒有整理好，要回去找之前收藏的文章不是很方便，經過研究，就用自學的簡單Python爬蟲幫我吧。

去到首頁一看，收藏的文章是算是異步加載的吧。。但是每次都要點擊“顯示更多"才能看到後面的內容。

Python爬取CSDN博客文章

幸運的是我也知道一點異步加載的知識，就按F12進行研究：瀏覽後一些內容以後

Python爬取CSDN博客文章

雙擊打開Name下的鏈接：

Python爬取CSDN博客文章

現在來研究一下那個鏈接，

http://my.csdn.NET/my/favorite/get_favorite_list?pageno=2&pagesize=10&username=hurmishine

經過測試後發現，pageno這個參數控制顯示頁面起始編號，pagesize就是每頁顯示的數據條數。

我們可以通過改變參數來獲取全部信息。

最後確定的鏈接為：

http://my.csdn.Net/my/favorite/get_favorite_list?pageno=0&pagesize=10000&username=hurmishine

pagesize儘量設大一點,如果收藏的實際數量少於參數,將會以實際數量顯示。

對於每一條數據：

{"id":"12653825","username":"hurmishine","url":"http:\/\/blog.csdn.net\/marksinoberg\/article\/details\/70946107","domain":"blog.csdn.net","title":"CSDN 博客備份工具 - 更上一層樓！ - 博客頻道 - CSDN.NET","description":"","share":"1","dateline":"1493451002","map_name":""},

對於我來說有用的只有url和title，我們用正則表達式匹配出來即可。

完整代碼如下,具體細節自己體會:

#coding:utf-8
import urllib,urllib2,re,cookielib
def saveByText():
f=open("html.html")#保存到本地的文件名
html = f.read();
#"url":"http:\/\/blog.csdn.net\/zhangweiguo_717\/article\/details\/52716677",
#"title":"Python模擬登錄CSDN - 博客頻道 - CSDN.NET",
# urls = re.findall(r'"url":"(.*?)",',html)
# links = re.findall(r'"title":"(.*?)",',html)
links = re.findall(r'"url":"(.*?)",.*?"title":"(.*?)"',html)
f2=open("index.html","w")
f2.write("<meta charset='utf-8'>\r\n")
index=0
for link in links :
ans=link[1].decode('unicode-escape').encode('utf-8')
# print ans
ans=ans.replace(' - 博客頻道 - CSDN.NET','').replace("\/",'/')
# print ans
url = link[0].replace("\/",'/')
index+=1
f2.write(''+' '*10+str(index)+"、"+"\n<a href="+url+' target="_blank">'+'\n')
f2.write(''+ans+"</a> \n\n")
f2.close()
if __name__ == '__main__':
saveByText()

結果顯示：

Python爬取CSDN博客文章

相關推薦

'金勒普杯王天一七戰6勝1平領先群雄，17歲天才少年許文章異軍突起'

"關注象棋王子頭條號，第一時間知曉棋壇大事，品讀象棋大師精彩戰局，免費學習開局、中局、殘局系統課程，從業1提升至業8。橘中鵬翼垂天長、譜上梅花吐芳馥，北京時間9月15日，2019年金勒普杯象棋精英公開賽在浙江溫州瑞安塘下鎮豪門洲際宴會中心結束第二比賽日的爭奪。最終等級分全國...

中國象棋文章宋宣公柳大華浙江省趙金 2019-09-19

'軟木塞汙染的前世今生，一篇文章大起底'

"前兩天小編試酒，“很幸運”喝到一款教科書級別的軟木塞汙染的酒：吾搖酒杯千百遍，果香花香終不來……實不知這到底是怎麼回事？看到這篇原文，正好可以解答這個問題，和大家一起分享。據記載，公元前 5 世紀，希臘人就開始用使用軟木塞了。一方面，軟木塞帶來了濃郁的文化氛圍和儀式感，現...

文章葡萄酒化學環境汙染青黴菌農藥酵母 2019-09-19

'文章推薦量太低？大神教新手提高文章閱讀量的5個技巧，瞭解一下'

"什麼樣的標題容易吸引讀者的眼球？什麼樣的標題最能擊中用戶痛點？什麼樣的標題能讓用戶不得不點擊？好標題的四原則1、價值感：每天發文章都要想標題，為什麼寫不出好的標題呢，這就是為什麼看這篇文章的價值2、實用性：看這篇文章我能得到什麼？3、獨特性：你這篇文章和別人有什麼差異，我...

文章讀書湖北南京好好學習宜昌 2019-09-19

'Python網絡數據採集入門教程'

"在這篇文章中，我們將介紹Python提供的幾乎所有的網絡數據採集工具，你可以將本文看作是我們的《終極網絡數據採集指南》的系列文章。我們將從最基本的工具到最先進的工具進行介紹，並將涵蓋每一個的利弊。當然，我們並不能涵蓋我們討論的每個工具的所有方面，但是這篇文章應該足以讓你瞭...

Python 瀏覽器 Chrome HTML 文章 JavaScript JSON CSS Apache Nginx 操作系統 Reddit OS X 2019-09-19

'文章離婚後首現身，導演話劇順利謝幕，180度鞠躬謝觀眾將回歸？'

"圖/文：達人鈞鈞獨家原創！未經授權嚴禁任何公眾號或其他自媒體轉載！抄襲者一概舉報！！最近網上爆出一組視頻，視頻中文章90度鞠躬向觀眾表示謝意，雙手合十誠意滿滿。這次算是文章離婚後的首次現身，出演新話劇表現謙遜！自被爆出軌姚笛以後文章的事業算是一落千丈，很少帶作品出現在熒幕...

文章馬伊琍文章離婚話劇不完美媽媽鑑劇大賞小爸爸金雞獎 2019-09-18

'曾因反對馬伊琍文章而翻臉，如今卻被罵上熱搜，42歲她成最美媽媽'

"生活的真諦就是迴歸初心，收穫幸福。去追求自己的理想，追求自己發自內心想要的生活方式和工作，知道自己為什麼而活。說到劉孜，相信大家都不陌生，早年拍過不少作品，是大家眼中熟悉的演員。只是近些年，劉孜結婚後，將重心迴歸到家庭和孩子身上，已經很少出現在大眾的視線中，甚至讓大家已經...

劉孜文章馬伊琍文章離婚滕華濤蘇明成不是反派角色高圓圓不完美媽媽讓夢發生蔣欣李光潔設計師週末綜藝指南徐靜蕾北京電影學院人生第一份工作有型有料實力派設計大眾汽車果敢 2019-09-18

'Python什麼情況下會生成 pyc文件？通過pyc文件瞭解Python運行原理'

"由於最近一位同學在做分佈式計算時，部分模塊只把 pyc文件拷貝部署至遠程計算節點，導致主節點程序更新後，計算節點拋出了錯誤異常，於是有了這篇文章...示例如下，有兩個py模塊，testops.py 與 testops_imported.py模塊。我們先來看 testops...

Python 分佈式計算 2019-09-18

'家裡經常買雞蛋的，抓緊看看文章，懂的人還不多，越早知道越受益'

"各位觀眾老爺大家好，給大家鞠個躬，這裡是生活竅門達人，每天給大家分享實用的生活小妙招。摘要：雞蛋營養豐富是優質蛋白質、B族維生素的良好來源，還能提供一定數量的脂肪和礦物質。平時家裡買回來的雞蛋可以用過擺放的方式，溫水和大米等方法進行儲存，能有效延長保鮮時間。難度係數：★準...

雞蛋冰箱與陳坤一起探索新鮮度文章食品安全原汁原味的德系SUV 大腸桿菌 2019-09-18

'《英才》雜誌封面文章 | 宋志平：中國建材的三精模式'

"【能源人都在看，點擊右上角加“關注”】↑《英才》雜誌9月刊封面↑“現在的中國建材集團是一個非常能賺錢，非常會賺錢，非常值錢的公司”。近日，中國建材集團黨委書記、董事長宋志平接受《英才》雜誌獨家專訪，今天，小料將全文分享給大家。中國建材集團黨委書記、董事長宋志平中國建材的...

宋志平中國建築材料集團技術海螺水泥中國建築文章中國中材建築材料能源中聯集團 2019-09-18

'小料：姚晨、李現、陳曉、文章馬伊琍、楊紫徐嬌、潘瑋柏、某女星'

"姚晨在《都挺好》火了一把後，跟劉濤的競爭最激烈，搶走張雨綺的資源最多。李現曾經買過海綿寶寶的胖次，但沒想到把號碼買小了，就算了。陳曉挺不拘小節的，出席活動衣服不太好看或者鞋子不合適也都照樣穿，不會為了這個去為難工作人員。文章和馬伊琍離婚之後，路只會更難走。之前馬伊琍在娛樂...

潘瑋柏馬伊琍文章離婚姚晨文章徐嬌楊紫陳曉跳槽那些事兒張雨綺服裝頭條女神弱關聯—清宮Q傳何潔的瘦身花路海綿寶寶鞋 2019-09-18

'貓常做出一些怪異行為，一篇文章告訴你背後的原理'

"貓是非常常見的一種寵物，在國內寵物圈來說，飼養數量僅次於狗，與狗相比，貓總是帶有一絲神祕感，另外還要高冷許多。養過貓的朋友們在日常生活中，可能會發現“喵星人”常常會做出一些令人難以理解或者意想不到的事情來。其實不管是貓還是其他寵物，所做出的任何動作或者行為都是有原因的，而...

貓鼠動物獅子睡眠文章虎玩具美洲豹不完美媽媽讓夢發生甦醒 2019-09-18

'知名博主曝將有明星情侶複合，推測是文章姚笛？'

"在9月16日，網絡上突然出現一個“內娛出現意難忘”的曝料，瞬間該曝料也引起了很多大V和網友的注意力；說起娛樂圈的“意難平”，相信很多網友並不陌生，如鄭秀文和許志安、謝霆鋒王菲、梁朝偉劉嘉玲等明星情侶，他們都曾經過分分合合，但最終都因某種原因重新在一起；對於娛樂圈的意難忘，...

馬伊琍文章離婚文章馬伊琍鄭爽張翰劉嘉玲梁朝偉王菲謝霆鋒金晨張鈞甯鄭秀文 2019-09-18

'齊文化與稷下學高峰論壇（2019）在臨淄開幕！於海田致辭：一起做好齊文化這篇大文章'

"記者李波報道9月16日，齊文化與稷下學高峰論壇（2019）在淄博市臨淄區齊文化博物館開幕。本次論壇由北京大學、山東省社科聯、淄博市政府主辦，北京大學哲學系、中共淄博市委宣傳部承辦，齊文化研究院、淄博市社科聯、淄博市文化和旅遊局、臨淄區政府協辦。來自北京大學、清華大學、...

淄博文化中國人民大學大學北京大學歷史山東文章清華大學臺灣大學高峰臺灣日本 2019-09-18

'糖尿病人適合吃什麼堅果？怎麼吃？吃多少？一篇文章告訴你'

"堅果是指可食用的種子，如花生、瓜子、榛子、核桃、杏仁、松子等，堅果類食物富含脂肪，這部分脂肪主要是不飽和脂肪酸（亞油酸和亞麻酸），同時堅果含多種礦物質元素，維生素E和B族維生素，適量攝入對健康有益。糖尿病患者可以適當選擇堅果，但是堅果不是想吃就吃的，怎麼吃、吃多少都有講究...

堅果糖尿病腰果花生板栗榛樹杏仁文章黃麴黴燕麥瓜子 2019-09-18

'用Python實現進制轉換，這一篇教程就夠了！這也太完美了'

"前言Python 實現進制轉換一、導言導語：在計算機進行數據交換時，常常會有一個進制轉換的過程，我們知道計算機只認0 和 1.在內存系統中，基本基於二進制進行運算的，但是有時候數據過於龐大，為了方便存儲管理，計算機會使用十六進制存儲數據，但是怎麼實現數據轉換呢？我們人類由...

Python 電腦 C語言腳本語言工程師迪吉多 2019-09-18

'“文章接女兒被拒，李小璐帶甜馨攀巖”婚姻不再，親情還在'

"這個中秋小長假，離異的家庭火了。逢佳節倍思親，父母離異後，孩子跟誰過節，成了焦點。文章和馬伊琍離婚的事，大家都已經知悉了。文章因為電視劇《裸婚時代》，與女主角姚笛假戲真做。2013年在馬伊琍剛生二胎期間，文章被爆出軌。馬伊琍在幾經掙扎之後，用一句“戀愛容易，婚姻不易，且行...

李小璐不完美媽媽賈雲馨文章馬伊琍文章離婚賈乃亮戀愛春節家書中秋節攀巖頭條女神裸婚時代賈寶玉 2019-09-18

'一篇文章看懂：減脂期到底該怎麼吃，3個月體脂率下降5%'

"原創內容，擅自搬運者必究！健身圈素有“三分練，七分吃”的說法，雖然你知道吃的重要性，但不代表你會吃。特別是在減脂的道路上，很多人總想著利用各種方式去減脂，但是更多人是走上了錯誤的道路，導致越減越肥。看完這篇文章，遵循3個飲食原則，讓你擁有一個好身材！1. 遠離節食減脂需要...

文章蔬菜堅果麵包麵條何潔的瘦身花路生活冷知識烹飪技巧 2019-09-18

'用 Python 寫一個安卓 APP'

"作者：youerning來源：http://youerning.blog.51cto.com/10513771/1733534前言用 Python 寫安卓 APP 肯定不是最好的選擇，目前用Java和 kotlin 寫的居多，但是肯定也是一個很偷懶的選擇，而且實在不想學習...

Python Android Java Linux Windows 虛擬機 Google Apache VirtualBox iOS Kotlin GitHub 設計 VMware 電腦 2019-09-18

'固安縣打造鄉村振興新樣板做好美麗鄉村大文章'

"“固安這個地方太好玩了，賞花，採摘，體驗民俗風情，吃喝玩樂應有盡有，我經常帶著老人和孩子來這邊玩。”來自北京的遊客王勝強對固安的鄉村旅遊讚歎不已。固安縣把“美麗鄉村”建設與發展農村旅遊相結合，因地制宜，突出特色，保持田園風光、增加現代基礎設施。同時，注重傳承優秀文化，在體...

固安第二十二屆中國農加工投洽會農村合作社農民文章文化不完美媽媽農產品河北廊坊 2019-09-18

'容易暈車的人是什麼體質？怎麼才能預防暈車？文章講一講'

"中醫把人的體質分為平和質、陰虛質、陽虛質、氣虛質、血虛質、痰溼質、溼熱質、異稟質等八種。一般的，經常出現暈車的多見於氣虛質、血虛質的人群。也就是說氣虛、血虛或氣血兩虛的人容易出現暈車。其實，容易暈車可能跟自身平衡性差有關，人體的平衡受三個系統的影響，即前庭系統、視覺系統以...

中醫文章睡眠體育 2019-09-18

推薦中...