Node.js 爬蟲抓取豆瓣租房信息

租房 Node.js 網絡爬蟲 HTML 靈數大師 2017-04-06

豆瓣上有不少租房小組，每個小組都有自己的房源。對要尋找租房信息的用戶來說，到各個小組中去查找的合適的房源信息，需要花很長的時間和精力。筆者也正是遇到這樣的問題，於是寫了個程序自動收集各個租房小組的房源，提供統一查詢功能。另外，當有合適的新房源發佈後，筆者希望第一時間接到房源上線通知，畢竟好房源大家都搶著要，早一刻聯繫房東多一點機會租道合適的房子。

先上圖，讓大家看看效果。大家也可以上www.qianxuzufang.com/wx瀏覽。每個房源包含以下信息：

標題
發佈時間
圖片
房源詳細描述
原文鏈接
戶型
租金
房東聯繫方式

Node.js 爬蟲抓取豆瓣租房信息

查詢結果展示

Node.js 爬蟲抓取豆瓣租房信息

房源詳情展示

接下來介紹如何從豆瓣中抓取這些信息。首先需要分析一下豆瓣網頁結構，我需要抓取的網頁其實就只有兩個。第一個是租房小組的房源列表頁面。舉個例子看這個租房小組：https://www.douban.com/group/279962/，分析其頁面結構，如下圖：

Node.js 爬蟲抓取豆瓣租房信息

上圖看到的是在Chrome開發調試模式下打開豆瓣小組的效果，左側是瀏覽器中的展示效果，右側是HTML源碼。這個頁面非常整齊，每條房源記錄都是<tr class="">開頭，</tr>結束。

Node.js 爬蟲抓取豆瓣租房信息

抓取房源列表

使用parseHouseList函數，我們就能獲取一個房源信息的列表，list中每一個元素都是一條房源記錄的原始信息，如下圖：

Node.js 爬蟲抓取豆瓣租房信息

房源信息源碼

房源原始信息裡面包含：房源標題，鏈接，發佈時間，發貼人信息等。同樣的，我們可以用獲取房源列表的方法來提取這些信息。

Node.js 爬蟲抓取豆瓣租房信息

提取房源信息

接下來我們要抓取的就是房源的詳細信息頁了，其結構如下圖:

Node.js 爬蟲抓取豆瓣租房信息

房源詳細信息源碼結構

Node.js 爬蟲抓取豆瓣租房信息

提取房源詳細信息

抓取房源詳細信息的時候使用html-to-text這個npm包，它可以幫從房源描述信息中去除我們不需要的html標籤，把html源碼直接轉成文本。抓取圖片url的方法與之類似，不再累述了。

到目前為止，我們已經能抓取房源標題、發佈時間、詳細信息、房源鏈接和圖片了。剩下的房租、戶型和房東聯繫方式等信息是無法用上面的方法抓取的。我們需要分析標題和房源詳細信息，從中提取一下模式，然後使用正則表達式來抽取這些信息。

Node.js 爬蟲抓取豆瓣租房信息

提取租金信息

上圖是使用正則表達式提取房租信息的代碼，使用正則表達式的關鍵是要學習提取模式。同樣的可以用下面的正則表達式提取聯繫方式、戶型等信息。

const phoneNumberPatt=/((手機|電話)(:|：|\s)?(\s)?(1[3|5|7|8|][0-9]{8}))/;
const snsPatt=/((微信|qq|QQ)號?(:|：|\s)?(\s)?([\d\w_一二兩三四五六七八九零]{5,}))/;
const areaPatt=/(\d{1,3})(多)?[平|㎡]/;
const modelPatt=/(([\d一二兩三四五六七八九])[居室房]([123一二兩三]廳)?([12一二兩]廚)?([1234一二兩三四]衛)?([12一二兩]廚)?)/;

到目前為止，我們已經能提取所有我們想要的信息了。但實際操作中，我們可能會遇到一些其他問題，需要注意：

出了豆瓣外，我們還可以抓取58同城，趕集網等的個人房源信息，總之越多越好。
如果房源比較多，為了提高抓取效率，可以使用多線程並行抓取。Node.js天生的事件機制非常適合並行抓取。
豆瓣有反爬蟲機制，如果我們短時間內請求數目太多的話，會上豆瓣的黑名單，導致無法繼續抓取房源。解決辦法：
i. 控制Node.js並行抓取的數目
ii. 設定好抓取頻率，如每10分鐘抓取一次，可以改為每小時抓取一次
iii. 使用多機多ip輪流抓取
同一套房源在多個小組發佈時，我們並不希望看到它在查詢結果中出現多次，需要聚合這些房源。
如何保存這些房源信息，提高查詢效率？
查詢結果比較多時，該如何對這些房源進行排序呢？
用戶查詢‘清華大學’時，可能想看周邊的房源，我們是不是能給用戶推薦‘五道口’的房源呢？（注：清華大學和五道口離的很近，故清華大學又被稱為五道口男子技院）
如何自動識別過濾中介發佈的房源？

關於上面這些問題，我將在以後的文章陸續介紹相應的解決辦法。請大家多多支持。

最後如果大家想體驗或使用上面的租房信息搜索引擎的話，可以關注微信公眾號：千尋租房；或訪問網站：http://www.qianxuzufang.com/wx

相關推薦

'一文帶你瞭解爬蟲'

"前段時間我媽突然問我：兒子，爬蟲是什麼？我當時既驚訝又尷尬，驚訝的是為什麼我媽會對爬蟲好奇？尷尬的是我該怎麼給她解釋呢？一、爬蟲介紹1.爬蟲是什麼網絡爬蟲(web crawler 簡稱爬蟲)就是按照一定規則從互聯網上抓取信息的程序，既然是程序那和正常用戶訪問頁面有何區別？...

網絡爬蟲搜索引擎 Python 百度搜狗 Java 軟件 PHP 跳槽那些事兒 Linux Google 人生第一份工作騰訊 MySQL 中國鐵路客戶服務中心雅虎金山軟件 Perl 海豚美團網 Bing 天貓淘寶網 Ruby 螞蟻金服蟒蛇創業企鵝 2019-09-19

'「金色熱線」雲南楚雄：降低門檻讓外來務工者也可申請公租房'

"“我是一名來自四川的建築工人，在楚雄市租房已經三年多了。現在租房成本比較高，我想在楚雄市申請一套公租房，請問申請公租房需要什麼條件？”聽眾徐女士諮詢。9月12日，楚雄彝族自治州委副書記、州長遲中華率隊做客“金色熱線”節目，就群眾關心的公租房問題進行了解答。“這是一個群眾比...

楚雄租房雲南保障房彝族四川建築 2019-09-18

'廣州購房小白，衝動之下買房，月供一個月後，覺得租房比買房靠譜'

"我曾經說過：“買錯房的人，十個九個都是衝動惹的禍”。今天有位粉絲髮私信給我，急迫的想要我的電話，憑我的直覺，我知道這位粉絲一定遇到了購房問題。粉絲在頭條的私信大房哥與粉絲的聊天記錄他遇到的問題基本就是購房後悔疑慮症，這種症狀都是購房者在衝動，沒有清楚的瞭解過自己的經濟實力...

租房購房經濟讓夢發生廣州婚姻 2019-09-18

'南京租房紀實：所謂的租房補貼，對多少畢業生而言其實沒有意義'

"文/樓市大家談（quanadcom）從去年至今，二線城市人才爭奪戰可謂是不斷升級，作為二線城市的代表，南京自然也加入到人才爭奪的行列，在一般人眼中看來，人才爭奪戰的去庫存色彩相當濃厚，但從南京的舉措來看，吸引人才、增加人才儲備、提高城市競爭力，實際上才是人才爭奪的主要目的...

租房南京二手房大學錢琳宿遷 2019-09-18

'53歲“天王”郭富城被曝一人養全家，每月開銷超10萬替岳父母租房'

"近日，53歲的郭富城被港媒拍到全家在機場辦理手續，除了郭富城、方媛，以及大女兒C寶之外，郭富城的岳父岳母也緊隨其後。郭富城和方媛結婚生女後，岳父岳母便一同隨著方媛從上海移居香港。為了方便岳父岳母照顧兩個小女兒。郭富城每月專門花費超過10萬元，在大坑城堡多租了一個房子給岳父...

郭富城租房服裝讓夢發生上海香港 2019-09-18

'若風租房選豪宅，小戚卻說喜歡小房子，向太點破兩人相處模式'

"娛樂圈內的明星但凡出名上節目曝光的住所基本都是豪宅，這無可厚非，畢竟每個人努力賺錢都是為過上好日子，在能力範圍之內選擇住豪宅理所應當，不只有娛樂圈的明星如此，人有錢之後都會選擇住大房子，比如電競圈大神若風和戚藍尹住的豪宅很奢華。獨棟別墅分上下層，客廳面積也是超過普通住宅。...

租房讓夢發生不完美媽媽夢想改造家第六季 2019-09-17

'Kali Linux實戰篇：WEB信息收集與滲透測試實戰課程'

"聲明：本頭條號【Kali技術】所有分享，僅限學習交流！請勿他用！1、確定目標獲得目標域名，真實ip(注意cdn)，子域名，旁站，c段。（擴大範圍更容易成功）2、收集網站信息whois信息，網站負責人信息。（姓名、生日、手機、qq、微信、郵箱等用於社工及製作字典）操作系統、...

Linux Kali Linux PHP 黑客 Bing ASP 操作系統 JSP Google 騰訊QQ 數據庫網絡爬蟲搜索引擎 Windows 腳本語言 2019-09-17

'郭富城現身機場，跳舞賣萌逗女兒開心，為岳父母租房月銷十萬'

"近日，有港媒拍到郭富城一家現身機場的照片。郭富城帶著帽子和口罩包裹嚴實，身邊一同出行的方媛也一身休閒裝，粉色T恤牛仔褲帶著大墨鏡，一家人其樂融融。郭富城和範媛身後似乎還跟著方媛的父母，應該是一同前往香港居住。郭富城不僅是寵妻狂魔，而且這次還化身女兒奴，天王全程都抱著...

郭富城舞蹈租房不完美媽媽有型有料實力派讓夢發生性感模特 2019-09-17

'有一種“租房星二代”，叫“蹭爹超跑”郭麒麟'

"如今很多“明星爸爸”，都開始帶著自己的孩子上綜藝了，看來也是有意要培養“星二代”們。其實星二代的起點肯定要比那些沒背景的藝人高，但是，星二代畢竟有一代的光環罩著，雖然人氣可以，但是口碑很少有能夠超越父輩的。郭德綱對郭麒麟和自己的徒弟們，那可真是一視同仁，在這一點，沒任何人...

郭麒麟超級跑車租房德雲社不完美媽媽跑車相聲郭德綱孟非于謙跳槽那些事兒 2019-09-16

'“鴿子籠”式合租房安全隱患多'

"青海新聞網·青海新聞客戶端訊原本100平方米左右的房屋，被用隔斷分割成幾間大小不等的小房間，甚至連陽臺、廚房都被“利用”起來，由於價格低廉，這種合租房吸引了大批剛畢業的大學生和務工人員前來租住。殊不知，這種合租房存在極大的安全隱患，一但發生意外，後果不堪設想。近日，記者...

租房讓夢發生人生第一份工作建築消防西寧設計大學劉麗 2019-09-16

'2019-2020年：租房好還是買房好'

"作為資深租房愛好者，必須說，租房沒有負債這一點，真是非常贊。很多人說搬家的問題。我個人通常都是年付，甚至兩年付，直接籤5年的合同，也就是五年一搬。這意味著你可以自己購買很多喜歡的家電和傢俱，通常來說現在的工業製品5年也差不多可以更新了。公司附近有家的感覺，尤其又在年輕打拼...

租房讓夢發生人生第一份工作不完美媽媽投資 2019-09-16

'在南京租房，辦理居住證房東不配合？有個方法可以不看房東臉色'

"來到南京發展在南京租房子住現在需要辦理居住證房東不配合不給房產證辦不了備案居住證拿不下來，怎麼辦？除了備案+租房合同辦理居住證還有一種方法可以！租房辦理居住證租房辦理居住證需要準備的材料：1. 本人身份證2.提交房屋租賃登記備案證明或者勞動合同或者連續繳納社會保險...

租房社會保險購房文章南京人生第一份工作江蘇 2019-09-16

'攤上事了！哈登租房被索賠30萬美元，球迷表示：女人果然不能信'

"都說NBA球員花錢如流水，雖然日進斗金，但也是日出鬥金啊！在休賽期裡，詹姆斯-哈登為了度假，租下了一座大約1347平米的比弗利山莊豪宅。而這座別墅的租金更是讓筆者目瞪口呆，哈登在8月與房東George Santopietro簽訂合同：租用豪宅一週，租金8.22萬美元。此時...

詹姆斯·哈登租房勒布朗·詹姆斯讓夢發生越投入越精彩 2019-09-16

'python爬蟲模擬微博登錄'

"微博模擬登錄這是本次爬取的網址：https://weibo.com/一、請求分析找到登錄的位置，填寫用戶名密碼進行登錄操作看看這次請求響應的數據是什麼這是響應得到的數據，保存下來exectime: 8nonce: "HW9VSX"pcid: "gz-4ede4c6269a...

Python 微博網絡爬蟲百度 2019-09-16

'史上最全的租房攻略來了！趕緊收下吧！（推薦收藏）'

"房子，始終是我們生活中的大事。然而，對我們這些剛走上社會的年輕人來說，順利、有效地解決掉房子問題，還真不是一件容易的事情。比如，靈遙和落筆一刀在北京的時候，就因為過度地在意通勤時間，忘了去考慮房間的光照條件。結果，整一個夏秋冬，我們都不得不面臨著一個近80平方的房子，只有...

租房第一次租房裝修收藏良心國貨大賞人生第一份工作 58同城豆瓣同城 2019-09-16

'14位老友一起養花種菜，租房養老！網友：是理想的老年生活了'

"還記得日本的7位單身老奶奶，一起抱團養老的故事嗎？一輩子不結婚、不生娃，老了以後就和朋友們一起生活，大家互相串門彼此照應，一起組團去旅遊，互相排解煩惱，把老年生活過成了詩。不過，這樣的生活可不是日本老奶奶的專屬。這不，14位中國爺爺奶奶就向我們展示了，什麼叫做“嚮往的老年...

不完美媽媽租房日本春節家書 2019-09-16

'電競大神若風租房被趕走，不吃三粒安眠藥睡不著，要立遺囑'

"《我家小兩口》戚藍尹若風夫婦迴歸，馬上就抓住了觀眾的眼球。這兩個人不僅活的真實，還什麼都要放在大屏幕上來說。其他幾對就不一樣，郭碧婷向佐比較穩重，戚薇李承鉉比較恩愛，杜若溪嚴屹寬比較生活化。這次，若風夫婦的問題非常多，不僅一直吵架還會哭。若風其實是一個電競大神，玩遊戲還是...

安眠藥電子競技租房不完美媽媽李承鉉戚薇郭碧婷杜若溪睡眠嚴屹寬讓夢發生向佐 2019-09-16

'東莞市住房公積金租房提取需滿足什麼條件？'

"東莞市住房公積金租房提取需滿足什麼條件?受理條件1、適用範圍:適用於申請人及其家庭成員在本市無自有產權住房,申請人申請提取住房公積金用作支付房租的補充資金。2、代辦要求:已辦理提取賬戶綁定或資金轉入已激活的東莞社保卡儲蓄賬戶的申請人可委託他人代辦此類業務，代辦人出示個人有...

住房公積金東莞租房跳槽那些事兒法律 2019-09-16

'“杭州女生租房遭房東強姦未遂”案宣判：房東因強姦罪獲刑'

"來源：錢江晚報原標題那個侵犯我的男人，終於被判刑了一年前，在杭州的出租房內，當時18歲的張婷差點被房東性侵，她堅持報了案等待判決的一年，對她來說殊為不易，男方母親揚言“你想讓他坐牢，我要你的命”記者吳朝香文/攝女孩一直靠自己一個人打這個官司。“樓某某判刑了，強姦罪，兩...

性侵犯租房杭州刑法不完美媽媽讓夢發生錢江晚報新聞 2019-09-15

'Python學習乾貨史上最全的 Python 爬蟲工具列表大全'

"這個列表包含與網頁抓取和數據處理的Python庫。網絡通用urllib -網絡庫(stdlib)。requests -網絡庫。grab – 網絡庫（基於pycurl）。pycurl – 網絡庫（綁定libcurl）。urllib3 – Python HTTP庫，安全連接池...

Python 網絡爬蟲 HTML Scrapy XML 瀏覽器 CSS XHTML jQuery C語言 JSON Excel 可視化技術 2019-09-15

推薦中...