網絡爬蟲系列(一):網絡連接與網絡信息

機器學習 網絡爬蟲 路由器 大數據 技術妞妞 2017-06-09

大數據的時代,擁有海量數據就等同叩響了人工智能、機器學習乃至深度學習的大門。國內的BAT企業無疑就是這樣的,百度有數以千億的用戶搜索數據,阿里巴巴有著海量的用戶消費記錄,而騰訊則掌握了用戶每時每刻的社交信息。從數據的產生到最終轉換為有效信息需要經過很多步驟,數據採集,數據清洗,數據存儲以及數據挖掘,這就涉及到網絡數據採集,數據預處理,數據庫以及機器學習算法等方面的知識。

我們談到擁有的數據就等同擁有了豐富的資源,我們可以用各種挖掘工具來隱藏在裡面的隱形信息。但是比較小的企業或者是個人如果也想擁有海量數據,沒有像百度、阿里、騰訊這樣的平臺,我們應該怎樣利用互聯網來進行數據採集呢?

雖然每天都在接觸互聯網,但是絕大數的用戶並不知道互聯網是怎麼工作的,當我們打開瀏覽器輸入網址的時候,一個回車就能迅速打開我們想要的網頁。下面舉一個簡單的例子來簡單的說明一下互聯網的連接。

網絡爬蟲系列(一):網絡連接與網絡信息

當我們要去訪問百度,其實就是我們自己的這檯筆記本想要和百度的那臺服務器進行對話,我們的電腦會發送一串1和0比特值,表示電路上的高低電壓,然後再加上我們電腦所在網絡A本地路由器的MAC地址和電腦的IP地址,首先會先發送到我們電腦所在網絡的本地路由器上,本地路由器在這段接收的數據上蓋上自己的IP地址作為發件地址,按照收件中寫的收件地址發送到百度那臺服務器所在的網絡中B中,B中路由器首先會接收到,按照收件人的IP地址發送對應的服務器上。

接收的數據請求頭還包含目標端口,目標端口負責對應的應用。對應的應用讀取受到的數據,如果我們請求訪問www.baidu.com,默認會訪問index.html的文件,服務器找到對應的文件打包成新的數據包發送到我們的電腦上,通過網絡解析,我們就瀏覽到了百度的首頁。

網絡爬蟲系列(一):網絡連接與網絡信息

我們瞭解網絡中數據是如何傳遞的,當我們想要從一個網站或者是多個網站上獲得海量的數據時,我們的網絡爬蟲就登場了,如同爬蟲他的名字一樣,互聯網像一個巨大的蜘蛛網,而網絡爬蟲則像蜘蛛網上的蜘蛛一樣,可以從一張網爬到另一張網,採集需要的數據。利用網絡爬蟲我們可以採集到知乎上用戶的性別分佈,可以採集到今日頭條上關於鹿晗的評論,還可以從多個網站上採集到股票的變化的趨勢。

網絡爬蟲系列(一):網絡連接與網絡信息

相關推薦

推薦中...