搜索引擎的工作原理

落地為王 2017-04-28

SEO指根據一定策略、運用特定計算機程序從互聯網上搜集信息,在對信息進行組織和處理後,為用戶提供檢索服務,將用戶檢索相關的信息展示給用戶的系統。

又可理解為通過自然搜索結果獲得網站流量的技術和過程,在瞭解搜索引擎自然排名機制的基礎上,對網站進行內外調整優化,改進網站在搜索引擎中的關鍵詞自然排名,從而獲取更多流量。它是英文Search Engine Optimization的縮寫,譯為“搜索引擎優化”。

搜索引擎分類:

搜索引擎的工作原理

分類

介紹主流的三種,目錄索引Yahoo、新浪;元搜索引擎Dogpile搜星搜索;全文索引百度、谷歌。

搜索引擎工作原理

爬行和抓取

蜘蛛:搜索引擎用來爬行和訪問頁面的程序被稱為蜘蛛,也稱網絡爬蟲。

各主流搜索引擎蜘蛛的名稱:

搜索引擎的工作原理

網絡爬蟲

百度:Baiduspider、Baiduspider-mobile(抓取wap)、Baiduspider-image(抓取圖片)、Baiduspider-video(抓取視頻)、Baiduspider-news(抓取新聞)。

谷歌:Googlebot

雅虎:“Yahoo! Slurp China”或者Yahoo!

360蜘蛛:360Spider,它是一個很“勤奮抓爬”的蜘蛛

微軟MSN: msnbot、網易有道:Roundabout、宜sou蜘蛛:EasouSpider

“蜘蛛其實還有很多,不過再寫下去就有水的嫌疑了”

搜索引擎收錄流程:

搜索引擎的工作原理

搜索引擎收錄流程

1)抓取:抓蟲通過百度、谷歌等搜索引擎進行首頁、欄目頁、內容等抓取,在互聯網中發現、蒐集網頁信息,不過諸如js、Flash、inframe框架是不利於蜘蛛抓取的。

2)過濾:過濾不符合網站的相關內容,將那些內容雜亂無章、難易排序、採集的內容沒有價值,不符合用戶的需求的內容過濾掉,好的資源都放在數據庫中。

3)存儲:對信息進行有質量的提取和組織建立索引庫

4)排序:當用戶在搜索欄中輸入關鍵詞或目標詞組後,搜索引擎能快速調用索引庫(數據庫)信息,搜索引擎通過一系列複雜的算法對即將呈現的結果進行復雜的分析計算,排列出先後名次,呈現在用戶面前,方便用戶查詢預覽。

排名的先後當然取決於用戶和搜索引擎的認可程度

提到搜索引擎,自然就避不開百度,雖然它為人詬病的地方相當不少。

我們平時看到的搜索界面,實際上只是搜索引擎系統的一個檢索界面,當你輸入關鍵詞查詢時,搜索引擎會從龐大的數據庫中找到符合該關鍵詞的所有相關網頁的索引,並按一定的排名規則呈現給用戶。不同的搜索引擎排名不盡相同。

蜘蛛抓取策略

深度優先

什麼是深度優先?簡單的說,就是搜索引擎蜘蛛在一個頁面發現一個連接然後順著這個連接爬下去,然後在下一個頁面又發現一個連接,然後就又爬下去並且全部抓取,這就是深度優先抓取策略。

假如不是很理解,不妨理解為某個神祕的文件夾,打開打開再打開。

寬度優先

寬度優先比較好理解,就是搜索引擎蜘蛛先把整個頁面的鏈接全部抓取一次,然後在抓取下一個頁面的全部鏈接。所以網頁的層度不能太多,否則會導致收錄難,因為它妨礙了搜索引擎蜘蛛的寬度優先策略。

搜索引擎的工作原理

權重優先

寬度優先比深度優先,只能說各有各的好處,而且蜘蛛都是兩種抓取策略一起用,也就是深度優先+寬度優先, 只不過在使用兩種策略抓取時,會參照鏈接的權重,如果說這條連接的權重還不錯,那麼採用前者,權重低,那麼採用寬度優先!

那麼蜘蛛怎樣知道鏈接的權重呢?有2個因素,層次的多與少、外鏈多少與質量;

重訪抓取

比如今天蜘蛛來抓取了的網頁,如果明天網頁加了新的內容,那麼蜘蛛會來抓取新的內容!重訪抓取分為全部重訪:指蜘蛛上次抓取的鏈接,然後在這一個月的某一天,全部重新去訪問抓取一次!單個重訪:針對某個頁面更新的頻率比較快比較穩定的頁面,如果說有個頁面1個月不更新。那麼蜘蛛第三天就不來了,會隔段時間,比如隔個半年,或等全部重訪時再來。

以上是搜索引擎蜘蛛抓取網頁的一些內容,望對諸位有所幫助,有任何獨到見解,還請不吝賜教(就是多評論),另外勿忘“輕點”關注QAQ,後面的內容更精彩~~

PS:檢查網站是否收錄的方法:

搜索引擎的工作原理請點擊此處輸入圖片描述

1)在百度搜索框中輸入,site:網站網址

2)在站長工具當中輸入域名,進行查詢(域名該知道是什麼罷QAQ)

相關推薦

推薦中...