天天百度百度,那你知道搜索引擎是如何工作的麼?

HTML 文章 蜘蛛 科技 總管商學院 2017-03-31

說起SEO優化,相信大家都已經學習了不少知識。那麼要是問到搜索引擎是如何工作的,可能大家就不甚瞭解了。今天就來聊聊搜索引擎的那些事

天天百度百度,那你知道搜索引擎是如何工作的麼?

1提取文字

由於搜索引擎蜘蛛抓取的是頁面的HTML代碼,裡面包含了大量的HTML標籤、js等無法用到排名上的內容,所以搜索引擎索引首先要做的就是把其中的HTML標籤、js去掉,保留剩下的頁面文字內容。

2中文分詞

中文分詞是中文搜索引擎特有的步驟,英文單詞之間會有空格作分隔,而中文詞與詞之間沒有分隔符號,一個句子字與詞都是連在一起的。中文搜索引擎必須首先分辨那幾個字組成一個詞,哪些字本身就是一個詞。比如“健身方法”將被分詞為“健身”和“方法”兩個詞。

3去停止詞

在頁面內容中會存在很多對內容沒有任何影響的詞,比如"的"、"之"、"卻"、"啊"之類。搜索引擎在索引時會把這些詞去掉,讓頁面內容的主題更加突出。

4去重(為什麼偽原創弊大於利)

搜索引擎為了減少搜索結果中出現的重複內容會選取頁面內容中出現頻率最高的詞,通常會選出10個左右關於頁面的關鍵詞來計算頁面的“指紋”。

5索引

經過以上步驟之後,搜索引擎就可以提煉出可以代表一個頁面內容的一些關鍵詞,同時記錄這些詞在頁面上的出現頻率、出現次數、格式、位置等信息。

6鏈接關係計算

當頁面中存在鏈接時,搜索引擎會計算這些鏈接都只想哪些頁面,每個頁面都有哪些導入鏈接,鏈接使用了什麼錨文字,這些複雜的鏈接指向關係形成了網站和頁面的鏈接權重。

這些鏈接關係也是百度計算權重的重要依據之一,至於百度權重和鏈接分析會在以後的文章中專門介紹。

7頁面質量判斷

在這個階段,搜索引擎會對頁面內容質量、鏈接質量等作出判斷,比如百度的綠蘿、石榴算法。

相關推薦

推薦中...