說起SEO優化,相信大家都已經學習了不少知識。那麼要是問到搜索引擎是如何工作的,可能大家就不甚瞭解了。今天就來聊聊搜索引擎的那些事
1提取文字
由於搜索引擎蜘蛛抓取的是頁面的HTML代碼,裡面包含了大量的HTML標籤、js等無法用到排名上的內容,所以搜索引擎索引首先要做的就是把其中的HTML標籤、js去掉,保留剩下的頁面文字內容。
2中文分詞
中文分詞是中文搜索引擎特有的步驟,英文單詞之間會有空格作分隔,而中文詞與詞之間沒有分隔符號,一個句子字與詞都是連在一起的。中文搜索引擎必須首先分辨那幾個字組成一個詞,哪些字本身就是一個詞。比如“健身方法”將被分詞為“健身”和“方法”兩個詞。
3去停止詞
在頁面內容中會存在很多對內容沒有任何影響的詞,比如"的"、"之"、"卻"、"啊"之類。搜索引擎在索引時會把這些詞去掉,讓頁面內容的主題更加突出。
4去重(為什麼偽原創弊大於利)
搜索引擎為了減少搜索結果中出現的重複內容會選取頁面內容中出現頻率最高的詞,通常會選出10個左右關於頁面的關鍵詞來計算頁面的“指紋”。
5索引
經過以上步驟之後,搜索引擎就可以提煉出可以代表一個頁面內容的一些關鍵詞,同時記錄這些詞在頁面上的出現頻率、出現次數、格式、位置等信息。
6鏈接關係計算
當頁面中存在鏈接時,搜索引擎會計算這些鏈接都只想哪些頁面,每個頁面都有哪些導入鏈接,鏈接使用了什麼錨文字,這些複雜的鏈接指向關係形成了網站和頁面的鏈接權重。
這些鏈接關係也是百度計算權重的重要依據之一,至於百度權重和鏈接分析會在以後的文章中專門介紹。
7頁面質量判斷
在這個階段,搜索引擎會對頁面內容質量、鏈接質量等作出判斷,比如百度的綠蘿、石榴算法。
相關推薦
'如何知道對方是否喜歡你,在微信上發這7個字,一試便知道'
"戀愛中的女生很容易缺失安全感,以前就經常聽身邊的兄弟說自己的女朋友喜歡翻看自己的手機,一看到聊天記錄中有女生的話,就會一直追問那個女生是誰,女生做的很多事情都是想確定對方是否喜歡自己,其實很多時候,不需要那麼極端的試探,你可以問一些很平常的問題,如果你有暗戀對象,想判斷這...
'劣質書皮影響孩子健康,如何為孩子挑選適合的書皮,家長知道嗎?'
"文 | 小微談育兒(文章原創 ,版權歸本作者所有,歡迎個人轉發分享)孩子包書皮彷彿成為了一種時尚,每個人都會選擇自己喜歡的樣式、圖案、風格等,來為自己的新書“穿”上嫁衣。然而書皮卻能引發許多問題,家長們卻不知道。前兩天瞭解到一個新聞,說的是幾個月前,一位父親錄製了題為“父...
'看了這篇文章,你就知道當年法國四小天鵝是如何隕落的'
"之前兩個賽季在墨西哥美洲表現平庸的梅內近期與球隊解約,有可能被意甲球隊免籤。本阿爾法上賽季在逃離巴黎後加盟了野心勃勃的雷恩,結束了一個出色的賽季,不過合同臨近到期時因為與主帥矛盾未能完成續約,現在無球可踢。在安德萊赫特的納斯里,在老朋友孔帕尼的“英明”帶領下,不僅聯賽翻車...
'如何選擇一份合適自己的工作?'
"圖片來源:699pic.com1. 不開心了就不幹了這是我對於職業選擇的一個基本觀念:讓我不開心的工作,一定不宜久留。我在國網的工作是物資管理崗,基層的同學每次見面都表達對我的無限歆羨:他們要爬鐵塔、鑽纜溝,我呆在辦公室對著電腦打打字、接接電話就能賺和他們差不多的工資。但...
'職場生存法則:下級如何做好領導講話精神的整理工作?'
"今天這一篇主要是針對祕書人員來寫的。祕書人員經常要跟隨領導參加各種會議和場合,無論在哪種場合,領導都可能會發表一些講話,有的正式,有的隨意。祕書的一項很重要的任務,就是要把領導在各個不同場合的講話內容記錄並整理出來,以備領導使用。因為領導的一些新觀點、新思想,以及他即將實...
推薦中...