搜索引擎的工作原理
文章出自：西安同成網(wǎng)絡(luò) ?? 更新日期： 2022-04-12 ??

搜索引擎工作過程大致可以分為三個(gè)階段：

1.爬行和抓?。?br> 搜索引擎蜘蛛通過跟蹤鏈接發(fā)現(xiàn)和訪問網(wǎng)頁，讀取頁面HTML代碼，存入數(shù)據(jù)庫。
2.預(yù)處理：
索引程序?qū)χ┲胱ト淼捻撁鏀?shù)據(jù)進(jìn)行文字提取，中文分詞、索引、倒排、索引處理等。以備排名調(diào)用
3.排名：
當(dāng)有用戶輸入查詢詞后。排名程序調(diào)用索引數(shù)據(jù)，計(jì)算相關(guān)性，然后按一定的格式生成搜索結(jié)果頁面。

接下來我們詳細(xì)的介紹一下

一、爬行和抓取
1.搜索引擎用來獲取頁面和訪問頁面的程序被稱之為蜘蛛。蜘蛛向程序發(fā)出頁面訪問請求，服務(wù)器返回HTML代碼。蜘蛛程序把收到的代碼存入原始頁面數(shù)據(jù)庫。
2.跟蹤鏈接，為了盡可能多的抓取網(wǎng)上的頁面，搜索引擎蜘蛛會(huì)跟蹤頁面上的鏈接，從一個(gè)頁面爬行到另一個(gè)頁面。
蜘蛛爬行策略大致分為兩種：深度優(yōu)先、廣度優(yōu)先。
所謂的深度優(yōu)先指蜘蛛沿著一個(gè)頁面不停向前爬行，直到前面沒有鏈接后停止。
廣度優(yōu)先是指在一個(gè)頁面發(fā)現(xiàn)很多鏈接時(shí)，不是直接去爬行發(fā)現(xiàn)的鏈接頁面。而是先把當(dāng)前頁面下所有鏈接收錄完成，跟著再去爬行發(fā)現(xiàn)的鏈接頁面。
3.吸引蜘蛛：
蜘蛛理論上是會(huì)爬行完所有頁面，但是實(shí)際上不是。搜索引擎也不會(huì)這么做，seo優(yōu)化人員要做的事情是讓蜘蛛來抓取自己的頁面。那么怎樣的網(wǎng)站搜索引擎蜘蛛會(huì)看重呢？
（1）網(wǎng)站和頁面權(quán)重高：質(zhì)量高的網(wǎng)站搜索引擎蜘蛛會(huì)去更多的收錄它。
（2）頁面更新度：蜘蛛每次爬行都會(huì)把頁面數(shù)據(jù)存起來，如果第二次爬行發(fā)現(xiàn)和第一次沒有變化，說明頁面沒有更新，蜘蛛也就沒有必要經(jīng)常來抓取了。
（4）與首頁距離：一般來說網(wǎng)站上權(quán)重高的是首頁，大部分外部鏈接也都是指向首頁，蜘蛛訪問最頻繁的也是首頁。離首頁距離越近，頁面權(quán)重越高。
（5）導(dǎo)入鏈接：無論是外部鏈接還是內(nèi)部鏈接，頁面要被搜索引擎蜘蛛抓取就必須要有導(dǎo)入鏈接進(jìn)入頁面。否則蜘蛛根本沒有直到頁面存在的機(jī)會(huì)。
（6）URL結(jié)構(gòu)：頁面權(quán)重是在收錄后進(jìn)行迭代計(jì)算后才知道的，那么前面說也頁面權(quán)重高有利于收錄，但是搜索引擎蜘蛛還沒有爬行這個(gè)頁面怎么直到它的權(quán)重呢？蜘蛛主要會(huì)預(yù)判，根據(jù)鏈接的長短、與首頁的距離和歷史數(shù)據(jù)等來判斷的。
4.地址庫
為了避免重復(fù)爬行，搜索引擎會(huì)建立一個(gè)地址庫，記錄被發(fā)現(xiàn)的所有鏈接、但還沒有抓取的鏈接以及已經(jīng)被抓取的頁面。
地址庫URL來源：
（1）人工錄入
（2）蜘蛛抓取
（3）自動(dòng)提交機(jī)制

二、預(yù)處理
1.抓取頁面進(jìn)行剝離代碼工作，HTML代碼對于搜索引擎來說是不需要要的，所以他們要先進(jìn)行剝離。
2.中文分詞
將剝離好的語句按詞的形式進(jìn)行劃分，分詞主要有兩種方法：一是基于詞典匹配，二是基于數(shù)據(jù)統(tǒng)計(jì)。
3.去停止詞
比如用戶搜索會(huì)有：的、得、地、啊、哈、呀、什么等字眼，這些對搜索引擎是無謂得。
4.消除噪音
絕大多數(shù)頁面上還有一部分對頁面主題沒有貢獻(xiàn)，比如版權(quán)文字、導(dǎo)航條、廣告等。
5.去重
搜索引擎不喜歡偽原創(chuàng)文章，如果頁面都收錄，那用戶搜索時(shí)會(huì)出現(xiàn)不同的網(wǎng)站同一篇文章展示，那樣用戶會(huì)很反感。
6.正向索引
通過以上步驟會(huì)得到以詞會(huì)索引的字符串，也就是關(guān)鍵詞集合頁面。搜索引擎將頁面得所有關(guān)鍵詞進(jìn)行排列統(tǒng)計(jì)，統(tǒng)一排列在頁面之后。
7倒向排列
搜索引擎根據(jù)關(guān)鍵詞，進(jìn)行表格布置。將所有出現(xiàn)這個(gè)關(guān)鍵詞得頁面進(jìn)行排布。
8.鏈接關(guān)系
收錄一個(gè)頁面搜索引擎必須直到有哪些鏈接指向了這個(gè)頁面，這個(gè)頁面又出去哪些鏈接。并且每一個(gè)鏈接得錨文本要進(jìn)行統(tǒng)計(jì)。
9.質(zhì)量判斷
在預(yù)處理階段，搜索引擎會(huì)對頁面內(nèi)容質(zhì)量、鏈接質(zhì)量等做出判斷。

三、排名
1.搜索詞處理
搜索引擎會(huì)對用戶得搜索語句進(jìn)行分詞、去停止詞、指令處理、拼詞錯(cuò)誤矯正、整合搜索觸發(fā)、搜索框提示等。
2.文件匹配
搜索詞進(jìn)行處理后開始對搜索詞進(jìn)行頁面匹配工作，當(dāng)匹配出幾十萬甚至幾百萬詞后。但是搜索引擎只顯示幾十個(gè)結(jié)果，這里最主要時(shí)頁面權(quán)重。頁面權(quán)重越高，排名越好。
3.搜索緩存
2/8定律，20%得搜索詞占80%搜索量，搜索引擎不會(huì)每一次都進(jìn)行處理，他會(huì)有排名緩存機(jī)制。

轉(zhuǎn)載請注明：http://m.mhsqf.cn
西安網(wǎng)站建設(shè) , 西安網(wǎng)站制作 , 西安網(wǎng)站設(shè)計(jì) , 西安做網(wǎng)站 , 西安網(wǎng)站建設(shè)公司 , 西安網(wǎng)站優(yōu)化 , 西安網(wǎng)站推廣，西安網(wǎng)絡(luò)公司 , 西安微信公眾平臺開發(fā) , 微信公眾平臺搭建，微信公眾平臺營銷

上一篇：百度搜索引擎里面的高級指令有哪些？PREV CASE
下一篇：軟文營銷的優(yōu)勢NEXT CASE

所屬欄目：資訊知識 > 網(wǎng)絡(luò)營銷 >

搜索引擎的工作原理 文章出自：西安同成網(wǎng)絡(luò) ?? 更新日期： 2022-04-12 ??

搜索引擎的工作原理
文章出自：西安同成網(wǎng)絡(luò) ?? 更新日期： 2022-04-12 ??