所屬欄目:資訊知識 > 網(wǎng)絡(luò)營銷 >
The news announcement搜索引擎的工作原理
文章出自:西安同成網(wǎng)絡(luò) ??
更新日期: 2022-04-12 ??
搜索引擎工作過程大致可以分為三個(gè)階段:
1.爬行和抓?。?br>
搜索引擎蜘蛛通過跟蹤鏈接發(fā)現(xiàn)和訪問網(wǎng)頁,讀取頁面HTML代碼,存入數(shù)據(jù)庫。
2.預(yù)處理:
索引程序?qū)χ┲胱ト淼捻撁鏀?shù)據(jù)進(jìn)行文字提取,中文分詞、索引、倒排、索引處理等。以備排名調(diào)用
3.排名:
當(dāng)有用戶輸入查詢詞后。排名程序調(diào)用索引數(shù)據(jù),計(jì)算相關(guān)性,然后按一定的格式生成搜索結(jié)果頁面。
接下來我們詳細(xì)的介紹一下
一、爬行和抓取
1.搜索引擎用來獲取頁面和訪問頁面的程序被稱之為蜘蛛。蜘蛛向程序發(fā)出頁面訪問請求,服務(wù)器返回HTML代碼。蜘蛛程序把收到的代碼存入原始頁面數(shù)據(jù)庫。
2.跟蹤鏈接,為了盡可能多的抓取網(wǎng)上的頁面,搜索引擎蜘蛛會(huì)跟蹤頁面上的鏈接,從一個(gè)頁面爬行到另一個(gè)頁面。
蜘蛛爬行策略大致分為兩種:深度優(yōu)先、廣度優(yōu)先。
所謂的深度優(yōu)先指蜘蛛沿著一個(gè)頁面不停向前爬行,直到前面沒有鏈接后停止。
廣度優(yōu)先是指在一個(gè)頁面發(fā)現(xiàn)很多鏈接時(shí),不是直接去爬行發(fā)現(xiàn)的鏈接頁面。而是先把當(dāng)前頁面下所有鏈接收錄完成,跟著再去爬行發(fā)現(xiàn)的鏈接頁面。
3.吸引蜘蛛:
蜘蛛理論上是會(huì)爬行完所有頁面,但是實(shí)際上不是。搜索引擎也不會(huì)這么做,seo優(yōu)化人員要做的事情是讓蜘蛛來抓取自己的頁面。那么怎樣的網(wǎng)站搜索引擎蜘蛛會(huì)看重呢?
(1)網(wǎng)站和頁面權(quán)重高: 質(zhì)量高的網(wǎng)站搜索引擎蜘蛛會(huì)去更多的收錄它。
(2)頁面更新度:蜘蛛每次爬行都會(huì)把頁面數(shù)據(jù)存起來,如果第二次爬行發(fā)現(xiàn)和第一次沒有變化,說明頁面沒有更新,蜘蛛也就沒有必要經(jīng)常來抓取了。
(4)與首頁距離:一般來說網(wǎng)站上權(quán)重高的是首頁,大部分外部鏈接也都是指向首頁,蜘蛛訪問最頻繁的也是首頁。離首頁距離越近,頁面權(quán)重越高。
(5)導(dǎo)入鏈接:無論是外部鏈接還是內(nèi)部鏈接,頁面要被搜索引擎蜘蛛抓取就必須要有導(dǎo)入鏈接進(jìn)入頁面。否則蜘蛛根本沒有直到頁面存在的機(jī)會(huì)。
(6)URL結(jié)構(gòu):頁面權(quán)重是在收錄后進(jìn)行迭代計(jì)算后才知道的,那么前面說也頁面權(quán)重高有利于收錄,但是搜索引擎蜘蛛還沒有爬行這個(gè)頁面怎么直到它的權(quán)重呢?蜘蛛主要會(huì)預(yù)判,根據(jù)鏈接的長短、與首頁的距離和歷史數(shù)據(jù)等來判斷的。
4.地址庫
為了避免重復(fù)爬行,搜索引擎會(huì)建立一個(gè)地址庫,記錄被發(fā)現(xiàn)的所有鏈接、但還沒有抓取的鏈接以及已經(jīng)被抓取的頁面。
地址庫URL來源:
(1)人工錄入
(2)蜘蛛抓取
(3)自動(dòng)提交機(jī)制
二、預(yù)處理
1.抓取頁面進(jìn)行剝離代碼工作,HTML代碼對于搜索引擎來說是不需要要的,所以他們要先進(jìn)行剝離。
2.中文分詞
將剝離好的語句按詞的形式進(jìn)行劃分,分詞主要有兩種方法:一是基于詞典匹配,二是基于數(shù)據(jù)統(tǒng)計(jì)。
3.去停止詞
比如用戶搜索會(huì)有:的、得、地、啊、哈、呀、什么等字眼,這些對搜索引擎是無謂得。
4.消除噪音
絕大多數(shù)頁面上還有一部分對頁面主題沒有貢獻(xiàn),比如版權(quán)文字、導(dǎo)航條、廣告等。
5.去重
搜索引擎不喜歡偽原創(chuàng)文章,如果頁面都收錄,那用戶搜索時(shí)會(huì)出現(xiàn)不同的網(wǎng)站同一篇文章展示,那樣用戶會(huì)很反感。
6.正向索引
通過以上步驟會(huì)得到以詞會(huì)索引的字符串,也就是關(guān)鍵詞集合頁面。搜索引擎將頁面得所有關(guān)鍵詞進(jìn)行排列統(tǒng)計(jì),統(tǒng)一排列在頁面之后。
7倒向排列
搜索引擎根據(jù)關(guān)鍵詞,進(jìn)行表格布置。將所有出現(xiàn)這個(gè)關(guān)鍵詞得頁面進(jìn)行排布。
8.鏈接關(guān)系
收錄一個(gè)頁面搜索引擎必須直到有哪些鏈接指向了這個(gè)頁面,這個(gè)頁面又出去哪些鏈接。并且每一個(gè)鏈接得錨文本要進(jìn)行統(tǒng)計(jì)。
9.質(zhì)量判斷
在預(yù)處理階段,搜索引擎會(huì)對頁面內(nèi)容質(zhì)量、鏈接質(zhì)量等做出判斷。
三、排名
1.搜索詞處理
搜索引擎會(huì)對用戶得搜索語句進(jìn)行分詞、去停止詞、指令處理、拼詞錯(cuò)誤矯正、整合搜索觸發(fā)、搜索框提示等。
2.文件匹配
搜索詞進(jìn)行處理后開始對搜索詞進(jìn)行頁面匹配工作,當(dāng)匹配出幾十萬甚至幾百萬詞后。但是搜索引擎只顯示幾十個(gè)結(jié)果,這里最主要時(shí)頁面權(quán)重。頁面權(quán)重越高,排名越好。
3.搜索緩存
2/8定律,20%得搜索詞占80%搜索量,搜索引擎不會(huì)每一次都進(jìn)行處理,他會(huì)有排名緩存機(jī)制。
- 上一篇: 百度搜索引擎里面的高級指令有哪些?PREV CASE
- 下一篇: 軟文營銷的優(yōu)勢NEXT CASE