站點(diǎn)地圖 | 7*24小時(shí)服務(wù)熱線:180-9262-8583
我們的一些事 / SOME OF THE THINGS ABOUT US

所屬欄目:資訊知識 > 網(wǎng)絡(luò)營銷 >

The news announcement

搜索引擎的工作原理
文章出自:西安同成網(wǎng)絡(luò) ?? 更新日期: 2022-04-12 ??

搜索引擎工作過程大致可以分為三個(gè)階段:

1.爬行和抓?。?br> 搜索引擎蜘蛛通過跟蹤鏈接發(fā)現(xiàn)和訪問網(wǎng)頁,讀取頁面HTML代碼,存入數(shù)據(jù)庫。
2.預(yù)處理:
索引程序?qū)χ┲胱ト淼捻撁鏀?shù)據(jù)進(jìn)行文字提取,中文分詞、索引、倒排、索引處理等。以備排名調(diào)用
3.排名:
當(dāng)有用戶輸入查詢詞后。排名程序調(diào)用索引數(shù)據(jù),計(jì)算相關(guān)性,然后按一定的格式生成搜索結(jié)果頁面。

接下來我們詳細(xì)的介紹一下

一、爬行和抓取
1.搜索引擎用來獲取頁面和訪問頁面的程序被稱之為蜘蛛。蜘蛛向程序發(fā)出頁面訪問請求,服務(wù)器返回HTML代碼。蜘蛛程序把收到的代碼存入原始頁面數(shù)據(jù)庫。
2.跟蹤鏈接,為了盡可能多的抓取網(wǎng)上的頁面,搜索引擎蜘蛛會(huì)跟蹤頁面上的鏈接,從一個(gè)頁面爬行到另一個(gè)頁面。
蜘蛛爬行策略大致分為兩種:深度優(yōu)先、廣度優(yōu)先。
所謂的深度優(yōu)先指蜘蛛沿著一個(gè)頁面不停向前爬行,直到前面沒有鏈接后停止。
廣度優(yōu)先是指在一個(gè)頁面發(fā)現(xiàn)很多鏈接時(shí),不是直接去爬行發(fā)現(xiàn)的鏈接頁面。而是先把當(dāng)前頁面下所有鏈接收錄完成,跟著再去爬行發(fā)現(xiàn)的鏈接頁面。
3.吸引蜘蛛:
蜘蛛理論上是會(huì)爬行完所有頁面,但是實(shí)際上不是。搜索引擎也不會(huì)這么做,seo優(yōu)化人員要做的事情是讓蜘蛛來抓取自己的頁面。那么怎樣的網(wǎng)站搜索引擎蜘蛛會(huì)看重呢?
(1)網(wǎng)站和頁面權(quán)重高: 質(zhì)量高的網(wǎng)站搜索引擎蜘蛛會(huì)去更多的收錄它。
(2)頁面更新度:蜘蛛每次爬行都會(huì)把頁面數(shù)據(jù)存起來,如果第二次爬行發(fā)現(xiàn)和第一次沒有變化,說明頁面沒有更新,蜘蛛也就沒有必要經(jīng)常來抓取了。
(4)與首頁距離:一般來說網(wǎng)站上權(quán)重高的是首頁,大部分外部鏈接也都是指向首頁,蜘蛛訪問最頻繁的也是首頁。離首頁距離越近,頁面權(quán)重越高。
(5)導(dǎo)入鏈接:無論是外部鏈接還是內(nèi)部鏈接,頁面要被搜索引擎蜘蛛抓取就必須要有導(dǎo)入鏈接進(jìn)入頁面。否則蜘蛛根本沒有直到頁面存在的機(jī)會(huì)。
(6)URL結(jié)構(gòu):頁面權(quán)重是在收錄后進(jìn)行迭代計(jì)算后才知道的,那么前面說也頁面權(quán)重高有利于收錄,但是搜索引擎蜘蛛還沒有爬行這個(gè)頁面怎么直到它的權(quán)重呢?蜘蛛主要會(huì)預(yù)判,根據(jù)鏈接的長短、與首頁的距離和歷史數(shù)據(jù)等來判斷的。
4.地址庫
為了避免重復(fù)爬行,搜索引擎會(huì)建立一個(gè)地址庫,記錄被發(fā)現(xiàn)的所有鏈接、但還沒有抓取的鏈接以及已經(jīng)被抓取的頁面。
地址庫URL來源:
(1)人工錄入
(2)蜘蛛抓取
(3)自動(dòng)提交機(jī)制

二、預(yù)處理
1.抓取頁面進(jìn)行剝離代碼工作,HTML代碼對于搜索引擎來說是不需要要的,所以他們要先進(jìn)行剝離。
2.中文分詞
將剝離好的語句按詞的形式進(jìn)行劃分,分詞主要有兩種方法:一是基于詞典匹配,二是基于數(shù)據(jù)統(tǒng)計(jì)。
3.去停止詞
比如用戶搜索會(huì)有:的、得、地、啊、哈、呀、什么等字眼,這些對搜索引擎是無謂得。
4.消除噪音
絕大多數(shù)頁面上還有一部分對頁面主題沒有貢獻(xiàn),比如版權(quán)文字、導(dǎo)航條、廣告等。
5.去重
搜索引擎不喜歡偽原創(chuàng)文章,如果頁面都收錄,那用戶搜索時(shí)會(huì)出現(xiàn)不同的網(wǎng)站同一篇文章展示,那樣用戶會(huì)很反感。
6.正向索引
通過以上步驟會(huì)得到以詞會(huì)索引的字符串,也就是關(guān)鍵詞集合頁面。搜索引擎將頁面得所有關(guān)鍵詞進(jìn)行排列統(tǒng)計(jì),統(tǒng)一排列在頁面之后。
7倒向排列
搜索引擎根據(jù)關(guān)鍵詞,進(jìn)行表格布置。將所有出現(xiàn)這個(gè)關(guān)鍵詞得頁面進(jìn)行排布。
8.鏈接關(guān)系
收錄一個(gè)頁面搜索引擎必須直到有哪些鏈接指向了這個(gè)頁面,這個(gè)頁面又出去哪些鏈接。并且每一個(gè)鏈接得錨文本要進(jìn)行統(tǒng)計(jì)。
9.質(zhì)量判斷
在預(yù)處理階段,搜索引擎會(huì)對頁面內(nèi)容質(zhì)量、鏈接質(zhì)量等做出判斷。

三、排名
1.搜索詞處理
搜索引擎會(huì)對用戶得搜索語句進(jìn)行分詞、去停止詞、指令處理、拼詞錯(cuò)誤矯正、整合搜索觸發(fā)、搜索框提示等。
2.文件匹配
搜索詞進(jìn)行處理后開始對搜索詞進(jìn)行頁面匹配工作,當(dāng)匹配出幾十萬甚至幾百萬詞后。但是搜索引擎只顯示幾十個(gè)結(jié)果,這里最主要時(shí)頁面權(quán)重。頁面權(quán)重越高,排名越好。
3.搜索緩存
2/8定律,20%得搜索詞占80%搜索量,搜索引擎不會(huì)每一次都進(jìn)行處理,他會(huì)有排名緩存機(jī)制。


返回
轉(zhuǎn)載請注明:http://m.mhsqf.cn
西安網(wǎng)站建設(shè) , 西安網(wǎng)站制作 , 西安網(wǎng)站設(shè)計(jì) , 西安做網(wǎng)站 , 西安網(wǎng)站建設(shè)公司 , 西安網(wǎng)站優(yōu)化 , 西安網(wǎng)站推廣西安網(wǎng)絡(luò)公司 , 西安微信公眾平臺開發(fā) , 微信公眾平臺搭建 , 微信公眾平臺營銷
合作流程:
1

意向洽談
2

簽訂合同
3

完成初稿確認(rèn)
4

服務(wù)建設(shè)開展
5

客戶驗(yàn)收回饋
6

售后服務(wù)

關(guān)注我們: 新浪微博

?