seo工作者都知道搜索引擎原理,通常是指在萬維網(wǎng)上收集數(shù)千萬到數(shù)十億個(gè)網(wǎng)頁,并對(duì)頁面中每個(gè)關(guān)鍵詞進(jìn)行索引,從而建立一個(gè)索引數(shù)據(jù)庫的全文搜索引擎。當(dāng)用戶查找某個(gè)關(guān)鍵詞的時(shí)候,所有在頁面內(nèi)容中包含了該關(guān)鍵詞的網(wǎng)頁都將作為搜索結(jié)果被搜出來。再經(jīng)過復(fù)雜的算法進(jìn)行排序,最終按順序展示出來。搜索引擎工作原理有四個(gè)步驟即:爬行,抓取,索引和收錄。那么,它們具體是什么呢?下面小編詳細(xì)和大家介紹下。
1.爬行
爬行是指搜索引擎蜘蛛從已知頁面解析出指向URL的鏈接,然后沿著鏈接找到新頁面的過程。當(dāng)然,蜘蛛并不是在找到新URL時(shí)立即取去爬行抓取新頁面。相反,它們將找到的URL存儲(chǔ)在待抓取的地址庫中。蜘蛛會(huì)按照順序從地址庫中提取要抓取的URL。
2.抓取
抓取是搜索引擎蜘蛛從地址庫中提取要爬行的URL,訪問這個(gè)URL,將讀取的HTML代碼存入數(shù)據(jù)庫。蜘蛛抓取和用戶訪問瀏覽器相同,也會(huì)在服務(wù)器的原始日志中留下記錄。
3.索引
索引是指將URL的信息整理并存入數(shù)據(jù)庫,即索引庫。當(dāng)用戶搜索時(shí),搜索引擎從索引庫中提取URL信息并按順序顯示。索引的英文是index。索引庫用于搜索,因此用戶可以搜索被索引的URL,而未被索引的URL在用戶的搜索結(jié)果中不可見。
4.收錄
收錄和索引之間幾乎沒有差異,只是收錄是從用戶的角度來看,搜索時(shí)可以找到這個(gè)URL,就說明這個(gè)URL被收錄了,從搜索引擎的角度來看,URL包被收錄了,即在索引庫中存在的URL的信息。