整個(gè)互聯(lián)網(wǎng)站點(diǎn)都是由鏈接組成的,也就是說(shuō),搜索引擎蜘蛛從任何頁(yè)面最終都會(huì)爬行所有頁(yè)面。
當(dāng)然,網(wǎng)站和網(wǎng)頁(yè)的鏈接結(jié)構(gòu)太復(fù)雜,所以蜘蛛只能用一定的方法來(lái)抓取所有的網(wǎng)頁(yè),據(jù)民間SEO高手了解最簡(jiǎn)單的爬行策略有三種:
1 最佳優(yōu)先
最佳優(yōu)先搜索策略根據(jù)特定的網(wǎng)頁(yè)分析算法預(yù)測(cè)候選URL和目標(biāo)頁(yè)面之間的相似度或與主題的相關(guān)性,并選擇一個(gè)或幾個(gè)評(píng)價(jià)最佳的URL進(jìn)行爬取。它只訪問(wèn)通過(guò)網(wǎng)頁(yè)分析算法預(yù)測(cè)有用的網(wǎng)頁(yè)。
存在的問(wèn)題是,爬蟲(chóng)抓取路徑上的許多相關(guān)頁(yè)面可能被忽略,因?yàn)樽顑?yōu)優(yōu)先級(jí)策略是局部最優(yōu)搜索算法,所以需要將最優(yōu)優(yōu)先級(jí)與特定應(yīng)用結(jié)合起來(lái)加以改進(jìn),以便跳出局部最優(yōu)點(diǎn)。通過(guò)對(duì)SEO優(yōu)化網(wǎng)絡(luò)的研究,可以實(shí)現(xiàn)這種閉環(huán)調(diào)整,使無(wú)關(guān)網(wǎng)頁(yè)數(shù)量減少30%~90%。
2 深度優(yōu)先
深度首先指的是蜘蛛沿著發(fā)現(xiàn)的鏈接爬行,直到前面沒(méi)有其他鏈接,然后返回到第一頁(yè),沿著另一個(gè)鏈接,然后直線(xiàn)爬行。
3 廣度優(yōu)先
Width-first是指蜘蛛發(fā)現(xiàn)頁(yè)面中有多個(gè)鏈接,不是直接沿著鏈接向前,而是沿著頁(yè)面上的所有鏈接爬行,然后沿著鏈接中找到的第二層鏈接爬向頁(yè)面的第三層。
從理論上講,無(wú)論是深度優(yōu)先還是廣度優(yōu)先,蜘蛛可以在足夠長(zhǎng)的時(shí)間內(nèi)爬過(guò)整個(gè)互聯(lián)網(wǎng)。
在實(shí)踐中,蜘蛛的帶寬資源、時(shí)間不是無(wú)限的,也不能爬行所有的頁(yè)面,事實(shí)上,最大的搜索引擎只是爬行和收錄了互聯(lián)網(wǎng)的一小部分,當(dāng)然,并不是蜘蛛爬取的越多越好。