如何查看網(wǎng)站被百度抓取的情況?
Baiduspider - 別名百度蜘蛛,我們查看網(wǎng)站被百度抓取的情況主要是分析網(wǎng)站日志里百度蜘蛛Baiduspider的活躍性:抓取頻率,返回的HTTP狀態(tài)碼。比如一天內(nèi)百度來(lái)爬取多少次,返回的是200,還是404或者其他HTTP狀態(tài)碼。
1、查看日志的方式:
通過(guò)FTP,在網(wǎng)站根目錄找到一個(gè)日志文件,文件名一般包含log,下載解壓里面的記事本,這即是網(wǎng)站的日志,記錄了網(wǎng)站被訪問(wèn)和操作的情況。
因?yàn)楦鱾€(gè)服務(wù)器和主機(jī)的情況不同,不同的主機(jī)日志功能記錄的內(nèi)容不同,有的甚至沒(méi)有日志功能,這一點(diǎn),您需要聯(lián)系您的空間服務(wù)商。
2、日志內(nèi)容如下:
61.135.168.22 - - [11/Jan/2009:04:02:45 +0800] "GET /bbs/thread-7303-1-1.html HTTP/1.1" 404 8450 "-" "Baiduspider+(+http://www.baidu.com/search/spider.htm)"
分析:
GET /bbs/thread-7303-1-1.html 代表,抓取/bbs/thread-7303-1-1.html 這個(gè)頁(yè)面。
404 表示抓取的這個(gè)頁(yè)面不存在或者出現(xiàn)錯(cuò)誤。
8450 代表抓取了8450個(gè)字節(jié)。
如果你的日志里格式不是如此,則代表日志格式設(shè)置不同。
很多日志里可以看到 200 0 0和200 0 64 則都代表正常抓取。
3、抓取頻率是通過(guò)查看每日的日志里百度蜘蛛抓取次數(shù)來(lái)獲知。抓取頻率并沒(méi)有一個(gè)規(guī)范的時(shí)間表或頻率數(shù)字,我們一般通過(guò)多日的日志對(duì)比來(lái)判斷。當(dāng)然,我們希望百度蜘蛛每日抓取的次數(shù)越多越好。
備注:如果您實(shí)在不了解上面的代碼含義,推薦您使用日志分析工具,如逆火日志分析工具,光年日志分析工具,都是比較有名的。
在網(wǎng)站出現(xiàn)問(wèn)題的情況下,通過(guò)查看網(wǎng)站日志,查看網(wǎng)站的HTTP返回值是否正常,這篇文章總結(jié)了常見(jiàn)的HTTP返回值:日志中的HTTP狀態(tài)碼都代表什么