欧美亚洲国产日韩精品播放_国产精品久久二区_国产精品久久久久久婷婷不卡 _艹日本少妇

朗創(chuàng)營銷,專業(yè)鄭州抖音推廣,鄭州短視頻代運營,鄭州抖音代運營服務公司 聯(lián)系我們:185-3093-0310
聯(lián)系電話

深度了解蜘蛛spider抓取原理

加入時間:2018-08-01 14:15:01文章來源: 朗創(chuàng)網(wǎng)絡營銷

盡管搜索引擎在不斷地升級算法,但是終究其還是程序,因此我們在布局網(wǎng)站結構的時候,要盡可能地讓搜索引擎蜘蛛看得懂。每個搜索引擎蜘蛛都有自己的名字,在抓取網(wǎng)頁的時候,都會向網(wǎng)站表明自己的身份。搜索引擎蜘蛛在抓取網(wǎng)頁的時候會發(fā)一個請求,這個請求中有一個字段為user-agent,用于標示此搜索引擎蜘蛛的身份。那么,今天就和大家一起來深度了解蜘蛛spider抓取原理。



例如Google搜索引擎蜘蛛的標識為Googlebot,百度搜索引擎的標識為baidu spider,yahoo搜索引擎蜘蛛的標識為inktomislurp。如果在網(wǎng)站上有訪問日志記錄,網(wǎng)站管理員就能知道,哪些搜索引擎的搜索引擎蜘蛛過來過,什么時候過來的,以及讀了多少數(shù)據(jù)等。如果網(wǎng)站管理員發(fā)現(xiàn)某個蜘蛛有問題,就通過其標識來和其所者聯(lián)系。



搜索引擎蜘蛛進入一個網(wǎng)站,一般會訪問一個特殊的文本文件robots.txt。這個文件一般放在網(wǎng)站服務器的根目錄下,網(wǎng)站管理員可以通過robots.txt來定義哪些目錄搜索引擎蜘蛛不能訪問,或者那些目錄對于某些特定的搜索引擎蜘蛛不能訪問。例如,有些網(wǎng)站的可執(zhí)行文件目錄和臨時文件目錄不希望被搜索引擎到,那么網(wǎng)站管理員就可以把這些目錄定義為拒絕訪問目錄。robots.txt語法也很簡單,如果對目錄沒有任何限制,可以用以下兩行來描述。



當然,robots.txt只是一個協(xié)議,如果搜索引擎蜘蛛的設計者不遵循這個協(xié)議,網(wǎng)站管理員也無法阻止搜索引擎蜘蛛對于某些頁面的訪問。但一般的搜索引擎蜘蛛都會遵循這些協(xié)議,而且網(wǎng)站管理員還可以通過其他方式來拒絕搜索引擎蜘蛛對某些網(wǎng)頁的抓取。



搜索引擎蜘蛛在下載網(wǎng)頁的時候,會去識別網(wǎng)頁的HTML代碼,在其代碼的部分,會有meta標識。這些標識可以告訴搜索引擎蜘蛛本網(wǎng)頁是否需要被抓取,還可以告訴搜索引擎蜘蛛本網(wǎng)頁中的鏈接是否需要被繼續(xù)跟蹤。例如,表示本網(wǎng)頁不需要被抓取,但是網(wǎng)頁內(nèi)的鏈接需要被跟蹤。



現(xiàn)在一般的網(wǎng)站都希望搜索引擎能更全面地抓取自己的網(wǎng)站的網(wǎng)頁,因為這樣可能讓更多的訪問者通過搜索引擎能找到此網(wǎng)站。為了讓本網(wǎng)站的網(wǎng)頁更全面被抓取到,網(wǎng)站管理員可以建立一個網(wǎng)站地圖,即sitemap。許多搜索引擎蜘蛛會把sitemap,htm文件作為一個網(wǎng)站網(wǎng)頁爬取得入口,網(wǎng)站管理員可以把網(wǎng)站內(nèi)容內(nèi)部所有網(wǎng)頁的鏈接放在這個文件里面,那么搜索引擎蜘蛛可以很方便地把整個網(wǎng)站抓取下來,避免遺漏某些網(wǎng)頁,也會減小服務器的負擔(Google專門為網(wǎng)站管理嚴提供了XML的Sitemap)。



搜索引擎建立網(wǎng)頁索引,處理的對象是文本文件。對于搜索引蜘蛛來說,抓取下來網(wǎng)頁包括各種格式,包括HTML、圖片、doc、PDF、多媒體、動態(tài)網(wǎng)頁極其他格式。把這些文件抓取下來后,需要把這些文件中的文本信息提取出來。準確提取這些文檔的信息,一方面對搜索引擎的搜索引擎準確性有重要的作用,另一方面對于搜索引擎蜘蛛正確跟蹤其他鏈接有一定影響。



對于doc、PDF等文檔,這種由專業(yè)廠商提供的軟件生成的文檔,廠商都會提供相應的文本提取接口。搜索引擎的搜索只需要調(diào)用這些插件的接口,就可以輕松地提取文檔中的文本信息和文件的其他相關的信息。



HTML等文檔不一樣,HTML有一套自己的語法,通過不同的命令標識符來標識不同的字體、顏色、位置等,提取文本信息時需要把這些標識符都過濾掉。過濾標識符并非難事,因為這些標識符都有一定的規(guī)則,只要按照不同的標識符取得相應的信息即可。但在識別這些信息的時候,需要同步記錄許多版式信息。



除了標題和正文以外,會有許多廣告鏈接以及公共的頻道鏈接。這些鏈接和文本正文一點關系也沒有,在提取網(wǎng)頁內(nèi)容的時候,也需要過濾這些無用的鏈接。例如,某個網(wǎng)站有“產(chǎn)品介紹”頻道,因為導航條在網(wǎng)站內(nèi)每個網(wǎng)頁都會搜索到,無疑會帶來大量垃圾信息,過濾這些無效鏈接需要統(tǒng)計大量的網(wǎng)頁結構規(guī)律,抽取一些共性,統(tǒng)一過濾;對于一些重要而結果特殊的網(wǎng)站,還需要個別處理。這就需要搜索引擎蜘蛛的設計有一定的擴展性。



欧美亚洲国产日韩精品播放_国产精品久久二区_国产精品久久久久久婷婷不卡 _艹日本少妇
国产精品久久久久久欧美| 亚洲jizzjizz少妇野女人| 国产精品三级在线| 一大片一大片一大片满的意思| 精品乱子伦一区二区三区费| 国产三级三级三级看三级| 八戒网剧在线观看8| 国产伦精品一区二区三区88av| 老熟女乱视频一区二区| 欧美日韩视频在线播放| 中文字幕在线观看一区二区| 成人区人妻精品一区二区| bbbbb女女女女女bbbbb国产| 在线高清中文字幕| 亚洲精品视频三区| 四川少妇女女女擦bbb毛片看 | 国产在线精品一区二区在线播放| 欧美乱妇狂野吞精视频在线观看 | 国产成人无码AV片在线公司| 人妻少妇精品无码专区学生| 66国产精品久久久久久久| 国产精品毛片一区二区三区| 亚洲av免费播放| 亚洲视频四区| 久久久久久久久久国产精品| 欧美视频在线观看一区二区三区 | 成人精品国产| 人久久久| 6080yy精品一区二区三区| 国产在线精品一区二区| 少妇精品一区二区三区| 超薄丝袜脚j一区二区| 亚洲熟女熟妇| 国产精品久久久久久久久久久久冷| 肥白老妇臀sex| 69精品久久久久久久精品A片| 狠狠躁夜夜躁人人躁婷婷91 | 体验区试看120秒啪啪免费| 五十路丰满熟女bbw| 少妇又紧又深又湿又爽黄总| 日韩人妻精品一区二区|