baiduspider转义过来是百度蜘蛛的意思,是百度搜索引擎的一个自动程序。它的作用是访问收集整理互联网上的网页、图片、视频等内容,然后分门别类建立索引数据库,使用户能在百度搜索引擎中搜索到你网站上的网页,那么baiduspider是如何工作的?
首先,baiduspider想要抓取网页先要发现抓取的入口,然后Spider顺着入口的URL进行分析抓取,这里就涉及抓取策略的问题。以下是baiduspider的工作原理:
1、baiduspider按照一定的规则抓取网页,百度蜘蛛顺着网页中的内部链接,从一个页面爬到另一个页面,通过链接分析连续爬行访问,抓取更多的页面。百度蜘蛛抓取到网页之后,要提取关键词,建立索引,同时还要分析内容是否重复,判断网页的质量,网站的信任度等工作。分析完毕之后,符合要求的才能提供检索服务。
2、baiduspider会将下载回来的网页放到补充数据区,通过各种程序计算过后才放到检索区,才会形成稳定的排名,所以说只要下载回来的东西都可以通过指令找到,补充数据是不稳定的,有可能在各种计算的过程中给k掉,检索区的数据排名是相对比较稳定的,百度目前是缓存机制和补充数据相结合的,正在向补充数据转变,这也是目前百度收录困难的原因,也是很多站点今天给k了明天又放出来的原因。
3、baiduspider抓页面的时候从起始站点(即种子站点指的是一些门户站点)优先开始抓取。深度优先抓取的目的是为了抓取高质量的网页,这个策略是由调度来计算和分配的,baiduspider只负责抓取,权重优先是指反向连接较多的页面的优先抓取,这也是调度的一种策略,一般情况下网页抓取40%是正常范围,60%算很好,100%不太可能。
百度各个产品对应的user-agent:
网页搜索:Baiduspider
无线搜索:Baiduspider
图片搜索:Baiduspider-image
视频搜索:Baiduspider-video
新闻搜索:Baiduspider-news
百度搜藏:Baiduspider-favo
百度联盟:Baiduspider-cpro
商务搜索:Baiduspider-ads
网站不想被baiduspider访问如何做:
baiduspider遵守互联网robots协议。你可以利用robots.txt文件完全禁止baiduspider访问你的网站,或者禁止其访问网站上的部分文件。关于robots.txt的写作方法,请点击这里:www.krseo.com/seo/82.html。
希望内容被百度索引但不被保存快照:
baiduspider遵守互联网meta robots协议。你可以利用网页meta的设置,使百度显示只对该网页建立索引,但并不在搜索结果中显示该网页的快照。因为搜索引擎索引数据库的更新需要时间,所以如果在数据库中已经建立了你网站的索引信息,可能需要二至四周才会更新生效。
还木有评论哦,快来抢沙发吧~