百度搜索Baiduspider抓取策略类型包括哪些?

GITHUB74646101 其它 743

百度搜索Baiduspider蜘蛛在抓取网络资源时面临的是一个复杂的网络环境,为了可以抓取到更多有效的网络资源,同时又不给网站服务器增加压力,百度搜索会设计更多的抓取策略,下面大兵来给大家简单介绍下。

百度搜索蜘蛛

百度搜索Baiduspider抓取主要策略类型:

1、百度搜索蜘蛛对网站页面的友好性,百度抓取压力调整可以降低搜索蜘蛛对网站访问的压力。
2、向客户端返回搜索蜘蛛抓取的常用返回码;
3、多个网页url地址链接301重定向识别;
4、搜索蜘蛛抓取网页优先级调整;
5、过滤网页重复的url地址链接;
6、获取暗网数据;
7、抓取反作弊;
8、提高网站页面的抓取效率,提高宽带利用率。

百度搜索Baiduspider抓取常用返回码示意:

1、404返回码

404返回码代表的是当前页面已失效,将会从搜索蜘蛛数据库中删除这条快照数据,同时将不再抓取这条页面;

2、503返回码

503返回码代表当前页面已临时不可访问,一般在网站临时关闭、网站流量用尽的情况下出现,503返回码搜索引擎认为此页面只是临时不可访问,因此不会删除此条页面的快照数据,近期内搜索引擎蜘蛛将会再次访问这个页面,如果发现此页面已恢复正常访问,则搜索引擎蜘蛛恢复正常拆取,如果在多次访问后,此条页面仍然不能正常访问,则会被搜索引擎认定为是失效链接页面,将从搜索引擎数据中删除此条页面的快照数据。

3、403返回码

403返回码代表当前页面已禁止访问,如果是一条新的url链接,百度搜索蜘蛛暂是不会抓取,但短期仍然会进行访问抓取,如果这条链接是一条已收录网页,搜索引擎不会直接删除这条链接的快照,也仍然会在短期内反复访问抓取几次,如果此条url链接已恢复正常,则搜索蜘蛛恢复正常抓取,如果仍然是禁止访问状态,那么这条url链接就会认定为失效链接,从搜索引擎数据库中删除。

4、301状态码

301代表是页面重定向,意思是此旧url链接自动跳转到新链接,如果你的网站需要迁移、改版、更换新域名,则可以使用301状态码。

百度搜索引擎Baiduspider抓取策略

1、宽度优先抓取策略

宽度优先抓取策略在搜索引擎刚刚出来的时候就有了,一直被使用到现在,甚至百度搜索很多新的抓取策略都是以这个为基础进行完善的。
宽度优先抓取策略是以网站列表url地址进行抓取的,当发现此列表有新链接时,而且是一条未抓取的链接,那么百度搜索就把这条链接直接放在待抓取区,等待百度蜘蛛抓取索引。

百度搜索Baiduspider爬虫的宽度优先抓取策略

2、深度优先抓取策略

深度优先抓取策略指的是百度爬虫会以某个链接为突破口,然后再沿着这条URL链接持续不断的进行抓取,直到抓取完毕为止,然后再从待抓取链接中抓取第二条链接,接着再抓取第三条链接,以此类推下去,如下图所示:

百度搜索Baiduspider爬虫的深度优先抓取策略

3、多种url重定向识别

有些网站由于某些原因存在有301url重定向问题,百度搜索蜘蛛为了可以正常抓取这部分的资源,就会对这部分url重定向内容进行识别判断,防止别有用心之人作弊。
网站url重定向可分为三类:
1、http协议30x重定向;
2、meta refresh重定向;
3、js重定向。
另外百度搜索还支持Canonical标签,起到一种间接重定向的作用。

4、抓取优先级调配

由于如今天互联网规模太大了,百度搜索引擎要想抓取全部内容并且及时进行更新,可以说现阶段技术几乎是不可能的,所以百度搜索设置了一套优先抓取调配策略,主要有深度优先遍历策略、宽度优先遍历策略、pr优先策略、反链策略等。

5、过滤重复的url链接

百度搜索蜘蛛在页面抓取过程中需要判断网站页面是否已经被抓取,如果还未被抓取那么就需要进行抓取并存放在已抓取目录中。
要判断网页是否被抓取过,主要问题是搜索引擎快速查找对比,还涉及到同一个URL链接地址的识别,例如某条链接中含有大量的无效参数,其实与另一条链接是同一个页面,那么这两条链接将会被视为是同一个页面。

6、暗网数据获取

无法被搜索引擎抓取识别的数据信息,被称为是暗网数据,很多网站数据都是存放于数据库中,百度搜索蜘蛛难以在短时间内抓取获得完整的内容,另外由于网络环境、网站结构设计的不同等问题,也会导致网站数据无法被搜索引擎抓取收录,现阶段对于暗网数据仍然要通过开放平台提交的方法来解决,例如各大搜索引擎站长平台。

7、抓取反作弊

百度搜索蜘蛛在抓取网页数据的过程中,一般都会遇到所谓的蜘蛛池及低质量页面困扰,这就需要搜索引擎有一套完整的反作弊系统,例如url页面特征分析识别、页面大小及内容别识,站点规模识别及抓取规模识别等。

以上就是大兵给大家分享的百度搜索Baiduspider抓取页面主要策略类型,不同的抓取策略包含有不同的细节内容,这些抓取策略对于每个网站都会产生影响,如果大家还有其它疑问,欢迎下方留言一起探讨。

回复

我来回复
  • 暂无回复内容

联系我

平时工作忙:合作还是咨询SEO服务,请简明扼表明来意!谢谢!

在线咨询:点击这里给我发消息

邮件:dabingseo@qq.com
工作时间:周一至周六,10:30-24:30,节假日休息

个人微信
个人微信
SHARE
TOP