热门搜索:

你当前所在的位置:首页  >  网站运营资讯  >  百度爬虫的种类和规律

百度爬虫的种类和规律
发布时间:2021-12-29      点击次数:2814

今天开始探讨正式内容的第一讲了,开始讲百度蜘蛛。今天针对广泛流传的百度蜘蛛IP类型做一下探讨。咱们知道,知识零散的点,经验是点的连线。所以大家在学习的时候养成大局观,比如说,我们现在在这个位置。


探索方法

通过对7个网站的爬虫日志做追踪,将百度蜘蛛分为收录蜘蛛、首页收录蜘蛛、快照蜘蛛三大类。

用控制变量法,通过现象看规律,通过规律看本质,通过本质讲对策。

通过线上实验来一步一步做验证推导过程。

百度蜘蛛类型有哪几种

下图是网上广泛流传的百度蜘蛛IP类型说明,其中123开头的认为是降权蜘蛛,220开头的一般认为是权重蜘蛛。

到底有木有降权蜘蛛

看了百度站长的平台的回复(年代比较久远),百度官方回复是“没有”。

http://bbs.zhanzhang.baidu.com/thread-6387-1-1.html


我也认为蜘蛛没有权重高低之分

为什么分降权蜘蛛、权重蜘蛛之说?

如果蜘蛛有权重高低之说,难道百度一开始就知道你的网站质量吗

百度蜘蛛分类的猜想

百度爬虫是干什么的,就是把你的网站页面内容扒下来,然后把数据拆分为标题、摘要、头图、正文等结构化数据,放到百度的数据库里面,提供给用户搜索。

但是网页数量以百亿计,每个页面都有快照备份是不现实的。

大胆猜想,百度蜘蛛应该有功能之分,并未高低权重之说。

现象1:内页爬取规律

新上的某个网页的爬取记录,我们可以看到,通常都是123开头的蜘蛛先行,然后220开头的蜘蛛后行。


然后隔1-2天,快照必会有更新。比如2019年7月27号220开头蜘蛛访问之后,7月28日快照就更新了。


现象2 首页爬取规律

看下图,首页的百度爬虫日志,19年6月26上线后,基本上也是123开头的爬虫先行,220爬虫后行,隔天快照更新。


现象3 页面404后的百度爬取规律

我认为实验了2个404页面,123开头的爬虫爬取后,一般是2次404之后,不再派爬虫来爬了。


现象4 劣质页面爬取规律

我也试验了随机段落混合而成的内容(比如下图妹子不错,但妹子上面的文字很烂),百度123开头蜘蛛抓了一次就再也不抓了,5月11号上线,至今无快照。

看来百度对随机拼凑的内容还是有识别的。

上一条:【seo优化】新网站关键字优化要怎么做呢
下一条:单页网站如何做优化
您可能感兴趣的文章