什么是搜索引擎蜘蛛爬行、抓取?

什么是搜索引擎蜘蛛抓取?

抓取是搜索引擎蜘蛛从待抓地址库中提取要抓的URL,访问这个URL,把读取的HTML代码存入数据库。蜘蛛的抓取就是像浏览器一样打开这个页面,和用户浏览器访问一样,也会在服务器原始日志中留下记录。

每家独立的搜索引擎都会有自己的网页抓取程序爬虫。爬虫蜘蛛顺着网页中的超链接分析连续访问抓去更多网页。被抓取的网页被称之为网页快照,另外搜索引擎蜘蛛抓取网页是有一定规律的。如下:

1、权重优先:先参照链接的权重,再综合深度优先和宽度优先策略抓取。打个比方,如果这条链接的权重还不错,就采用深度优先;如果权重很低,则采用宽度优先。

2、重访抓取:这个就可以直接字面上理解。因为搜索引擎使用单个重访与全部重访结合的居多。所以我们做网站内容要记得定期维护日常更新,让蜘蛛多来访多抓取才能收录快。

什么是搜索引擎蜘蛛爬行?

爬行指的是搜索引擎蜘蛛从已知页面上解析出链接指向的URL,然后沿着链接发现新页面(也就是链接指向的URL)的过程。当然,蜘蛛并不是发现新URL马上就爬过去抓取新页面,而是把发现的URL存放到待抓地址库中,蜘蛛按照一定顺序从地址库中提取要抓取的URL。

蜘蛛爬行又分爆发式爬行、稳定式爬行、确认式爬行这三种。

爆发式爬行:
有时候,百度蜘蛛会在一两分钟内,光顾你的网站好几次。不用怕,这种爆发式的爬行,一般是很少出现的。有些时候,它爬行一段时间以后,需要去运算程序,看看原来有没有来体验过,判断网站的内容是否为原创等等。所以,在很短的时间内,它可能多次光顾你的网站,这也是不足为奇的。网站的内容,可能会经受蜘蛛的多次考验,所以,千万不要直接复制粘贴别处的资料过来。

稳定式爬行:
稳定式爬行,就是每天,每个小时的爬行量都差不多。这种爬行,往往是在新站才会出现。如果一个网站已经建成好久了,并且有了不错的排名、权重,这时候,如果蜘蛛来你的网站爬行,还出现这种爬行方式,你就要小心了。出现这种爬行方式,多是蜘蛛对你的网站有不满之处,要找原因,及时应对,否则就等着蜘蛛给你降权吧。

确认式爬行:
确认式爬行,就是蜘蛛爬行体验网站更新的内容以后,不一定就会马上收录,还要经过程序的运算等,然后再次进行爬行体验,再确认是否要收录,是否有必要收录。通常情况下,蜘蛛不会爬行四次,如果三次爬行以后,还没有被收录,也就没有多大的希望能被收录了。

这种爬行方式,多见于网站的首页。一个网站,其首页,每天不知道要被蜘蛛爬行体验多少次,但是其他的内页,则要等蜘蛛进行计算,觉得有必要收录的话,才会再次爬行体验,看看是否有收录的必要。由此可见,网站的首页是网站优化建设的重中之重,一定要做好网站的首页优化。

业界动态

WordPress删除默认”未分类”目录方法

2018-9-2 19:10:49

业界动态

企业熊掌号:开通熊掌号绑定站点增曝光得流量

2018-9-3 8:24:37

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索