百度网页关键字抓取(如何判断是否是蜘蛛对式网页的链接结构的原因?)

优采云 发布时间: 2022-02-06 09:09

  百度网页关键字抓取(如何判断是否是蜘蛛对式网页的链接结构的原因?)

  搜索引擎蜘蛛系统的目标是发现和抓取互联网上所有有价值的网页。百度官方也明确表示,蜘蛛只能抓取尽可能多的有价值资源,并保持系统中页面与实际环境的一致性。对网站的体验施加压力,也就是说蜘蛛不会爬取所有网站的所有页面。蜘蛛的爬取策略有很多,可以尽可能快速完整的找到资源链接,提高爬取能力。高效的。只有这样,蜘蛛才能尽量满足大部分网站,这也是我们需要做好网站的链接结构的原因。接下来在马海翔博客平台分享搜索引擎蜘蛛对翻页网页的爬取机制。

  

  1、为什么需要这种爬取机制?

  

  目前大部分网站都采用翻页的形式,有序的分发网站资源。当添加新的文章时,旧资源被推回翻页系列。对于蜘蛛来说,这种特定类型的索引页是一个有效的爬取渠道,但是蜘蛛爬取的频率和网站文章更新频率不一样,文章链接很可能是被封锁。推入翻页栏,这样蜘蛛就不可能每天从第一个翻页栏爬到第80页,再把文章和文章爬到数据库里对比,这太浪费了,无法搜索。引擎蜘蛛的时间也浪费了你网站的收录时间,

  2、如何判断是否是有序翻页?

  判断文章是否按发布时间排序是这类页面的必要条件,下面会讲到。那么如何判断资源是否按发布时间排序呢?在某些页面中,每个 文章 链接后​​面都有相应的发布时间。通过文章链接对应的时间集,判断时间集是从大到小排序还是从小到大排序。如果是,那么说明网页中的资源是按发布时间排列的,反之亦然。即使不写发布时间,蜘蛛也可以根据文章本身的实际发布时间来做出判断。

  3、抓取机制的原理

  对于这种翻页页面,蜘蛛主要记录每次爬取网页时发现的文章链接,然后将本次发现的文章链接与历史中发现的链接进行比较。如果相交,则说明爬取已经找到所有新的文章,可以停止后面的翻页栏的爬取;否则,说明爬取没有找到所有新的文章,需要继续爬到下一页甚至后面几页才能找到所有新的文章。

  

  以马海翔的博客为例。比如,网站翻页目录新增了29篇文章,也就是说上一篇文章是第30篇,蜘蛛一次抓取了10篇。文章文章链接,所以蜘蛛第一次抓取了10篇文章,和上次没有相交,所以继续抓取,第二次抓取了10篇文章,也就是一共抓取了10篇文章20篇文章被抓取,或者与上次没有交集,然后继续爬取。这次抓到第30条,也就是和上一条有交集,说明蜘蛛从上一次到这次抓到网站29条都更新了文章。

  马海翔博客评论:

  目前的百度蜘蛛会对网页的类型、翻页栏在网页中的位置、翻页栏对应的链接、列表是否按时间排序等做出相应的判断,并根据以实际情况为准,但蜘蛛毕竟不能做到100%的识别准确率,所以马海翔建议站长尽量不要使用JS,更不要在翻页的时候使用FALSH,同时更新文章频繁,配合蜘蛛爬行,可以大大提高蜘蛛识别的准确率,从而提高蜘蛛在你网站中的爬行效率。

  再次提醒大家,本文只是对蜘蛛抓取机制的概述。这并不意味着蜘蛛有抓取机制。在实际情况下,很多机制是同时进行的。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线