网站内容更新策略(本着优先更新大部分用户所需要内容的原则(图))

优采云 发布时间: 2022-02-22 23:00

  网站内容更新策略(本着优先更新大部分用户所需要内容的原则(图))

  蜘蛛抓取网页到木头,网页被分析索引并参与排名,并不意味着蜘蛛在网页上的工作就结束了。如今,互联网网页的内容大多是动态的,有时网页甚至会被管理员删除。搜索引擎爬取的本地页面可以看作是已经爬取并被索引的网页的镜像,也就是说,理论上搜索引擎应该保证本地的“镜像”页面和对应的网页互联网上的内容 实时一致。但是,由于搜索引擎蜘蛛资源有限,现阶段不可能也没有必要实时监控所有被索引网页的所有变化。搜索引擎只需要设置一个策略让蜘蛛重新抓取并更新页面,以确保当一些页面呈现给用户时,搜索引擎的本地索引与该页面的内容相差不大时间。有些页面应该收录大部分网民需要检索的内容,也能满足绝大多数搜索用户的搜索请求。

  如上所述,在资源有限的情况下,搜索引擎首先要保证部分网页的索引是更新的,并且这部分网页有大部分用户需要的内容;还需要确保所有索引页面都有更新机制。当对应的新内容被索引时,Spider会再次爬取并更新网页的索引。从Spider的角度来看,被索引网页的重爬频率一般是根据以下四个方面来确定的:用户体验、历史更新频率、页面类型、页面权重。

  1.用户体验

  整个互联网的网页数量巨大,被百度爬取和索引的中文网页应该在上千亿,但用户需要的信息只是很小的一部分。当用户向搜索引擎提交查询时,无论返回多少结果,大多数用户都会在前三个页面找到他们需要的信息,而很少有用户会浏览第四个或之后的搜索结果。本着优先更新大部分用户需要的内容的原则,所有用户提交的查询结果的前几页都值得保证及时更新索引。因此,一般的搜索引擎会采集所有用户的搜索请求,然后统计用户在所有搜索结果中可能看到的网页,然后再优先抓取更新。

  2.历史更新频率

  搜索引擎会尝试查找某个网页中内容的更新频率,因为Spider的重爬是为了找出被索引的网页是否发生了变化。如果网页继续保持不变,搜索引擎可能会降低其抓取速度。频率,它甚至不再被重新抓取。这个策略的执行是基于搜索引擎已经找到的网页的更新频率,所以理论上,当Spider找到一个新的URL进行爬取和索引时,它会很快的进行第二次爬取。如果没有发现内容变化,则降低爬取频率,从而慢慢发现网页的更新频率调整到最佳爬取频率。同时Spider关注的变化应该是网页的主要内容部分,

  3.页面类型

  不同的页面类型有不同的更新频率。网站 主页、目录页、特殊页和文章 页面在同一站点内的更新频率肯定是不同的。所以对于同一个站点的网页,Spider会以不同的频率爬取不同类型的网页。首页和目录页是Spider经常光顾的页面;根据专题页面的时效性或其他特性,Spider可能会在一定时间内频繁爬取,时效期满后会降低爬取频率;文章 页面,Spider 可能在第一次访问后就不会回来了。虽然整个互联网的网页很多,但网页的种类并不多。每种类型的网页都有自己的布局和更新规则。搜索引擎有足够的能力发现网页的类型并设置合理的重新抓取频率。网页类型分类和网页历史更新频率是使用最全面的。一般来说,同一个站点中相似的网页会有相同的更新频率,这也便于Spider对网页更新频率的判断。

  4.网页权重

  除了上述的重新爬取策略外,页面权重也是决定爬取频率的重要因素。用户体验策略也在一定程度上体现了网页权重的影响。在同类型网页、历史更新频率相近的情况下,一定是权重高的页面被爬取的频率更高。比如百度首页、hao123首页、chinaz站长工具首页和普通企业网站首页可以简单归类为网站首页,前三个“首页”长期不更新,普通企业网站主页可能偶尔会有更新,但前三个“主页”的百度快照一般都是最新的,而普通企业网站的首页快照可能是一周甚至一个月前。这反映了页面权重在爬取频率中的作用。

  在搜索引擎Spider的实际操作中,它不会单独使用某种重爬策略,而是会综合参考网页的用户体验、更新频率、页面类型和页面权重。而对于不同类型的页面,侧重参考的更新内容主体也不同。例如,如果列表页面只有一个新条目文章,则可能会被更新;文章页面的主要内容没有变化,主要内容周围的所有推荐链接、广告、内容都发生了变化,可能不是更新。

  在SEO工作中,为了增加某个网站的抓取频率,我们一般会着重增加页面的入链权重,力求提高页面的更新频率。事实上,在用户体验和页面类型方面还有很多工作要做。使用标题和描述来吸引点击,不仅可以提高排名,还可以间接增加页面被蜘蛛抓取的频率;同时,针对不同的定位关键词可以使用不同的页面类型(列表页面、特色页面、内容页面等),在设计页面内容和网站架构时要慎重考虑,在页面类型部分有很多工作。例如,许多网站 已经将整个站点做成了一个列表页面。整个网站没有普通的内容页面。在内容页面的主要内容下方或周围还有大量与主题相关的文字内容,通常是类列表。形式。但是这种方法长期使用效果不佳,或者在损害用户体验后会降低被爬取的频率。无论如何,良好的网站架构设计应该利用Spider 爬行策略的各种特性。

  以上讨论的是Spider的正常爬取策略。爬行并不意味着必须有更新。它只会在页面内容发生变化而值得搜索引擎更新索引时才会更新。比如上面提到的文章页面的主要内容不变,但是推荐的链接都变了。通用搜索引擎它也不会浪费资源进行无意义的更新。当Spider发现被索引的页面突然被删除时,即服务器突然返回404状态码时,也会在短时间内增加对该页面的爬取频率。一些$E0的人员

  只是用这个来增加蜘蛛对自己网站的把握,做一些其他的“手脚”,但这是走钢丝的聪明行为,不一定长期有效,也不值得风险。

  另外,很多门户网站网站习惯于为实时新闻发布一个标题,然后要求编辑补充内容,甚至修改标题。但是这类网页一般都是文章页面,从用户体验、更新频率、网页类型和网站权重等方面都不会得到比较高的爬取频率,导致这些网站 不断抱怨百度不更新这样做的新闻页面。百度搜索官方表示希望以后通过百度站长平台解决这个问题,但作为SEO人员,不能指望搜索引擎官方做出什么动作。仔细研究蜘蛛的爬取和更新策略,虽然可能没有那么完美的解决问题,但一般会找到更适合您的方法。当然,最后我们还是希望百度尽快推出相应的机制或工具来解决这个问题。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线