网站内容更新策略(网页更新策略互联网的动态特性和历史参考策略(组图))

优采云 发布时间: 2022-01-14 06:12

  网站内容更新策略(网页更新策略互联网的动态特性和历史参考策略(组图))

  网页更新策略

  Internet 的动态特性是独一无二的:总是有新页面、页面内容更改或现有页面被删除。对于爬虫来说,网页不是在本地爬取的,还必须在工作完成后反映互联网的动态特性。本地下载的网页可视为互联网页面的“镜像”,爬虫应尽量保持一致。您可以假设某个特定网页已被删除或内容已发生重大变化,搜索引擎将忽略它并仍然根据旧内容对其进行分类并将其作为搜索结果呈现给用户。好的。因此,对于被爬取的网页,爬虫必须根据爬虫采用的网页更新策略,保持内容与网页内容的同步。

  网页更新策略的任务是确定何时重新抓取先前下载的网页,以使本地下载的网页的内容尽可能接近互联网上的原创网页。常用的网页更新策略有三种:历史参考策略、用户体验策略和整群抽样策略。

  历史参考政策

  历史参考策略是最直观的更新策略,它是基于过去频繁更新的网页在未来也会被频繁更新的假设。因此,您可以通过参考历史更新来决定何时更新网页。

  这种方法通常使用泊松过程来模拟网页的变化,通过根据每个页面过去的变化情况预测内容何时再次变化来指导爬取过程。但是,不同的方法侧重于不同的事情。例如,一些研究将网页划分为不同的区域。爬虫策略应该专注于发现和更改,忽略非关键区域的频繁更改,例如广告或导航栏。主题内容建模。

  用户体验策略

  通常,搜索引擎用户提交查询后,可能会有上千条相关搜索结果,但用户没有耐心看到排名较低的搜索结果,往往只能看到搜索内容的前3页。用户体验策略就是利用这些搜索引擎用户的特点来设计更新策略。

  此更新策略的核心是用户体验,如果您的本地索引页面已过时,我们建议您稍后更新这些过时的页面,只要不影响用户体验即可。因此,确定页面何时更新取决于搜索质量随着页面内容的变化而发生的变化(通常通过搜索结果排名的变化来衡量)。您的页面产生的影响越大,它们应该越快。将会被更新。

  用户体验策略存储网页的多个历史版本,并根据每个过去内容更改对搜索质量的影响对它们进行平均。对于更有影响力的页面,再次安排爬网优先。

  整群抽样策略

  聚类抽样策略认为网页具有一些属性,可以根据这些属性预测更新周期,属性相似的网页具有相似的更新周期。因此,可以根据这些属性对网页进行分类,同一类别内的网页具有相同的更新频率。为了计算某个类别的更新周期,只需对该类别中的网页进行采样,将这些采样的网页的更新周期作为该类别中所有其他网页的更新周期。与上述两种方法相比,该策略一方面不需要为每个网页保存历史信息;另一方面,对于新的网页,即使没有历史信息,

  

  在 Tan 等人的研究中,能够反映网页更新周期的属性特征分为两类:静态特征和动态特征。静态特征包括:页面内容、图片数量、页面大小、链接深度、PageRank值等十几个;而动态特征则反映了静态特征随时间的变化,如图片数量的变化、进出链接的变化等。网页可以根据这两类特征进行聚类。

  显示的是一个更一般的过程,不同的算法在细节上有所不同。例如,有些研究直接省略了聚类步骤,而是使用网站作为聚类单元,即假设属于同一个网站的网页具有相同的更新周期,则< @网站 采样,计算其更新频率,然后网站 中的所有网页都会以这个更新周期为准。虽然这个假设是粗略的,因为很明显同一个网站内的网页的更新频率变化很大,但是聚类步骤可以省略,在计算效率上会更可行。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线