网站内容采集(优采云采集平台通过设置“定时采集”+“重复数据” )

优采云 发布时间: 2021-09-30 10:22

  网站内容采集(优采云采集平台通过设置“定时采集”+“重复数据”

)

  优采云>采集>平台通过设置“定时采集>”+“重复数据跳过”+“自动发布”功能,即定期检测采集>源网站>是否有内容更新,采集>并发布新内容,可以同步更新数据

  定时采集@>功能详细信息:定时采集@>配置

  自动发布功能详情:采集@>自动发布配置

  基本流程:1.采集@>所有现有数据

  首先设置采集@>的所有现有列表页面中的数据;(以下是一个示例,假设总共有100页)

  

  

  

  2.采集@>更新数据

  所有现有数据采集@>完成后,您只需定期更新采集@>的内容即可。用户通常在“开始|计时采集@>”时设置重复数据以跳转

  上述操作是可行的,但有一种技术可以大大提高同步更新的效率采集@>:

  为了判断是否存在重复数据,系统遍历采集@>配置列表页中的文章是否与存储在采集@>中的文章>具有相同的标题。如果存在大量数据,采集@>的速度将受到影响

  通过观察采集@>源网站@>的内容更新频率和数量,用户可以估计新内容将显示在列表页面的前几页,并在“采集@>起始网站”上仅设置采集@>前几页的内容,从而减少系统遍历的页面数,提高采集@>

  在以下示例中,如果网站@>的新内容每12小时更新一次,并且通常显示在列表页面的前两页上,则只能配置采集@>的前两页上的列表的文章

  (如果没有这样的步骤,按照原来的设置,系统会遍历100个列表页来判断是否有重复数据,现在只需要遍历2个列表页。)

  

  

  

  

  

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线