如何配置网站数据的自动采集和自动更新

优采云 发布时间: 2020-08-06 18:28

  优采云采集平台可以通过设置“常规采集” +“重复数据跳过” +“自动发布”功能,实现数据的同步更新,即定期检测采集源网站是否有内容更新,采集发布新信息. 内容.

  定时采集功能的详细信息: 定时采集配置;

  自动发布功能的详细信息: 采集后自动发布配置;

  基本过程: 1.采集所有现有数据

  首先设置为采集所有现有列表页面中的数据; (以下是“大众健康饮食”模板的示例,假设总共有100页)

  

  

  

  2. 采集和更新数据

  完成所有现有数据采集后,现在只需要定期采集更新的内容. 用户通常会在“开始|定时采集”中设置重复的数据跳过次数.

  上面的操作是可行的,但是有一个技巧可以大大提高同步更新采集的效率:

  要判断数据是否重复,系统将遍历配置集合的列表页面中的文章和已采集并存储的文章是否具有相同的标题. 如果数据量很大,将影响采集速度.

  用户可以观察馆藏源网站内容更新的频率和数量,估计新内容将显示在列表页面的前几页中,并设置“馆藏开始URL”以仅采集馆藏内容. 减少系统的前几页遍历列表页数以提高采集效率.

  在下面的示例中,网站的新内容每12小时更新一次,通常显示在列表页面的前两个页面上. 您可以配置为仅采集列表的前两页中的文章.

  (如果没有这样的步骤,则按照原创设置,系统将遍历100页列表页以确定是否有重复数据,现在只需要遍历2页列表页即可)

  

  

  

  

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线