优采云采集器定时采集更新网站内容(长期做站必用)

优采云 发布时间: 2020-08-11 19:46

  优采云采集器定时采集更新网站内容(长期做站必用)

  教程总目录:优采云采集器使用教程

  前面的教程我们基本能完成网站内容的采集工作了。但是我们想要网站长期运行的话,肯定不能单靠一次采集来完成。

  优采云自带的有计划任务功能,我们可以使用这个功能来实现定时运行采集任务。

  另外我们采集的地址也须要做一些变更,提高采集效率。

  1.采集地址设置

  前面教程李我们的目的是把对方整站的内容给采集过来,所以采集列表里网址比较多,后面我们持续采集新内容的话就不能扫描整个网站这样来了。

  我们只监控第一页即可,然后定时检查第一页有没有新内容,有新内容优采云会手动采集下来数据。没有的话扫描之后手动会停止。

  以景安的文章为例

  这个是他的文章列表第一页,当景安更新了新内容,肯定会在第一页这儿显示。我们就把第一页这个地址填入采集列表即可。这里不再重复说如何填了吧,教程开头几篇文章写了

  另外一点须要注意,因为我们定时运行时他要检查是不是采集过的文章,所以说我们不要消除优采云的采集数据。不然的话优采云检测发觉文章都没采集过,都当作新文章采集了。

  

  2.定时任务设置

  本教程只创建了一个任务,如果你是常年运行一个网站。你网站每个版块可能都采集的是不同的文章来源,甚至一个版块才几个多个网站的文章。任务就十分多

  我们可以批量添加定时任务

  点击计划任务

  

  我们先创建一个计划任务分组

  

  然后在分组内添加计划任务,这样比较好管理

  然后上面的间隔时间依照要采集的网站更新频度来设置,他更新快你就间隔时间短点。更新慢的话就长点,比如景安这个网站,可能几天几个月都不更新,就设置间隔时间为每晚就行。

  限定时间段

  这个应当也都理解,就是计划任务在哪些时间段内生效,默认是早上6点到晚上23点。我通常会给他改成全天的

  

  扩展知识

  因为采集任务常年运行,我们最好是将胡说回头放在一台服务器上跑,家里有比较节电的机器的话也可以拿来挂采集任务。

  采集任务比较多的话还是很消耗CPU的,一般建议在家里挂。家庭带宽内网IP时常变动有利于采集,而且硬件配置基本也都比买的服务器配置高。不用害怕优采云运行着出现卡死的情况。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线