优采云采集器定时采集更新网站内容(长期做站必用)
优采云 发布时间: 2020-08-11 19:46优采云采集器定时采集更新网站内容(长期做站必用)
教程总目录:优采云采集器使用教程
前面的教程我们基本能完成网站内容的采集工作了。但是我们想要网站长期运行的话,肯定不能单靠一次采集来完成。
优采云自带的有计划任务功能,我们可以使用这个功能来实现定时运行采集任务。
另外我们采集的地址也须要做一些变更,提高采集效率。
1.采集地址设置
前面教程李我们的目的是把对方整站的内容给采集过来,所以采集列表里网址比较多,后面我们持续采集新内容的话就不能扫描整个网站这样来了。
我们只监控第一页即可,然后定时检查第一页有没有新内容,有新内容优采云会手动采集下来数据。没有的话扫描之后手动会停止。
以景安的文章为例
这个是他的文章列表第一页,当景安更新了新内容,肯定会在第一页这儿显示。我们就把第一页这个地址填入采集列表即可。这里不再重复说如何填了吧,教程开头几篇文章写了
另外一点须要注意,因为我们定时运行时他要检查是不是采集过的文章,所以说我们不要消除优采云的采集数据。不然的话优采云检测发觉文章都没采集过,都当作新文章采集了。
2.定时任务设置
本教程只创建了一个任务,如果你是常年运行一个网站。你网站每个版块可能都采集的是不同的文章来源,甚至一个版块才几个多个网站的文章。任务就十分多
我们可以批量添加定时任务
点击计划任务
我们先创建一个计划任务分组
然后在分组内添加计划任务,这样比较好管理
然后上面的间隔时间依照要采集的网站更新频度来设置,他更新快你就间隔时间短点。更新慢的话就长点,比如景安这个网站,可能几天几个月都不更新,就设置间隔时间为每晚就行。
限定时间段
这个应当也都理解,就是计划任务在哪些时间段内生效,默认是早上6点到晚上23点。我通常会给他改成全天的
扩展知识
因为采集任务常年运行,我们最好是将胡说回头放在一台服务器上跑,家里有比较节电的机器的话也可以拿来挂采集任务。
采集任务比较多的话还是很消耗CPU的,一般建议在家里挂。家庭带宽内网IP时常变动有利于采集,而且硬件配置基本也都比买的服务器配置高。不用害怕优采云运行着出现卡死的情况。