文档介绍:CX文章采集器规则写法教程教你如何写采集规则
优采云 发布时间: 2021-06-24 22:07文档介绍:CX文章采集器规则写法教程教你如何写采集规则
文档介绍:CX文章采集器rule写作教程,教你如何写采集rule
相信使用Discuz做网站的用户很多,所以使用CX采集插件的用户也很多。我也用过CX采集插件。我个人认为非常好。它是 Discuz 插件之一。很不错的采集插件,非常适合Dicuz,可以说是类似织梦,新云等程序后台自带的那种采集插件,但是很多人还是很迷茫插件的采集规则编写 没有,虽然我水平不高,但勉强能写一些规则,所以就写个简单的教程,新手可以看看,老手不要喷我!
在cx采集插件中,机器人是采集器。首先告诉你采集器制作的基本原理和思路!
1、首先确定采集的文章list页面的链接(这里的链接必须是list的链接)
2、需要确认列表页采集的内容区域,即机器人中的“列表区域识别规则”
3、需要在采集的这个列表页中确认文章的连接,即“文章link URL识别规则”
4.然后,我们要确认我们想要采集的文章内容范围,也就是“文章Content Identification Rule”
5、依靠前面的4步,我们基本确定了采集的范围。过滤掉一些你不想要的文章话题或内容,可以根据实际情况设置“过滤规则”。
我们的教程在下面正式开始。我以搜手网的文章列表为例给大家讲解一下;下面我们将特指采集。 com/jfff/ysjf/sssp/这个列表页;
第一步:后台插件——CX采集器-add机器人
基本设置: 1. 机器人名称(即机器人名称); 2.匹配模式(一般选择正则表达式); 3.一次采集的总数(即每次采集的总数,根据自己的选择设置); 4批采集数量(默认5个,不要太大,否则采集会超时) 5.发布时间(可以自定义发布时间,如果不设置,以当前时间为准)
第二:设置采集的列表页
1. 采集页面url设置有两种,一种是手动输入,一种是自动增长。我们以手动输入为例;添加链接后,点击测试是否可以链接到;
2. 采集页面的编码设置,我们可以点击程序辅助识别,这里是采集页面的编码,其他3项,根据个人需要设置
3.设置列表区域识别规则
到我们想要采集的页面,右键,查看源文件,找到文章链接url区域,规则中的url区域用[list]表示
现在我们需要在开始区域和结束区域找到div或其他标签。 文章link URL 必须在此区域中并且是最新的。标签必须是唯一的,例如:
[list]
然后,我们需要点击下面的测试,看看是否可以识别文章link url区域
4、文章link url 识别规则
规则需要的连接如图所示
我们将引号中·的连接替换为[url],即·填写规则,然后点击测试