CX文章采集器规则写法怎么写Discuz峰会采集规则

优采云发布时间: 2020-08-10 02:46

　　CX文章采集器规则写法教程，教你怎么写采集规则相信做用Discuz 做站的用户是特别多的，那么用到CX采集插件的用户也是好多，自己也用过采集插件，个人感觉十分不错，是Discuz 插件中一款很不错的采集插件，很适宜Dicuz，可以说是类似于织梦，新云等程序后台自带的那个采集插件，不过很多人对于插件的采集规则写法还是太搞不来，自己的水平即使不高，但是能够勉强写些规则，所以就写个破旧点的教程，新手可以看一看，老手你也别喷我！在cx 采集插件中，机器人就是采集器，首先给你们讲一下采集器制做的基本原理和思路！ 1，首先确定要采集的文章列表页面的链接（这里的链接一定要是列表的联接） 2，要确认要采集这个列表页面的内容区域，也就是机器人中的“列表区域辨识规则” 3，要确认要采集这个列表页面中的文章的联接，也就是“文章链接URL 识别规则” 4，然后，我们就要确认要采集的文章内容范围，也就是“文章内容辨识规则” 5，依靠上面4 步，我们早已基本确定了要采集的范围，要过滤一些自己不想要的文章题目或则内容，大家可以按实际情况设置“过滤规则” 下面我们的教程即将开始，我以搜瘦网的一个文章列表为反例，给你们讲解；下面我们具体将采集。

　　com/jfff/ysjf/sssp/这个列表页面；第一步：后台—插件—CX 采集器—添加机器人基本设置：1。机器人名（即机器人的名称）；2。匹配模式（一般情况选正则表达式）；3。一次采集总数一次采集的总个数，按自己的选择设置）；4分批采集数（默认为5，不可很大，否则采集会超时）5，发布时间（可以自定义发布时间，不设置的话以当前的时间为主）第二：设置采集的列表页面 1。采集页面的url 设置有两种，一是手工输入，二是手动下降，我们以手工输入为例；添加好链接后，点击下测试，看是否可以链接到； 2。采集页面的编码设置，我们可以点击程序辅助辨识，这里要填的是被采集页面的编码，其他3 人须要设置3。设置列表区域辨识规则到我们要采集的页面，点击右键，查看源文件，然后找到文章链接url 的区域，规则中url区域用[list]表现在我们就要找到开始区域和结束区域的div或其他标签，文章链接URL 一定要在这个区域中，而且是最近的，标签必须要独一无二，比如： [list] 然后，我们须要点击一下旁边的测试，看是否能辨识出文章链接url 区域 4，文章链接url 识别规则规则须要的联接如图我们将中，引号中的联接替换成[url]， href="[url]">填到规则中，然后点击测试文章链接url 补充前缀，因为联接中有域名，所以就不需要填了，如果没有，则须要填上域名第三，文章内容页面采集设置 1，文章标题辨识规则，点开一篇文章，在文章页面中点击右键，查看源文件，找到这篇文章标题左右近来的标签，文章标题用[subject]，代替以列表中的这篇文章为例；。

　　com/2011/5/4/28084。shtml 标题规则即：[subject] 填入规则，点击测试大家都听到，识别后的标题，其中前面的并不是我们想要的标题，所以我们要把不需要的过滤掉，现在我们复制不想要的一些标题即（-资讯中心-减肥频道-减肥方式-饮食减重-瘦身食谱）将他填到下边的文章标题过滤规则中，现在我们测试下，看看是不是得到我们想要的标题了 2，文章内容辨识规则找到源文件中这篇文章区域开始和结尾近来的标签，内容用[message]表示，即内容辨识规则为 [message]

　　点击测试这样规则就写好了，点击最下边的递交，其他规则按你要采集的网站和个人的须要自己设置。然后，点击开始采集采集完成后，点击查看采集结果然后选择，需要导出到你峰会的那个版块这样整个采集过程就结束了，教程写的太狭小，但其实是个人原创，转载请标明转载自石必峰的博客

0

2020-08-10

无规则采集器列表算法

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

CX文章采集器规则写法怎么写Discuz峰会采集规则

0 个评论

发起人

AI时代内容工厂

CX文章采集器规则写法怎么写Discuz峰会采集规则

0 个评论

发起人

相关问题