CX文章采集器规则写法怎么写Discuz峰会采集规则
优采云 发布时间: 2020-08-10 02:46CX文章采集器规则写法教程,教你怎么写采集规则 相信做用Discuz 做站的用户是特别多的,那么用到CX采集插件的用户也是好多,自己也用过 采集插件,个人感觉十分不错,是Discuz 插件中一款很不错的采集插件,很适宜Dicuz,可以说是类似于织梦,新云 等程序后台自带的那个采集插件,不过很多人对于插件的采集规则写法还是太搞不来,自己的水平即使不 高,但是能够勉强写些规则,所以就写个破旧点的教程,新手可以看一看,老手你也别喷我! 在cx 采集插件中,机器人就是采集器,首先给你们讲一下采集器制做的基本原理和思路! 1,首先确定要采集的文章列表页面的链接(这里的链接一定要是列表的联接) 2,要确认要采集这个列表页面的内容区域,也就是机器人中的“列表区域辨识规则” 3,要确认要采集这个列表页面中的文章的联接,也就是“文章链接URL 识别规则” 4,然后,我们就要确认要采集的文章内容范围,也就是“文章内容辨识规则” 5,依靠上面4 步,我们早已基本确定了要采集的范围,要过滤一些自己不想要的文章题目或则内容,大家 可以按实际情况设置“过滤规则” 下面我们的教程即将开始,我以搜瘦网的一个文章列表为反例,给你们讲解;下面我们具体将采集 。
com/jfff/ysjf/sssp/这个列表页面; 第一步:后台—插件—CX 采集器—添加机器人 基本设置:1。机器人名(即机器人的名称);2。匹配模式(一般情况选正则表达式);3。一次采集总数 一次采集的总个数,按自己的选择设置);4分批采集数(默认为5,不可很大,否则采集会超时)5,发 布时间(可以自定义发布时间,不设置的话以当前的时间为主) 第二:设置采集的列表页面 1。采集页面的url 设置有两种,一是手工输入,二是手动下降,我们以手工输入为例;添加好链接后,点击 下测试,看是否可以链接到; 2。采集页面的编码设置,我们可以点击程序辅助辨识,这里要填的是被采集页面的编码,其他3 人须要设置3。设置列表区域辨识规则 到我们要采集的页面,点击右键,查看源文件,然后找到文章链接url 的区域,规则中url区域用[list]表 现在我们就要找到开始区域和结束区域的div或其他标签,文章链接URL 一定要在这个区域中,而且是最 近的,标签必须要独一无二,比如: [list] 然后,我们须要点击一下旁边的测试,看是否能辨识出文章链接url 区域 4,文章链接url 识别规则 规则须要的联接如图 我们将 中,引号中的联接替换成[url], href="[url]">填到规则中,然后点击测试 文章链接url 补充前缀,因为联接中有域名,所以就不需要填了,如果没有,则须要填上域名 第三,文章内容页面采集设置 1,文章标题辨识规则,点开一篇文章,在文章页面中点击右键,查看源文件,找到这篇文章标题左右近来 的标签,文章标题用[subject],代替 以列表中的这篇文章为例;。
com/2011/5/4/28084。shtml 标题规则即:[subject] 填入规则,点击测试 大家都听到,识别后的标题,其中前面的并不是我们想要的标题,所以我们要把不需要的过滤掉,现在我 们复制不想要的一些标题即(-资讯中心-减肥频道-减肥方式-饮食减重-瘦身食谱) 将他填到下边的文章标题过滤规则中,现在我们测试下,看看是不是得到我们想要的标题了 2,文章内容辨识规则 找到源文件中这篇文章区域开始和结尾近来的标签,内容用[message]表示,即内容辨识规则为 [message]
点击测试 这样规则就写好了,点击最下边的递交,其他规则按你要采集的网站和个人的须要自己设置。 然后,点击开始采集 采集完成后,点击查看采集结果 然后选择,需要导出到你峰会的那个版块 这样整个采集过程就结束了,教程写的太狭小,但其实是个人原创,转载请标明转载自石必峰的博客