dedecms采集规则如何编撰
优采云 发布时间: 2020-08-25 22:35dedecms采集规则如何编撰
织梦系统作为一个比较常用的文章系统,相对来说操作比较容易。在诸*敏*感*词*中,采集系统可能对于部份菜鸟来说可能是比较难受,比如采集区域设置不对、采集规则具体编辑不正确、采集后空白等问题。今天我们就从比较容易遇见的几个问题来详尽讲解下。
首先我们先登入后台,分别点击采集--采集节点管理,进入采集管理设置界面
这里有两个可以选择,一个是更改原来的节点(主要是之前设置错误造成采集不了或则其他设置),一个是直接新增节点,大部分以新增节点为主,点击,然后下一步,选择“普通文章”确认。
然后填写节点名称(建议是和栏目相关的名称,避免导出的时侯出错),这个按实际填就可以了。然后第一个重点:目标页面编码 。这个是一定要填写目标网页的编码,非自己网页的。查看方式:打开目标网站随便一个页面,空白地方右键-查看源代码(编码通常在前几行)
然后是填写列表规则,一种是批量生成网址,一般适用于规律比较强的或则须要采集是从上到下的。比如我们是以这个栏目目标的:
第一页列表:
第二页列表:。
这个列表规则最重要的是找相同和不同点,相同点填起来,不同点用匹配符号补充,就是变量。其实这个一对比我们可以晓得, .html这儿都是一样的,所以变量就是1.2.3.4.。。所以匹配的网址是:
(*).html。
另一种是列表规则是手工指定列表网址,这个就比较浅显了。就是把你所有须要采集的列表页填写起来。(比较适宜只采集某几页或则变量比较多的页面)