文章采集调用(Dedecms采集功能使用方法的第二篇设置基本信息及网址索引页规则 )
优采云 发布时间: 2022-01-22 00:14文章采集调用(Dedecms采集功能使用方法的第二篇设置基本信息及网址索引页规则
)
前言:本文章是关于如何使用Dedecms采集函数的第二篇文章。过滤规则。本次选择的目标站点为中国网管联盟网络技术频道的网络协议栏目,网址为“”。本文分为三个部分。第一部分主要介绍新添加的采集节点的第一步:设置基本信息和URL索引页面规则;第二节主要介绍新增的采集节点中的第二步:设置字段获取规则;第三节主要介绍采集如何指定节点以及如何导出采集内容。关于编写采集规则的一些基本操作,本文不做介绍或不再介绍,如有疑问,
进入下面的第一部分。
1.1 设置基本信息和URL索引页面规则
新建一个普通的文章节点,输入“添加采集节点:第一步设置基本信息和URL索引页面规则”如图(图1),
图1 - 新建采集节点:第一步设置基本信息和URL索引页面规则
1.1.1 设置节点基本信息
图 2 - 节点基本信息
首先,定义节点名称为“采集Test(二)”。其次,找到目标页面代码。操作步骤为:
(a) 打开 采集: 所针对的目标页面;
(b) 右击选择“查看源文件”找到“charset”,如图(图3),
图 3 - 查看源文件
等号后面的代码就是想要的“编码格式”,这里是“gb2312”。“Region Matching Mode”、“Content Import Order”、“Hot Link Mode”使用默认值。
引用 URL:您可以选择出现在 文章 列表中的任何 文章 页面的 URL。为方便起见,通常填写文章列表中第一个文章的URL,但由于第一个文章不涉及分页内容,为了展示如何采集分页文章,这里使用第二条文章作为参考网址。它的网址是:“”。设置后节点的基本信息,如图(图4),
图 4 - 设置后节点的基本信息
检查后,进入下一步。
1.1.2 设置列表URL获取规则
如图(图5),
图 5 - 列出 URL 获取规则
这是设置采集的文章列表页的匹配规则,也是本节的重点和难点。
具体步骤:
(a) 首先,回到打开的文章列表页面,然后浏览器的URL地址栏中显示的URL,如图(图6),