文章采集调用(Dedecms采集功能使用方法的第二篇设置基本信息及网址索引页规则 )

优采云 发布时间: 2022-01-22 00:14

  文章采集调用(Dedecms采集功能使用方法的第二篇设置基本信息及网址索引页规则

)

  前言:本文章是关于如何使用Dedecms采集函数的第二篇文章。过滤规则。本次选择的目标站点为中国网管联盟网络技术频道的网络协议栏目,网址为“”。本文分为三个部分。第一部分主要介绍新添加的采集节点的第一步:设置基本信息和URL索引页面规则;第二节主要介绍新增的采集节点中的第二步:设置字段获取规则;第三节主要介绍采集如何指定节点以及如何导出采集内容。关于编写采集规则的一些基本操作,本文不做介绍或不再介绍,如有疑问,

  进入下面的第一部分。

  1.1 设置基本信息和URL索引页面规则

  新建一个普通的文章节点,输入“添加采集节点:第一步设置基本信息和URL索引页面规则”如图(图1),

  

  图1 - 新建采集节点:第一步设置基本信息和URL索引页面规则

  1.1.1 设置节点基本信息

  

  图 2 - 节点基本信息

  首先,定义节点名称为“采集Test(二)”。其次,找到目标页面代码。操作步骤为:

  (a) 打开 采集: 所针对的目标页面;

  (b) 右击选择“查看源文件”找到“charset”,如图(图3),

  

  图 3 - 查看源文件

  等号后面的代码就是想要的“编码格式”,这里是“gb2312”。“Region Matching Mode”、“Content Import Order”、“Hot Link Mode”使用默认值。

  引用 URL:您可以选择出现在 文章 列表中的任何 文章 页面的 URL。为方便起见,通常填写文章列表中第一个文章的URL,但由于第一个文章不涉及分页内容,为了展示如何采集分页文章,这里使用第二条文章作为参考网址。它的网址是:“”。设置后节点的基本信息,如图(图4),

  

  图 4 - 设置后节点的基本信息

  检查后,进入下一步。

  1.1.2 设置列表URL获取规则

  如图(图5),

  

  图 5 - 列出 URL 获取规则

  这是设置采集的文章列表页的匹配规则,也是本节的重点和难点。

  具体步骤:

  (a) 首先,回到打开的文章列表页面,然后浏览器的URL地址栏中显示的URL,如图(图6),

  

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线