采集内容管理平台( 如何获取“文章标题”高清壁纸(非原创作品))
优采云 发布时间: 2021-08-31 04:12采集内容管理平台(
如何获取“文章标题”高清壁纸(非原创作品))
如何使用Dedecms采集功能---图片采集(二)
前言:本文为《如何使用Dedecms采集功能---图片采集》的第二部分。在上一节的基础上,我们将在第二节中添加一个新的采集 节点。第二步:在“设置字段获取规则”部分做一个简单的介绍。为与上一篇保持一致,本文将继续沿用之前的章节标记。
从第一部分继续。
2.1 添加采集节点:第二步设置内容字段获取规则
点击“保存信息,进入下一步设置”后,可以进入“添加采集节点:第二步设置内容字段获取规则”页面,如图(图21),<//p
pimg src='http://help.dedecms.com/uploads/allimg/110618/-1-11061P62933132.png' alt=''//p
p图21-设置内容字段获取规则/p
p在预览网址,系统会自动指定一个文章作为演示页面,如有特殊需求可自行更改。打开demo页面,观察后可以发现页面收录分页,如图(图22),/p
pimg src='http://help.dedecms.com/uploads/allimg/110618/-1-11061P629495W.png' alt=''//p
p图 22-分页/p
p接下来,我们来设置分页部分的匹配规则。/p
p具体步骤:/p
p(a) 在页面的源代码中,找到分页代码的开头和结尾,如图(图23),/p
pimg src='http://help.dedecms.com/uploads/allimg/110618/-1-11061P63004M5.png' alt=''//p
p图 23-分页代码/p
p(b) 观察显示分页码位于“/p
p“和”/p
p”。因此,在“内容分页导航所在区域匹配规则”中,应填写“/p
p[内容]/p
p”。分页码的样式有3个选项,这里要选择第一个“List of all paging”,填好后如图(图24)/p
pimg src='http://help.dedecms.com/uploads/allimg/110618/-1-11061P63044562.png' alt=''//p
p图24-设置后的网页内容获取规则/p
p对于“fixed采集项目”中的“内容摘要、a href='https://www.ucaiyun.com/caiji/public_dict/' target='_blank'关键词/a和缩略图”三部分,系统会使用常规规则进行自动匹配,只需要配置过滤内容即可。下面主要介绍如何获取“文章title、文章author、文章source、发表时间、文章content”的采集规则和简单的过滤规则。/p
p2.1.1 获取文章title 的采集rules/p
p首先打开“预览网址”页面,右键,选择“查看源代码”,找到文章title“高清壁纸(不是原创作品)”,如图(图25)) @) ,/p
pimg src='http://help.dedecms.com/uploads/allimg/110618/-1-11061P63055V2.png' alt=''//p
p图25-源代码中的文章title/p
p这里的文章title在“”之间,所以这里应该填“[Content]”作为文章title的匹配规则。对于收录的/p
pimg src='http://help.dedecms.com/collection/2011/0617/%E2%80%9D/images/digest1.gif' alt='”推荐的欣赏”'//p
p"可以根据自己的需要选择保留或者过滤掉,如果要过滤掉这张图片,需要填写过滤规则:"{dede:trim replace=''}/p
p]*)>{/dede:trim}"。填写后,如图(图26),
图 26-文章title 的采集rules
2.1.2 获取文章author 的采集rules
搜索源代码,对比原文,可以发现本文不涉及原作者。此处选择不填写。