2019年织梦DedeCms采集规则教程
优采云 发布时间: 2020-07-25 08:022019 年织梦 DedeCms 采集规则教程篇一:DEDECMS 完整采集教程(共三篇) DEDECMS 完整采集教程(列表设置篇)-marco608 原创 以的 html 教程中的数据库为例,地址是 /web-art/htmlbase/HTML/index.html 一,打开 dedecms,进入【采集节点管理】,新建一个节点,模 型我们就选择------------------------------------- 28----------------------------------------二,填写节点的基本信息: 名称就自己定义吧。 编码就比较重要,大家可以在页面点击右键来看该页面的编码。来源就自己定义吧。 防盗链就看目标站点的有无刷新限制,有就设置一下超时时间。------------------------------------- 28----------------------------------------三,设置采集列表: 我们要采集的列表是这样的: 而我们要设置的列表是这样的: 下面我们来说明一下这个设置是如何填的。 来源网址很重要的。列表的获取就是从这儿得到的。
自己打开:/web-art/htmlbase/HTML/list_33_2.html 看看分页 的规律。不难看出吧? 然后我们在设置列表分页时,就转换为变量值的方式:/web-art/htmlbase/HTML/list_33_[var:分页].html 而变量起始值是 1,结束值是 3,就代表 1 至 3 的列表页了。 正则配置网址就看本身是否有比较特定的文章网址字符。例如 page1.html 之类的。 下面的 html 范围就比较重要。 我们看原 dede 的列表。我们在浏览器里查看源文件。 查找以下代码: 看到这儿,你一定要认识常用的 html 代码。 这里要复制代码起始就是那种文章列表的表格的开始部份吧。 下面就是文章列表的表格的结束部份的代码: 篇二:DeDeCMS5.7 详细采集教程DeDeCMS 织梦的采集教程,超级详尽超级详细的织梦采集教程看见好多网友都为织梦(DEDECMS)的采集教程头痛,的确,官方 出的教程很宽泛了,什么都没说,换个网站你哪些都做不了,这个教 程是最详细的教程,让你一看即会首先我们打开织梦后台点击采集— —采集节点管理——增加新节点这儿我们以采集普通文章为例,我们选择普通文章,然后确定我们步入了采集的设置页面,填写节点名称,就是给这个新节点 取个名子,这里你可以任意填写。
一、设置文章列表页面之后打开你想要采集的文章列表页,这里我们以织梦官网为例/web-manage/jianzhanxinde/打开这个页面,右键——查看源文 件找到目标页面编码,就在 charset 后面页面基本信息其他的通常就不用管了,填完了如图如今我们来填写列表网址获取规则瞧瞧文章列表第一页的地址/web-manage/jianzhanxinde/list_49_1.html对比第二页的地址/web-manage/jianzhanxinde/list_49_2.html 我们发觉了她们不仅 49_后面的数字不一样,其他的都一样,所以我 们可以这样写/web-manage/jianzhanxinde/list_49_(*).html 就是 把 1 换成了(*)因为这儿只有 2 页,所以我们就填从 1 到 2 每页递增 当然是 1 了,2-1...是等于 1 吧这儿我们就填写完了------------------------------------------------------------------------------------------------------------没有规则的路径,需要自动设定可能你们采集的有些列表没有规则,那就只有手工指定列表网址 了,如图每行写一个页面地址-------------------------------------------------------------------------------------------------------------列表规则写完了,我们就开始写文章网址匹配规则了,回到文章列 表页右键查看源文件找到区域开始的 HTML,就是找文章列表开始的 标志。
我们很容易的找到了如图中的“新闻列表”。从这里开始,后面 就是文章列表里我们再找文章列表结束的 HTML就是这个了,一个很容易找到的标志假如链接中富含图片:不处理采集为缩略图这儿按照自己的须要选择对区域网址进行再度筛选:(使用正则表达式) 必须包含:(优先级低于前者) 不能包含: 打开源文件,我们可以太清楚的看见,文章链接都是以.html 结 束的 所以,我们在必须包含前面填.html 如果碰到有些列表很麻烦织梦采集规则教程, 还可以填写旁边的不能包含 实例如图 二、设置文章内容采集 我们点击保存设置步入下一步,可以看见我们获得的文章网址 看到这种就是对的了,我们保存信息步入下一步设置内容数组获 取规则我们瞧瞧文章有没有分页,随便步入一篇文章看看。。我们听到 这里的文章没有分页所以这儿的我们就默认了我们如今来找文章标题等等随意步入一篇文章织梦采集规则教程,右键查看源文件 看看那些根据源码填写我们再来填写文章内容的开始,结束和里面的一样,找到开始和 结束标志篇三:dedecms 采集规则dedecms 采集规则 dedeCMS 采集规则,过滤,替换文章内的部份 内容1.采集去除链接[Copytoclipboard]CODE:{dede:trim}]*)>([^-------------------------------让 field:title 标题突破 30 这个宽度,修改代码的方式 找到./include/inc_arcpart_view.php 行 291: if($titlelen=="")$titlelen=30; 修改为 if($titlelen=="")$titlelen=60; 就可以了,然后,你可以这样调用了 {dede:channelArtlisttypeid='0'col=1tablewidth='100%'} {dede:arclistrow="10"} [field:titlefunction="cn_substr('@me',38)"/]{/dede:arclist} {/dede:channelArtlist} 把这个延展一下:关于 inc_arcpart_view.phpfunctionGetArcList($typeid=0,$row=10,$col=1,$titlelen=30,$i nfolen=160,$imgwidth=120,$imgheight=90,$listtype="all",$orderby="defau lt",$keyword="",$innertext="",$tablewidth="100",$arcid=0,$i dlist="")这里的参数都可以修改你实际须要的模板元素规格大小. 2.采集过虑中去除链接保留文字的方式! 柏老大的方式是{dede:trim}]*)>([^{/dede:trim} {dede:trim}{/dede:trim} 做成两条采集规则就可以了! 在实际使用中似乎([^]*)两条一起使用才行! 3.过滤 div {dede:trim}]*)>{/dede:trim} {dede:trim} {/dede:trim} 过滤 js{dede:trim}]*)>([^ 过滤变量字符 固定(.*)固定 4.dede 万能过滤代码 以下是常用的正则表达式标签 {dede:trim}{/dede:trim} {dede:trim}{/dede:trim} {dede:trim}{/dede:trim} {dede:trim}{/dede:trim} {dede:trim}{/dede:trim} {dede:trim}{/dede:trim}{dede:trim}{/dede:trim} {dede:trim}{/dede:trim} {dede:trim}{/dede:trim} {dede:trim}{/dede:trim} {dede:trim}{/dede:trim} {dede:trim}{/dede:trim} {dede:trim}{/dede:trim} {dede:trim}