内容采集系统(08CMS架构上的“再一轮开发”或许就是指V3.5)
优采云 发布时间: 2022-01-06 00:20内容采集系统(08CMS架构上的“再一轮开发”或许就是指V3.5)
虽然现在jar里的人气不是很好,还有很多问题和帖子没有解决,但这些都会过去的。G表示,再经过一轮发展,就会进入市场,这意味着官方将不再盲目关门。发展
这个所谓的“又一轮开发”可能指的是V3.5版本。GBK 编码版本已经发布。如果 UTF8 发布,则应视为已完成。具体以官方日程为准。
我长期担任本教程版本的版主。最郁闷的是,总看到有人在那里喊:不能用,文件太少……等等。惭愧,好像有点占坑不拉屎的嫌疑
这也不能全怪我,我也想喊:G,你太低调了,让人活不下去,就算你不出来,给我想的时间表,我有一个方向,盲人行走,盲人手杖找路,不知何故给我指路
投诉到此结束,进入正题
08cms采集系统说明
由于08cms的特殊结构,市面上没有外部支持的采集器(没看到,知道的分享一下)
单篇采集和普通的采集器都可以应付,但主要问题在于采集的编译
不过就算有,我也会选择系统自带的采集器。毕竟,合适的才是最好的。系统自带的采集器显然是量身定做的。
个人觉得虽然目前系统自带的采集器还有很多不足,但也不是一般的采集器可以替代的。它在贴合度上有着先天的优势。
下面介绍一下08cms内置的采集系统
一、登录后台进入采集管理
[附]1646[/附]
怎么登陆后台?只需点击订单,不要问我。
二、 第一次使用采集系统,系统会要求添加采集模型
所谓采集模型就是构建采集的框架,设置采集的必填字段以及将采集的内容添加到哪个文档模型中
这里的设置有点郁闷的地方,直接填模型名就可以建模型了
相关设置只有在建立后才能进行编辑。个人觉得在建立模型时设置采集模型相关参数比较靠谱。
第三步,编辑采集模型
模型编辑界面
至此,采集模型的添加完成
下面开始添加采集任务
第四步,采集任务添加
以下是采集任务界面图,请仔细阅读图中的注释
第六步,高亮开始,采集规则设置
首先分析采集目标页面的代码结构,这里以IE浏览器为例
查看采集目标页面,点击IE
页面----查看源文件
很容易看到目标页面的代码结构
采集 页面的代码分析主要是寻找采集目标的特征
页面太大,这里不好解析,上图说明了URL采集接口相关规则的设置
单击提交以在此处保存设置
我想知道为什么我不直接跳到下一个内容采集而是提交后回到这个页面
在这个截图页面下面还有一个部分,叫做retrospective URL rule
这不是可选项目,一般不需要
而且这个只能获取一个网址,不是网址列表,个人觉得有点鸡肋,附上官方说明
回溯 URL:内容 URL 的扩展。有些是采集文档,个别字段的内容不在主内容页,而是在附加页,特别是与附件相关的内容。追溯URL用于采集它的附加页面URL,每个内容URL有两个附加页面可以追溯,追溯URL 2基于追溯URL 1。采集。
追溯概念的例子:当我们进入下载站点时,我们点击进入的页面往往只有软件信息描述和一个或多个下载页面的链接
注意:这是下载页面的链接,不是下载地址。当我们要下载软件时,首先要打开这个下载页面才能看到下载地址
这是第一级可追溯性,因为我们必须再次点击才能到达下载页面。这时候我们的一级溯源地址就是下载页面的链接。