内容采集(采集模块是可以批量采集目标网站内容入库(图) )
优采云 发布时间: 2021-10-08 09:13内容采集(采集模块是可以批量采集目标网站内容入库(图)
)
采集
采集模块可以批量采集目标网站内容存储
1、下载安装
在ZTBcms模块->模块->模块仓库中找到采集模块,点击下载。
下载完成后解压,命名为“采集”,然后复制到项目目录下。
然后将其安装在后台本地模块中。
2、采集进程
位置:内容>内容管理>采集管理
采集过程分为三个步骤:
示例说明:
目标:采集新浪新闻
(1)添加采集点a,URL规则配置
在系统上点击“添加采集点”,可以看到在URL规则页面上一共有基本信息和URL采集。这两大信息需要填写,在URL采集中有四种类型的URL:串行URL、多个URL、单个网页和RSS。以下示例使用多种 URL 类型来执行 采集。
设置好URL规则后,测试是否正确
湾 内容规则配置
这里的内容规则看起来很复杂,但实际上非常简单。为方便说明,以下仅标题和内容两个字段。采集内容网址:从网址规则中获取网址,打开其中一个网址,然后在页面空白处右键->查看网页搜索标题和内容的起始边界.
过滤选项格式为“待过滤内容[|]替换值”,待过滤内容支持正则表达式,每行一个。同时也支持函数模式,例如:“fun=str_replace|sina,sina,###”表示替换采集的内容然后返回(###表示采集 到内容,多个参数用“,”隔开)。注意:可以在采集模块目录下Funs文件夹下的funs.php文件中添加函数。
c、自定义规则
d、高级配置
可以设置是否下载图片到服务器,是否打印水印等配置
(2)采集URL,采集内容
采集规则配置好后,可以先执行URL的采集,然后是采集的内容。
采集 转到网址:
采集 内容:
(3)将内容发布到指定栏目
选择要导入的部分
设置采集的内容与数据库字段的对应关系,提交数据存储。在此期间请耐心等待,完成后会自动重定向。至此,一个简单的采集流程就完成了。