文章采集规则(第一步、确定采集的网站(图)、采集站做示范)
优采云 发布时间: 2022-01-13 02:34文章采集规则(第一步、确定采集的网站(图)、采集站做示范)
第一步,确定采集的网站(我们使用DEDE的官方站作为采集站进行演示)
复制代码
第二步,确定站的代码为采集。打开原来是采集的页面后,查看源码(IE:查看->源码)
找到中间的charset,后面会显示网页的代码。截图为“gb2312”
第三步,采集列表获取规则编写
源网址明显写成pageno表示页码,所以如果有多个页列表采集,需要将页码替换为“[var:page]”,截图如下
[var:page]
文章URL必须收录URL,不能收录这两个。一般不用写。当采集 的列表范围内有很多不必要的连接时,用于过滤。
上面的网址并没有收录为什么要加在前面的原因,所以我就不说了。
如果只有一个列表页,直接在源 URL 中写 URL 即可。
注意这里,最重要的是这里。
下面是“采集获取文章写规则列表”,
就是上面采集打开的页面的源代码文件。在找到 文章 列表之前,没有其他代码与此页面相同。
Dedecms官网列表页前后文章最近不一样的是">"和">",分别写“开始HTML”和“结束HTML”,写法截图
第四步,采集文章标题、文章内容、文章作者、文章来源等写法规则、分页采集等在。
“开始HTML”和“结束HTML”参考步骤3中的“文章列表编写规则”
下面是如何在采集页面内容看到被圈出的地方截图
文档是否分页,选择“所有列出的分页列表”
“开始HTML”和“结束HTML”参考步骤3中的“文章列表编写规则”
这里最初有一个截图。由于论坛配置,他现在显示在顶部。
点击文章内容中的“分页内容字段”,不选择就无法采集。
“下载域中的多媒体资源” 即下载多媒体资源(视频、软件、图片等)到采集时的本地位置,也就是你的网站。
下面是过滤规则
过滤规则需要用“正则表达式”来写,但是对于一个新手来说,这简直比天方夜谭还难,看不懂。:)
以上操作就完成了。保存
点击“测试”
出现与上述类似的图片。这意味着成功
稍后点击“采集”
采集完成后导出到你的列就OK了。完成的