文章采集规则(第一步、确定采集的网站(图)、采集站做示范)

优采云发布时间: 2022-01-13 02:34

　　第一步，确定采集的网站（我们使用DEDE的官方站作为采集站进行演示）

　　复制代码

　　第二步，确定站的代码为采集。打开原来是采集的页面后，查看源码（IE：查看->源码）

　　找到中间的charset，后面会显示网页的代码。截图为“gb2312”

　　第三步，采集列表获取规则编写

　　源网址明显写成pageno表示页码，所以如果有多个页列表采集，需要将页码替换为“[var:page]”，截图如下

　　[var:page]

　　文章URL必须收录URL，不能收录这两个。一般不用写。当采集的列表范围内有很多不必要的连接时，用于过滤。

　　上面的网址并没有收录为什么要加在前面的原因，所以我就不说了。

　　如果只有一个列表页，直接在源 URL 中写 URL 即可。

　　注意这里，最重要的是这里。

　　下面是“采集获取文章写规则列表”，

　　就是上面采集打开的页面的源代码文件。在找到文章列表之前，没有其他代码与此页面相同。

　　Dedecms官网列表页前后文章最近不一样的是">"和">"，分别写“开始HTML”和“结束HTML”，写法截图

　　第四步，采集文章标题、文章内容、文章作者、文章来源等写法规则、分页采集等在。

　　“开始HTML”和“结束HTML”参考步骤3中的“文章列表编写规则”

　　下面是如何在采集页面内容看到被圈出的地方截图

　　文档是否分页，选择“所有列出的分页列表”

　　“开始HTML”和“结束HTML”参考步骤3中的“文章列表编写规则”

　　这里最初有一个截图。由于论坛配置，他现在显示在顶部。

　　点击文章内容中的“分页内容字段”，不选择就无法采集。

　　“下载域中的多媒体资源” 即下载多媒体资源（视频、软件、图片等）到采集时的本地位置，也就是你的网站。

　　下面是过滤规则

　　过滤规则需要用“正则表达式”来写，但是对于一个新手来说，这简直比天方夜谭还难，看不懂。:)

　　以上操作就完成了。保存

　　点击“测试”

　　出现与上述类似的图片。这意味着成功

　　稍后点击“采集”

　　采集完成后导出到你的列就OK了。完成的

0

2022-01-13

文章采集规则

0 个评论

要回复文章请先登录或注册