文章采集规则(第一步、确定采集的网站(图)、采集站做示范)

优采云 发布时间: 2022-01-13 02:34

  文章采集规则(第一步、确定采集的网站(图)、采集站做示范)

  第一步,确定采集的网站(我们使用DEDE的官方站作为采集站进行演示)

  复制代码

  第二步,确定站的代码为采集。打开原来是采集的页面后,查看源码(IE:查看->源码)

  

  

  找到中间的charset,后面会显示网页的代码。截图为“gb2312”

  第三步,采集列表获取规则编写

  源网址明显写成pageno表示页码,所以如果有多个页列表采集,需要将页码替换为“[var:page]”,截图如下

  [var:page]

  

  

  文章URL必须收录URL,不能收录这两个。一般不用写。当采集 的列表范围内有很多不必要的连接时,用于过滤。

  上面的网址并没有收录为什么要加在前面的原因,所以我就不说了。

  如果只有一个列表页,直接在源 URL 中写 URL 即可。

  

  

  注意这里,最重要的是这里。

  下面是“采集获取文章写规则列表”,

  就是上面采集打开的页面的源代码文件。在找到 文章 列表之前,没有其他代码与此页面相同。

  Dedecms官网列表页前后文章最近不一样的是">"和">",分别写“开始HTML”和“结束HTML”,写法截图

  

  第四步,采集文章标题、文章内容、文章作者、文章来源等写法规则、分页采集等在。

  “开始HTML”和“结束HTML”参考步骤3中的“文章列表编写规则”

  

  

  下面是如何在采集页面内容看到被圈出的地方截图

  文档是否分页,选择“所有列出的分页列表”

  “开始HTML”和“结束HTML”参考步骤3中的“文章列表编写规则”

  

  

  这里最初有一个截图。由于论坛配置,他现在显示在顶部。

  点击文章内容中的“分页内容字段”,不选择就无法采集。

  “下载域中的多媒体资源” 即下载多媒体资源(视频、软件、图片等)到采集时的本地位置,也就是你的网站。

  下面是过滤规则

  过滤规则需要用“正则表达式”来写,但是对于一个新手来说,这简直比天方夜谭还难,看不懂。:)

  以上操作就完成了。保存

  点击“测试”

  

  出现与上述类似的图片。这意味着成功

  稍后点击“采集”

  采集完成后导出到你的列就OK了。完成的

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线