规则采集文章软件(楚截图和文字分不清楚,因此用粉色背景来区分(图))

优采云 发布时间: 2022-01-11 14:09

  规则采集文章软件(楚截图和文字分不清楚,因此用粉色背景来区分(图))

  楚截图和文字不清楚,所以用粉红色的背景来区分。

  第一步,确定采集的网站(我们使用DEDE官网作为采集站进行演示)

  第二步,确定站的代码为采集。打开原来是采集的页面后,查看源码(IE:查看->源码)

  

  找到中间的charset,后面会显示网页的代码。截图为“gb2312”

  第三步,采集列表获取规则编写

  [变量:分页]

  

  

  文章URL必须收录URL,不能收录这两个。一般不用写。当采集 的列表范围内有很多不必要的连接时,用于过滤。

  如果只有一个列表页,直接在源 URL 中写 URL 即可。

  

  

  注意这里,最重要的是这里。

  下面是“采集获取文章写规则列表”,

  就是上面采集打开的页面的源代码文件。在找到 文章 列表之前,没有其他代码与此页面相同。

  Dedecms官网列表页文章列表前后最新且不相同的是“

  “”和“”,分别写“开始HTML”和“结束HTML”,看截图

  

  第四步,采集文章标题,文章内容,文章作者,文章来源等写法规则,分页采集等在。

  “开始HTML”和“结束HTML”,请参考第三步中的“文章列表编写规则”

  

  下面是如何在采集页面内容看到被圈出的地方截图

  文档是否分页,选择“所有列出的分页列表”

  “开始HTML”和“结束HTML”,请参考第三步中的“文章列表编写规则”

  

  

  当然,上面的不能用于带视频的采集,因为它已经被过滤掉了,接下来的四行就是过滤掉视频。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线