软文一件采集器(特作此制作采集器的基本原理和一些细节问题，你知道吗？)

优采云发布时间: 2022-03-15 13:06

　　很多朋友在论坛上发帖询问采集器的*敏*感*词*法和一些细节。为了让更多站长更容易使用SupeSite的采集功能，特制作本教程。

　　首先简单说一下制作采集器的基本原理和思路：

　　1、确定你要查看哪一页新闻采集，将这些页面的地址填入“索引页url地址”；

　　2、确保你要采集这些页面的内容区，因为不是一个页面的所有内容都应该是采集back，而是采集的一部分页面，所以你必须告诉程序你想要哪个区域采集，又名“列出区域标识规则”；

　　3、在第2步确定区域后，也告诉程序你想要采集的文章链接，即“文章链接url识别规则”。

　　4、既然大的采集框架已经确定了，接下来就是告诉程序创建一个文章页面，文章的标题，出处和作者文章分别是什么。然后是一段文章内容的范围，也就是说，在一个文章页面内，你真正需要的采集的范围是“文章内容识别规则”。最后，设置分页区域和分页的链接地址。

　　5、以上4个步骤已经确定了采集的范围，如果您需要过滤标题和内容，请根据您的要求设置“内容页面组织设置”。

　　以上确定范围的步骤都是通过查看页面源码来设置的。拦截方法需要一定的经验，练习2-3次就可以理解。

　　接下来介绍采集器的基本原理和步骤：

　　首先：在后台打开采集器，点击“Add New Robot”。

　　二：填写基本设置：

　　这里需要指出两点：单个采集编号和采集页面代码。一次设置采集的数量尽可能少，以避免超时。采集页面编码是您的采集网页的编码，而不是您网站的编码。记住这里！

　　如何查看采集的页面代码：点击网页头部的“查看”，然后点击“源文件”，然后找到类似“”的东西，即“采集页面代码" 需要在字符集出现后填写。.

　　第三：列表页采集设置

　　这里设置的是采集页面的url地址，采集内容的区域范围，采集文章标题的url地址。

　　采集页面的url地址有两种设置方式：手动输入和自动增加。手动输入需要您自己逐行输入所需采集的地址。自动增长只需要填写采集页面的地址和页码。有关详细信息，请参见图 5。使用 [page] 而不是分页变量。

　　采集内容的范围替换为[list]，采集文章的标题替换为[url]

　　.

　　第四：内容页采集设置

　　这里需要设置的采集规则有：文章标题、文章来源（可选）、文章作者（可选）、文章内容、分页设置（可选）。

　　文章将标题替换为[主题]，文章源替换为[来自]，文章作者替换为[作者]，文章内容替换为[消息]，分页区域使用[ pagearea] 代替，而 [page] 用于分页链接。

　　后续过滤设置可以根据自己的需要和采集页面的具体情况填写。

　　设置好后点击提交，然后点击“开始采集”，图8是采集的流程，采集完成后点击“查看结果”，如果你的采集@ > rule 正确，可以得到图10的页面，最后将采集的内容导入到信息中。注意：采集的内容只能导入新闻频道。

0

2022-03-15

软文一件采集器

0 个评论

要回复文章请先登录或注册