软文一件采集器(特作此制作采集器的基本原理和一些细节问题,你知道吗?)
优采云 发布时间: 2022-03-15 13:06软文一件采集器(特作此制作采集器的基本原理和一些细节问题,你知道吗?)
很多朋友在论坛上发帖询问采集器的*敏*感*词*法和一些细节。为了让更多站长更容易使用SupeSite的采集功能,特制作本教程。
首先简单说一下制作采集器的基本原理和思路:
1、确定你要查看哪一页新闻采集,将这些页面的地址填入“索引页url地址”;
2、确保你要采集这些页面的内容区,因为不是一个页面的所有内容都应该是采集back,而是采集的一部分页面,所以你必须告诉程序你想要哪个区域采集,又名“列出区域标识规则”;
3、在第2步确定区域后,也告诉程序你想要采集的文章链接,即“文章链接url识别规则”。
4、既然大的采集框架已经确定了,接下来就是告诉程序创建一个文章页面,文章的标题,出处和作者文章 分别是什么。然后是一段文章内容的范围,也就是说,在一个文章页面内,你真正需要的采集的范围是“文章内容识别规则”。最后,设置分页区域和分页的链接地址。
5、以上4个步骤已经确定了采集的范围,如果您需要过滤标题和内容,请根据您的要求设置“内容页面组织设置”。
以上确定范围的步骤都是通过查看页面源码来设置的。拦截方法需要一定的经验,练习2-3次就可以理解。
接下来介绍采集器的基本原理和步骤:
首先:在后台打开采集器,点击“Add New Robot”。
二:填写基本设置:
这里需要指出两点:单个采集 编号和采集 页面代码。一次设置 采集 的数量尽可能少,以避免超时。采集 页面编码是您的 采集 网页的编码,而不是您网站的编码。记住这里!
如何查看采集的页面代码:点击网页头部的“查看”,然后点击“源文件”,然后找到类似“”的东西,即“采集页面代码" 需要在字符集出现后填写。.
第三:列表页采集设置
这里设置的是采集页面的url地址,采集内容的区域范围,采集文章标题的url地址。
采集页面的url地址有两种设置方式:手动输入和自动增加。手动输入需要您自己逐行输入所需采集 的地址。自动增长只需要填写采集页面的地址和页码。有关详细信息,请参见图 5。使用 [page] 而不是分页变量。
采集内容的范围替换为[list],采集文章的标题替换为[url]
.
第四:内容页采集设置
这里需要设置的采集规则有:文章标题、文章来源(可选)、文章作者(可选)、文章内容、分页设置(可选)。
文章将标题替换为[主题],文章源替换为[来自],文章作者替换为[作者],文章内容替换为[消息],分页区域使用[ pagearea] 代替,而 [page] 用于分页链接。
后续过滤设置可以根据自己的需要和采集页面的具体情况填写。
设置好后点击提交,然后点击“开始采集”,图8是采集的流程,采集完成后点击“查看结果”,如果你的采集@ > rule 正确,可以得到图10的页面,最后将采集的内容导入到信息中。注意:采集的内容只能导入新闻频道。