seo文章采集器(优采云采集器中获取网址而设置的规则网址采集规则)

优采云发布时间: 2021-09-20 09:15

　　采集website的目的是通过网站进一步进入内容页面，采集down内容。在优采云采集器中，用于获取网址的规则集称为采集rules，这也是采集正式实现的第一步。在此之前，我们需要学习几个专业术语：

　　起始URL：用于获取下级链接地址的入口URL。它可以是一个或多个。可以以相同格式添加多个URL，也可以通过添加起始URL向导导入文本URL。如果未定义多级网址的获取方法，则这些地址将用作content采集的内容页网址@

　　多级URL：根据列表中的多级URL按采集顺序分析地址，通过采集依次分析到最后一级得到内容页地址。通过使用自动页面分析和手动获取采集下级URL的方法，可以获得多级URL。在采集过程中，您可以分页采集列表，同时提取列表页面的附加参数

　　分页：列表或内容页较长，显示在多个页面上，采集当需要组合所有子页的内容时，这些子页为分页（列表分页或内容分页）

　　[参数]：用于匹配准备提取信息的标记。例如，您希望提取并组合代码中的特定格式

　　代码“MCLK（this，'108484'，134217'）；”可将其计为“MCLK（this，'[parameter]'，'[parameter]'）；”，按顺序，参数108484为参数1，依此类推

　　URL采集的第一步是编写起始URL。有三种方法可以编写起始URL。此部分易于启动：

　　① 普通网址：手动输入一个或多个网址URL（每行一个，从开始）

　　② 批量URL：使用常规表达式批量生成URL。具有规则数字更改的URL可以与数字增量表达式匹配。请看预览~

　　③ 文本导入：将文本中的网址导入采集器，文本中的网址应为一行

　　在写了起始网站之后，我们将关注以下情况

　　案例1：起始URL是内容页URL

　　在这种情况下，我们只需要将URL写入采集器而不是获取下一级URL。选择起始URL为内容页URL后，无需进行其他设置

　　案例2：起始URL需要获得下一级甚至多个级别才能获得内容页URL

　　2/1

　　常规模式：起始URL的较低级别是内容页URL。我们可以从源代码中获取内容URL

　　2/2

　　高级模式：初始网站或其他情况下有多个级别。这里我们以中国低碳网络为例，网站有很多典型案例来解释

　　如上图所示，起始URL下有一个列表页面，列表页面很长，以页面显示。只有获得所有列表页面，我们才能获得所有内容页面，因此我们首先获得列表页面的地址

　　然而，当我们点击下一个页面时，我们发现尽管页面内容发生了变化，但网站没有发生变化

　　此时，您需要使用fiddler数据包捕获工具来分析数据并通过post获得分页地址。（稍后，小菜将单独介绍数据包捕获，这里不做详细介绍。你可以在官网上找到教程。）

　　打开数据包捕获工具后，我们必须首先清空它，然后刷新网站，然后分别在第3页和第5页捕获数据包（记住清空它），检查原创列（有cookies和其他数据可以使用），最后一行是我们通过“在记事本中查看”所需的内容按钮将数据保存在记事本中，以便比较和查看。在数据的末尾，我们分别看到3和5。在优采云采集器中，此部分记录为[pagination]选项卡

　　我们可以看到，在包捕获数据中，除了分页参数外，还有很多其他参数，这就是post随机值（这个值是为了解决浏览器的缓存问题，每次打开页面时都能获得服务器的最新数据）。因此，我们也需要提取这个值

　　通过在页面源代码中查找值前后的字符串来提取此值

　　这里已经设置了分页访问。如何在分页中访问内容URL？让我们打开一个页面的源代码，看看内容URL有哪些特性

　　显然，此处的内容页URL不完整。我们必须将其分割成完整的URL，因此我们在URL获取选项中选择手动设置：

　　如下图所示，URL参数从页面中提取，并根据内容页面URL的格式进行拼接

　　在这里，网站网站采集的所有规则都已设置。让我们测试一下~

　　列表页面正常，内容页面正常。如果测试没有问题，请保存它，然后访问网站~

　　优采云V9快乐版

　　文章来自网络，由日照搜索引擎优化转载。版权属于原所有者。如果转载，请注明来源、侵权和删除

0

2021-09-20

seo文章采集器

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

seo文章采集器(优采云采集器中获取网址而设置的规则网址采集规则)

0 个评论

发起人

AI时代内容工厂

seo文章采集器(优采云采集器中获取网址而设置的规则网址采集规则)

0 个评论

发起人

相关问题