seo文章采集器(优采云采集器中获取网址而设置的规则网址采集规则)

优采云 发布时间: 2021-09-20 09:15

  seo文章采集器(优采云采集器中获取网址而设置的规则网址采集规则)

  采集website的目的是通过网站进一步进入内容页面,采集down内容。在优采云采集器中,用于获取网址的规则集称为采集rules,这也是采集正式实现的第一步。在此之前,我们需要学习几个专业术语:

  起始URL:用于获取下级链接地址的入口URL。它可以是一个或多个。可以以相同格式添加多个URL,也可以通过添加起始URL向导导入文本URL。如果未定义多级网址的获取方法,则这些地址将用作content采集的内容页网址@

  多级URL:根据列表中的多级URL按采集顺序分析地址,通过采集依次分析到最后一级得到内容页地址。通过使用自动页面分析和手动获取采集下级URL的方法,可以获得多级URL。在采集过程中,您可以分页采集列表,同时提取列表页面的附加参数

  分页:列表或内容页较长,显示在多个页面上,采集当需要组合所有子页的内容时,这些子页为分页(列表分页或内容分页)

  [参数]:用于匹配准备提取信息的标记。例如,您希望提取并组合代码中的特定格式

  代码“MCLK(this,'108484',134217');”可将其计为“MCLK(this,'[parameter]','[parameter]');”,按顺序,参数108484为参数1,依此类推

  URL采集的第一步是编写起始URL。有三种方法可以编写起始URL。此部分易于启动:

  ① 普通网址:手动输入一个或多个网址URL(每行一个,从开始)

  ② 批量URL:使用常规表达式批量生成URL。具有规则数字更改的URL可以与数字增量表达式匹配。请看预览~

  

  ③ 文本导入:将文本中的网址导入采集器,文本中的网址应为一行

  在写了起始网站之后,我们将关注以下情况

  案例1:起始URL是内容页URL

  在这种情况下,我们只需要将URL写入采集器而不是获取下一级URL。选择起始URL为内容页URL后,无需进行其他设置

  案例2:起始URL需要获得下一级甚至多个级别才能获得内容页URL

  2/1

  常规模式:起始URL的较低级别是内容页URL。我们可以从源代码中获取内容URL

  

  

  2/2

  高级模式:初始网站或其他情况下有多个级别。这里我们以中国低碳网络为例,网站有很多典型案例来解释

  

  如上图所示,起始URL下有一个列表页面,列表页面很长,以页面显示。只有获得所有列表页面,我们才能获得所有内容页面,因此我们首先获得列表页面的地址

  然而,当我们点击下一个页面时,我们发现尽管页面内容发生了变化,但网站没有发生变化

  此时,您需要使用fiddler数据包捕获工具来分析数据并通过post获得分页地址。(稍后,小菜将单独介绍数据包捕获,这里不做详细介绍。你可以在官网上找到教程。)

  打开数据包捕获工具后,我们必须首先清空它,然后刷新网站,然后分别在第3页和第5页捕获数据包(记住清空它),检查原创列(有cookies和其他数据可以使用),最后一行是我们通过“在记事本中查看”所需的内容按钮将数据保存在记事本中,以便比较和查看。在数据的末尾,我们分别看到3和5。在优采云采集器中,此部分记录为[pagination]选项卡

  

  

  

  我们可以看到,在包捕获数据中,除了分页参数外,还有很多其他参数,这就是post随机值(这个值是为了解决浏览器的缓存问题,每次打开页面时都能获得服务器的最新数据)。因此,我们也需要提取这个值

  通过在页面源代码中查找值前后的字符串来提取此值

  这里已经设置了分页访问。如何在分页中访问内容URL?让我们打开一个页面的源代码,看看内容URL有哪些特性

  

  显然,此处的内容页URL不完整。我们必须将其分割成完整的URL,因此我们在URL获取选项中选择手动设置:

  如下图所示,URL参数从页面中提取,并根据内容页面URL的格式进行拼接

  

  在这里,网站网站采集的所有规则都已设置。让我们测试一下~

  

  列表页面正常,内容页面正常。如果测试没有问题,请保存它,然后访问网站~

  优采云V9快乐版

  文章来自网络,由日照搜索引擎优化转载。版权属于原所有者。如果转载,请注明来源、侵权和删除

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线