集搜客网页抓取软件(配套软件版本:V9及更低集搜客网络爬虫软件新版本对应教程)

优采云 发布时间: 2022-04-13 01:38

  集搜客网页抓取软件(配套软件版本:V9及更低集搜客网络爬虫软件新版本对应教程)

  配套软件版本:V9及更低版本即搜客网络爬虫软件

  新版本对应教程:V10及更高版本数据管家-网络爬虫增强版对应教程为《Web Data 采集 Using Nested Sorting Boxes to get Hierarchical Data》

  注:GooSeeker爬虫从V9.0.2版本开始,爬虫术语“主题”改为“任务”。在爬虫浏览器中,先命名任务,然后创建规则,然后登录集合。在Sooke官网会员中心的“任务管理”中,您可以查看采集任务的执行状态,管理潜在客户的URL,进行调度设置。

  如果一个网页上有很多相同结构的数据,你需要做一个样本拷贝来批量采集。但是,一些结构相同的网页的数据收录在不同的块节点中。这种情况下,需要进行两次或多次的样本复制(视实际情况而定),即多级嵌套样本复制。

  以新浪新闻为例,网页上每5条新闻存储在一个区块节点中。如果只是按照样例拷贝教程拷贝样例,只会抓到当前区块节点下的5条消息。但是,页面上总共显示了 35 条新闻,分为 7 个区块节点。为了捕获页面上的所有新闻,需要复制收录新闻的区块节点。

  注:本文演示的嵌套排序框样本副本可到资源库下载学习:嵌套排序框样本副本

  一、创建多级嵌套组织者

  

  图1

  如图1所示,具体操作如下

  1.新建一级排序框,用于复制收录新闻的区块节点样本。

  2.右键单击第一级组织器并选择收录包,为每个新闻项目的样本副本创建第二级组织器。

  3.右击二级排序框,选择Inclusive创建抓取内容,抓取每条新闻的标题,发布时间。

  这将创建一个嵌套的排序规则框,它可以按从内到外的顺序复制两次。

  二、先制作内层的样本副本

  

  图 2

  如图2所示,具体操作如下

  1.点击二级组织者

  2.勾选启用以启用样本复制功能。

  3.分别找到第一项和第二项对应的节点。

  4.在节点样本副本的“第一”对应的第一条新闻上右键,映射到样本1。

  5.右击第一个新闻项对应节点样本的“第二个”副本映射到样本2。

  从上图可以看出,一个UL区块节点收录5个LI节点,一个LI节点对应一条消息。现在只能在当前 UL 下捕获 UL 中 LI 的样本副本。新闻,也就是只能抓取5条新闻。为了抓住所有的新闻,让我们制作一个 UL 的样本副本。

  三、制作样本副本到外层

  

  图 3

  如图3所示,具体操作如下

  1.点击一级组织者

  2.勾选启用以启用样本复制功能。

  3.将第一个UL和第二个UL分别映射到“first”和“first”

  这将抓取页面上的所有新闻。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线