集搜客网页抓取软件(配套软件版本:V9及更低集搜客网络爬虫软件新版本对应教程)
优采云 发布时间: 2022-04-13 01:38集搜客网页抓取软件(配套软件版本:V9及更低集搜客网络爬虫软件新版本对应教程)
配套软件版本:V9及更低版本即搜客网络爬虫软件
新版本对应教程:V10及更高版本数据管家-网络爬虫增强版对应教程为《Web Data 采集 Using Nested Sorting Boxes to get Hierarchical Data》
注:GooSeeker爬虫从V9.0.2版本开始,爬虫术语“主题”改为“任务”。在爬虫浏览器中,先命名任务,然后创建规则,然后登录集合。在Sooke官网会员中心的“任务管理”中,您可以查看采集任务的执行状态,管理潜在客户的URL,进行调度设置。
如果一个网页上有很多相同结构的数据,你需要做一个样本拷贝来批量采集。但是,一些结构相同的网页的数据收录在不同的块节点中。这种情况下,需要进行两次或多次的样本复制(视实际情况而定),即多级嵌套样本复制。
以新浪新闻为例,网页上每5条新闻存储在一个区块节点中。如果只是按照样例拷贝教程拷贝样例,只会抓到当前区块节点下的5条消息。但是,页面上总共显示了 35 条新闻,分为 7 个区块节点。为了捕获页面上的所有新闻,需要复制收录新闻的区块节点。
注:本文演示的嵌套排序框样本副本可到资源库下载学习:嵌套排序框样本副本
一、创建多级嵌套组织者
图1
如图1所示,具体操作如下
1.新建一级排序框,用于复制收录新闻的区块节点样本。
2.右键单击第一级组织器并选择收录包,为每个新闻项目的样本副本创建第二级组织器。
3.右击二级排序框,选择Inclusive创建抓取内容,抓取每条新闻的标题,发布时间。
这将创建一个嵌套的排序规则框,它可以按从内到外的顺序复制两次。
二、先制作内层的样本副本
图 2
如图2所示,具体操作如下
1.点击二级组织者
2.勾选启用以启用样本复制功能。
3.分别找到第一项和第二项对应的节点。
4.在节点样本副本的“第一”对应的第一条新闻上右键,映射到样本1。
5.右击第一个新闻项对应节点样本的“第二个”副本映射到样本2。
从上图可以看出,一个UL区块节点收录5个LI节点,一个LI节点对应一条消息。现在只能在当前 UL 下捕获 UL 中 LI 的样本副本。新闻,也就是只能抓取5条新闻。为了抓住所有的新闻,让我们制作一个 UL 的样本副本。
三、制作样本副本到外层
图 3
如图3所示,具体操作如下
1.点击一级组织者
2.勾选启用以启用样本复制功能。
3.将第一个UL和第二个UL分别映射到“first”和“first”
这将抓取页面上的所有新闻。