集搜客网页抓取软件(配套软件版本:V9及更低集搜客网络爬虫软件新版本对应教程 )
优采云 发布时间: 2022-03-31 08:16集搜客网页抓取软件(配套软件版本:V9及更低集搜客网络爬虫软件新版本对应教程
)
配套软件版本:V9及更低版本即搜客网络爬虫软件
新版本对应教程:V10及更高版本数据管家-网络爬虫增强版对应教程为《位置映射提高网页准确率采集-拍摄B站视频采集 作为一个例子”
注:GooSeeker爬虫从V9.0.2版本开始,爬虫术语“主题”改为“任务”。在爬虫浏览器中,先命名任务,然后创建规则,然后登录集合。在Sooke官网会员中心的“任务管理”中,您可以查看采集任务的执行状态,管理潜在客户的URL,进行调度设置。
一、操作步骤
如果是直接标注信息生成的规则,虽然可以对样本网页的数据进行采集,但是在采集类似网页的情况下可能无法采集分批。这是因为简单的标注可以得到的数据规则不是很通用,需要手动调整优化。在这种情况下,定位标志映射可以提高数据规则的准确性和适应性,减少网页变化的影响。下面以安居客为例,操作步骤如下:
二、案例规则+操作步骤
前三步的具体步骤请参考文章“采集列出数据”,下面会讲解第四步。
第 4 步:找到标志
4.1、点击标题进行定位,必须有用于定位标志映射的节点的属性值(id或类值)。如果定位到的节点没有属性值,则转到上层。本例中找到的div节点的属性值为@class=zu-info,可以作为定位标志值。
4.2、右击DIV节点,选择“Location Mark Mapping”->“Title”,映射后可以在定位标记和类型两栏看到zu-info和+class排序框,表示@class=zu-info的节点映射到title。此时标题既有内容映射又有定位标志映射。
4.3,重复步骤4.1和4.2,为排序框的其他抓取内容映射定位标记。
第 5 步:保存规则并抓取数据
5.1、规则测试成功后,点击“保存规则”;
5.2、点击“抓取数据”,会弹出DS计数器,开始抓取数据。
Tips1:以下两种情况,需要调整定位类型。
1、如果定位标志映射到的节点同时有id值和class值,需要选择与同类型网页相同的属性值,实现批处理采集。所以需要手动选择属性的类型。操作:在排序框中双击抓取的内容,定位标记的类型选择“id”或“class”。此修改对单个抓取的内容有效。
2、如果抓到空白信息或错位信息,需要调整排序框的定位,选择合适的定位类型。通常可以选择“绝对定位”来解决问题。此修改对排序框有效。更多方法见教程《定位标记后如何解决空/重复信息》
Tips2:在排序框顶点或容器节点上映射定位标志,可以准确采集范围,避免采集错位信息。
如果要采集页面上不同模块的信息,最好构建多级嵌套排序框结构,一个容器节点负责采集一个模块,并做排序盒子顶点和容器节点。定位标记映射,使各模块信息准确采集互不干扰,避免采集信息错位。
Tips3:以下是定位标记的使用范围。
1、位置标记不是必需的,但会大大提高规则的准确性和适用性。
2、在排序框中进行内容映射后,可以将同一个定位标志值映射到多个爬取内容。
3、当容器节点复制完样本后,不能再映射到定位标志,但是容器节点内部抓取的内容可以继续映射到定位标志。
4、当容器节点复制了样本时,选择样本1的html节点范围内的节点作为其下级爬取内容的定位标志映射是有效的,不能从其他样本中选择。html 节点。
第 1 部分 文章:“为层次结构制作网站采集” 第 2 部分 文章:“位置标记 - 采集 的列表数据”
如有疑问,您可以或