集搜客网页抓取软件(配套软件版本:V9及更低集搜客网络爬虫软件新版本对应教程 )

优采云 发布时间: 2022-03-31 08:16

  集搜客网页抓取软件(配套软件版本:V9及更低集搜客网络爬虫软件新版本对应教程

)

  配套软件版本:V9及更低版本即搜客网络爬虫软件

  新版本对应教程:V10及更高版本数据管家-网络爬虫增强版对应教程为《位置映射提高网页准确率采集-拍摄B站视频采集 作为一个例子”

  注:GooSeeker爬虫从V9.0.2版本开始,爬虫术语“主题”改为“任务”。在爬虫浏览器中,先命名任务,然后创建规则,然后登录集合。在Sooke官网会员中心的“任务管理”中,您可以查看采集任务的执行状态,管理潜在客户的URL,进行调度设置。

  一、操作步骤

  如果是直接标注信息生成的规则,虽然可以对样本网页的数据进行采集,但是在采集类似网页的情况下可能无法采集分批。这是因为简单的标注可以得到的数据规则不是很通用,需要手动调整优化。在这种情况下,定位标志映射可以提高数据规则的准确性和适应性,减少网页变化的影响。下面以安居客为例,操作步骤如下:

  

  二、案例规则+操作步骤

  前三步的具体步骤请参考文章“采集列出数据”,下面会讲解第四步。

  第 4 步:找到标志

  4.1、点击标题进行定位,必须有用于定位标志映射的节点的属性值(id或类值)。如果定位到的节点没有属性值,则转到上层。本例中找到的div节点的属性值为@class=zu-info,可以作为定位标志值。

  4.2、右击DIV节点,选择“Location Mark Mapping”->“Title”,映射后可以在定位标记和类型两栏看到zu-info和+class排序框,表示@class=zu-info的节点映射到title。此时标题既有内容映射又有定位标志映射。

  

  4.3,重复步骤4.1和4.2,为排序框的其他抓取内容映射定位标记。

  

  第 5 步:保存规则并抓取数据

  5.1、规则测试成功后,点击“保存规则”;

  5.2、点击“抓取数据”,会弹出DS计数器,开始抓取数据。

  

  Tips1:以下两种情况,需要调整定位类型。

  1、如果定位标志映射到的节点同时有id值和class值,需要选择与同类型网页相同的属性值,实现批处理采集。所以需要手动选择属性的类型。操作:在排序框中双击抓取的内容,定位标记的类型选择“id”或“class”。此修改对单个抓取的内容有效。

  

  2、如果抓到空白信息或错位信息,需要调整排序框的定位,选择合适的定位类型。通常可以选择“绝对定位”来解决问题。此修改对排序框有效。更多方法见教程《定位标记后如何解决空/重复信息》

  

  Tips2:在排序框顶点或容器节点上映射定位标志,可以准确采集范围,避免采集错位信息。

  如果要采集页面上不同模块的信息,最好构建多级嵌套排序框结构,一个容器节点负责采集一个模块,并做排序盒子顶点和容器节点。定位标记映射,使各模块信息准确采集互不干扰,避免采集信息错位。

  

  Tips3:以下是定位标记的使用范围。

  1、位置标记不是必需的,但会大大提高规则的准确性和适用性。

  2、在排序框中进行内容映射后,可以将同一个定位标志值映射到多个爬取内容。

  3、当容器节点复制完样本后,不能再映射到定位标志,但是容器节点内部抓取的内容可以继续映射到定位标志。

  4、当容器节点复制了样本时,选择样本1的html节点范围内的节点作为其下级爬取内容的定位标志映射是有效的,不能从其他样本中选择。html 节点。

  第 1 部分 文章:“为层次结构制作网站采集” 第 2 部分 文章:“位置标记 - 采集 的列表数据”

  如有疑问,您可以或

  

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线