网页内容抓取工具(配套软件版本:V9及更低集搜客网络爬虫软件新版本对应教程)

优采云 发布时间: 2022-01-11 03:21

  网页内容抓取工具(配套软件版本:V9及更低集搜客网络爬虫软件新版本对应教程)

  配套软件版本:V9及更低版本即搜客网络爬虫软件

  新版本对应教程:V10及更高版本数据管家-网络爬虫增强版对应教程为“使用网络爬虫软件自动下载网页文件”

  注:GooSeeker爬虫从V9.0.2版本开始,爬虫术语“主题”改为“任务”。在爬虫浏览器中,先命名任务,然后创建规则,然后登录集合。在苏克官网会员中心的“任务管理”中,可以查看采集任务的执行状态,管理线索的URL,进行调度设置。

  例如,我们打算下载本法规/标准网站的法规文件的pdf:

  页面截图如下:

  

  如果您手动下载这些文件,则需要在此网页上一一点击文件图标来触发下载过程。

  在吉搜客网络爬虫软件V9.0.0版本之前,这是模拟点击的方式(见教程:)。但是从V9.0.0版本开始,对下载功能进行了调整,因为定义模拟点击过程的规则太繁琐,也不好理解为什么要定义. 在V9.0.0版本中,不再定义模拟点击,而是抓取文件图标对应的url作为抓取内容,并设置了“下载文件”选项同时,然后爬虫采集获取到url信息后开始下载过程。定义规则的方式要简单得多。

  另外,V9.0.0有区别:上一版本刺激下载后,存放位置在操作系统的“下载”文件夹,而V9. 0.0的下载位置是可控的,可以在每个爬取规则各自的文件夹中,也可以在结果文件DataScraperWorks文件夹中。

  注意:该方法能够生效的前提是下载文件链接对应一个真实的URL。如果是像javascript:void(0)这样的代码,这个方法是不能用的,要定义一个连续动作方法。触发下载操作。

  下面将详细解释定义规则和爬取过程。

  1. 定义爬取规则

  定义抓取规则的方法参考基础教程的相应章节,例如,最基本的教程是这样的: . 本教程介绍如何使用内容标记在网页上将内容标记为 采集。请注意,此注解是一种快速定义规则的方法,但它不能精确定位 HTML DOM 节点。例如,在英文附件图标上标记内容,会自动定位到 DOM 的 IMG 节点。为了下载pdf文件,定位这个IMG节点是不精确的,这种内容标注主要用于采集文本内容。

  为了准确捕捉pdf文件的url URL,需要准确的进行内容映射,如下图:

  

  进行如下操作:

  双击文件图标标记内容,将抓取的内容命名为“英文附件链接”。观察窗口下方的DOM树,看到IMG自动定位了,我们需要这个图标对应的url来下载文件。通过观察DOM树,可以确定该url存储在IMG的父节点A中的属性节点@href中。选中@href节点,使用右键菜单Content Mapping -> English Attachment Link,可以将@href映射到抓取到的英文附件链接内容。映射完成后,可以看到抓取到的内容在工作台上的位置编号发生了变化。

  以上流程是定义爬取规则的常用流程,下面将是与下载文件相关的设置流程。

  2. 安装程序下载

  如下图,选择“下载内容”,会弹出设置窗口。选中“下载文件”意味着从捕获的 URL 下载文件。在下面的屏幕截图中,高级设置的“完整内容”选项也被选中。这与下载的内容无关。目的是在生成的结果文件中显示 URL 的 URL,因为从前面的截图来看,@href 存储的是 A 相对 URL,不是以 http 开头的。

  

  这些设置完成后,点击保存规则,然后点击抓取数据,会弹出一个DS计数器窗口,可以观察到网页加载完毕,采集完成后变成白屏。

  3. 查看下载的文件

  如下图所示,本案例使用的主题名称为test_download_file_fuller,结果文件放置在DataScraperWorks文件夹中。test_download_file_fuller 是用于以 XML 格式存储结果文件的子文件夹。您还可以看到并行子文件夹 PageFileDir。用于存储所有下载的文件

  

  在PageFileDir中,所有下载的文件都是放在一起的,不管主题名是什么,但是在PageFileDir的子文件夹中,子文件夹的名字都是这样的结构

  线程号_时间戳

  我们打开XML格式的结果文件,看看内容结构,如下图:

  

  “英文附件链接”为自定义爬取内容,“英文附件链接文件”为自动生成的爬取内容。该字段描述了文件在硬盘上的存储位置。

  不分主题存储下载的文件有一个好处:如果你想写一个文件处理程序,那么这个处理成果就不需要逐个进入每个主题名文件夹来检查是否有新下载的文件。

  相反,如果下载的文件是按主题名称分隔的,则处理程序将逐个检查主题名称文件夹,但有一个优点:文件系统看起来更有条理。

  下面说明如何将其设置为按主题名称单独存储。

  4. 按主题存储

  

  如图,在DS电脑上选择菜单文件->存储路径,在弹出框中选择“按主题存储”,更改主题存储后,再执行爬取数据,可以看到PageFileDir 文件夹位于主题名称文件夹下方

  

  5. 摘要

  从V9.0.0开始,不仅文件下载,图片和视频下载过程一致,结果存储结构也一致。本教程中的方法可以扩展到图片和视频下载

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线