集搜客网页抓取软件(配套软件版本:V9及更低集搜客网络爬虫软件新版本对应教程 )

优采云 发布时间: 2022-03-20 18:03

  集搜客网页抓取软件(配套软件版本:V9及更低集搜客网络爬虫软件新版本对应教程

)

  配套软件版本:V9及更低版本即搜客网络爬虫软件

  新版本对应教程:V10及更高版本数据管家-网络爬虫增强版对应教程为《用网络爬虫软件自动下载网页文件》

  请注意:从V9.0.0开始,文件下载功能有了很大的改进。虽然本教程讲解的方法仍然有效,但是这个方法比较难理解,而且V9.应该使用@>0.0版本的新方法,下载文件不需要定义第二条规则,只需在第一条规则中勾选“下载内容”,选择下载文件类型即可。也不需要火狐浏览器插件来解决特定场景问题。详细请参考教程《用网络爬虫软件自动下载网页文件》 1、下载功能说明

  1)使用Gooseeker爬取网页内容时,如果爬取的内容是文件链接,通常的做法是爬取链接地址。

  2)Gooseeker可以自动下载链接对应的文件吗?答案是肯定的。

  2、配置文件的存放路径及处理方法

  如果没有配置,下载一个文件后,总是会问怎么办。此查询将阻止爬虫继续运行。为了关闭查询,需要进行相应的配置。

  2.1、jisoke浏览器

  即搜客浏览器有自己的配置,如下图

  

  如图点击配置按钮进入如下窗口

  

  在 Mime 选项卡下,有各种文件类型的设置按钮。点击它们可以设置不提示文件处理方式。

  2.2、火狐插件爬虫

  1)配置火狐的下载功能。Firefox:工具菜单 => 选项 => 常规 => 下载,选择“将文件保存到指定文件夹”

  

  2)配置 Firefox 如何处理某些文件类型。Firefox:选项 => 应用程序,将要下载的文件类型的“操作”更改为“保存文件”。例如,如果你想下载一个pdf文件,你可以修改pdf文件类型的动作。

  

  3.定义爬虫规则并运行它们

  本案例假设需要两级规则(采集级请参考“采集网站作为一级采集”):

  1级:采集文档列表和下载链接,假设主题名为pdfpage999

  2级:使用下载链接下载pdf文件,假设主题名为pdf_download999

  下面将解释两级规则的定义方法。

  3.1,采集文档列表和下载链接

  在Jisouke浏览器加载文档列表页面,进入定义规则模式,定义抓取文件链接的规则。规则名称是“pdfpage999”。定义规则的基本方法不再赘述。请参考“采集网页数据”。以下重点介绍与下载文件相关的设置。

  1)勾选文件抓包链接“下属线索”字段

  

  2)在“爬虫路线”的目标主题中填写之前定义的自动下载规则名称“pdf_download999”

  

  从上面的步骤可以看出,它和普通的分层抓取并没有什么区别。区别在于二级规则的定义。

  3.2、定义执行下载操作的规则

  新建一个专用于自动下载的规则,规则名称为“pdf_download999”,规则内容可以是任意简单网页上抓取字段并保存。

  这一步可能很难理解。这是第二级规则,在这个级别只需下载一个没有特殊网页内容的 pdf 文件。因此,我找不到合适的样本页面作为规则使用,所以我需要随机找到一个页面,但总是定义一个抓取内容。为了不影响规则的运行,请使用每个页面上可用的内容。作为爬取的内容。这样,在运行规则时,不会提示该规则不适用。

  比如可以选择抓取html头节点,甚至html节点。此类规则的通用性极高,目的是保证爬取成功,不会遇到规则不适用的问题。一旦调整了规则,就会自动触发下载。

  3.3、运行规则

  就像一个普通的层次结构采集

  1.运行规则pdfpage999,会生成pdf_download999的线索

  2.运行规则pdf_download999,Jisoke网络爬虫会自动下载线索URL对应的文件,在设置的存储文件夹中可以看到下载的文件。

  如有疑问,您可以或

  

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线