集搜客网页抓取软件(配套软件版本：V9及更低集搜客网络爬虫软件新版本对应教程 )

优采云发布时间: 2022-03-20 18:03

　　集搜客网页抓取软件(配套软件版本：V9及更低集搜客网络爬虫软件新版本对应教程

)

　　配套软件版本：V9及更低版本即搜客网络爬虫软件

　　新版本对应教程：V10及更高版本数据管家-网络爬虫增强版对应教程为《用网络爬虫软件自动下载网页文件》

　　请注意：从V9.0.0开始，文件下载功能有了很大的改进。虽然本教程讲解的方法仍然有效，但是这个方法比较难理解，而且V9.应该使用@>0.0版本的新方法，下载文件不需要定义第二条规则，只需在第一条规则中勾选“下载内容”，选择下载文件类型即可。也不需要火狐浏览器插件来解决特定场景问题。详细请参考教程《用网络爬虫软件自动下载网页文件》 1、下载功能说明

　　1）使用Gooseeker爬取网页内容时，如果爬取的内容是文件链接，通常的做法是爬取链接地址。

　　2）Gooseeker可以自动下载链接对应的文件吗？答案是肯定的。

　　2、配置文件的存放路径及处理方法

　　如果没有配置，下载一个文件后，总是会问怎么办。此查询将阻止爬虫继续运行。为了关闭查询，需要进行相应的配置。

　　2.1、jisoke浏览器

　　即搜客浏览器有自己的配置，如下图

　　如图点击配置按钮进入如下窗口

　　在 Mime 选项卡下，有各种文件类型的设置按钮。点击它们可以设置不提示文件处理方式。

　　2.2、火狐插件爬虫

　　1）配置火狐的下载功能。Firefox：工具菜单 => 选项 => 常规 => 下载，选择“将文件保存到指定文件夹”

　　2）配置 Firefox 如何处理某些文件类型。Firefox：选项 => 应用程序，将要下载的文件类型的“操作”更改为“保存文件”。例如，如果你想下载一个pdf文件，你可以修改pdf文件类型的动作。

　　3.定义爬虫规则并运行它们

　　本案例假设需要两级规则（采集级请参考“采集网站作为一级采集”）：

　　1级：采集文档列表和下载链接，假设主题名为pdfpage999

　　2级：使用下载链接下载pdf文件，假设主题名为pdf_download999

　　下面将解释两级规则的定义方法。

　　3.1,采集文档列表和下载链接

　　在Jisouke浏览器加载文档列表页面，进入定义规则模式，定义抓取文件链接的规则。规则名称是“pdfpage999”。定义规则的基本方法不再赘述。请参考“采集网页数据”。以下重点介绍与下载文件相关的设置。

　　1）勾选文件抓包链接“下属线索”字段

　　2）在“爬虫路线”的目标主题中填写之前定义的自动下载规则名称“pdf_download999”

　　从上面的步骤可以看出，它和普通的分层抓取并没有什么区别。区别在于二级规则的定义。

　　3.2、定义执行下载操作的规则

　　新建一个专用于自动下载的规则，规则名称为“pdf_download999”，规则内容可以是任意简单网页上抓取字段并保存。

　　这一步可能很难理解。这是第二级规则，在这个级别只需下载一个没有特殊网页内容的 pdf 文件。因此，我找不到合适的样本页面作为规则使用，所以我需要随机找到一个页面，但总是定义一个抓取内容。为了不影响规则的运行，请使用每个页面上可用的内容。作为爬取的内容。这样，在运行规则时，不会提示该规则不适用。

　　比如可以选择抓取html头节点，甚至html节点。此类规则的通用性极高，目的是保证爬取成功，不会遇到规则不适用的问题。一旦调整了规则，就会自动触发下载。

　　3.3、运行规则

　　就像一个普通的层次结构采集

　　1.运行规则pdfpage999，会生成pdf_download999的线索

　　2.运行规则pdf_download999，Jisoke网络爬虫会自动下载线索URL对应的文件，在设置的存储文件夹中可以看到下载的文件。

　　如有疑问，您可以或

0

2022-03-20

集搜客网页抓取软件

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

集搜客网页抓取软件(配套软件版本：V9及更低集搜客网络爬虫软件新版本对应教程 )

0 个评论

发起人

AI时代内容工厂

集搜客网页抓取软件(配套软件版本：V9及更低集搜客网络爬虫软件新版本对应教程 )

0 个评论

发起人

相关问题