集搜客网页抓取软件(1.阅读指引《连续动作应用场景(三)自动输入查询条件)
优采云 发布时间: 2021-12-05 15:04集搜客网页抓取软件(1.阅读指引《连续动作应用场景(三)自动输入查询条件)
1. 阅读指南
文章《连续动作应用场景(三)自动输入查询条件微信公众号》)描述了连续动作中自动输入查询条件的场景,主要目的是为了利用搜狗的微信公众号搜索功能,收录一定的Grab一些关键词的微信,为了达到爬取的目的,需要做以下几步
进入一个入口页面,在查询条件输入框中自动输入关键词,自动点击提交按钮,抓取查询结果。如果查询结果分为多页,则翻页抓取。如果在定义规则时定义了多个定义关键词,则进入下一个关键词,回到第一步
本文讲解规则定义过程,如果部分过程与正常规则定义过程相同,请跳过。
2. 选择进入页面
《连续动作应用场景(三)自动输入查询条件微信公众号》)一文认为定义两个采集规则比较合适:
第一条抓取规则:使用关键词搜索微信公众号,负责输入查询条件,点击提交按钮。该规则可以从以下地址下载: 第二条爬取规则:使用关键词搜索微信公众号_搜索结果,抓取搜索结果。如果有分页符,请翻页抓取。下载链接:
运行时,从第一条规则开始,会自动过渡到第二条规则。第一个规则使用的示例页面是入口页面。请注意,要实现连续输入,请在选择示例页面时注意。第一条规则和第二条规则使用的样例页面应该结构相同,否则进入第一条规则。当有两个关键词时,不会定位输入框和提交按钮。
3. 第一条规则的工作台
如上图所示,在第一条抓取规则的爬虫路由工作台上不定义翻页抓取规则,但可以定义二级抓取规则。因为取页是第二条规则要执行的操作。因此,第一条规则侧重于定义连续动作。
输入第二条爬取规则的主题名称,即使用关键词搜索微信公众号_搜索结果点击新建按钮创建第一个动作,即输入查询条件,所以选择输入类型. 再次点击新建按钮创建第二个动作,即点击提交按钮,所以选择提交类型。
最后,点击工具栏上的保存规则按钮,保存爬取规则。
4. 定义第二条规则
因为第一条规则的示例页面和第二条规则的示例页面是一样的,如果直接定义第二条规则,有两种选择:
或者选择“新建”菜单,从头开始定义捕获规则;或修改现有工作台上的现有规则并更改主题名称并保存。
上图展示了翻页抓取规则的定义,和普通的规则定义没有区别,只不过我们这里使用了定点线索,也可以像标记线索一样翻页。
5. 加载之前定义的爬取规则
由于两条爬取规则使用同一个示例页面,当两个爬取规则用MS手书连续加载时,第二条被中断,因为MS手书不允许加载两个具有相同示例页面的规则。在这种情况下,在加载第二条之前,在地址栏中输入 about:blank 并按回车键先清除浏览器,然后再加载第二条规则。