集搜客网页抓取软件(1.阅读指引《连续动作应用场景(三)自动输入查询条件)
优采云 发布时间: 2022-01-25 14:25集搜客网页抓取软件(1.阅读指引《连续动作应用场景(三)自动输入查询条件)
1. 阅读指南
《连续动作应用场景(三)自动输入查询条件微信公众号)》一文介绍了连续动作中自动输入查询条件的场景。抓取一些关键词的微信。为了达到爬取的目的,需要做以下步骤
进入一个入口页面,在查询条件输入框中自动输入关键词,自动点击提交按钮获取查询结果。如果查询结果分为多页,则翻页取回。如果定义规则关键词时定义了多个规则,则输入下一个关键词,返回第一步
本文解释了规则定义过程。如果某些流程与正常的规则定义流程相同,则跳过它们。
2. 选择入口页面
《连续动作应用场景(三)微信公众号查询条件自动输入》)一文认为定义两条采集规则比较合适:
第一条爬取规则:使用关键词搜索微信公众号,负责输入查询条件并点击提交按钮。该规则可以从以下地址下载: 第二条抓取规则:使用关键词搜索微信公众号_搜索结果,抓取搜索结果,如果有分页,翻页抓取。下载链接:
运行时,从第一条规则开始,会自动过渡到第二条规则。第一条规则使用的示例页面是入口页面。请注意,要实现连续输入,在选择示例页面时应注意。第一条规则和第二条规则使用的示例页面应该具有相同的结构。否则,输入第一条规则。当有两个关键词时,输入框和提交按钮将不会被定位。
3. 第一条规则的工作台
如上图所示,在一级爬取规则的爬虫路由工作台上,不定义翻页爬取规则,而是定义二级爬取规则。因为翻页是第二条规则的作用。因此,第一条规则侧重于定义连续动作。
输入第二条爬取规则的主题名,即使用关键词搜索微信公众号_搜索结果点击新建按钮创建第一个动作,即输入查询条件,所以选择输入类型. 再次单击 New 按钮创建第二个动作,即单击 Submit 按钮,因此选择提交类型。
最后,点击工具栏上的保存规则按钮,保存爬取规则。
4. 定义第二条规则
由于第一条规则与第二条规则的示例页面相同,因此如果立即定义第二条规则,则有两种选择:
或者选择“新建”菜单从头开始定义抓取规则;或者在现有工作台上修改现有规则,更改主题名称后保存。
上图是翻页和爬取规则的定义,和一般的规则定义没有区别,但是我们这里使用定点线索类型,也可以像标记线索一样翻页。
5. 加载之前定义的抓取规则
由于两条抓取规则使用的是同一个样本页面,当MS平台连续加载两条抓取规则时,第二条被中断,因为MS平台不允许加载相同样本页面的两条规则。. 在这种情况下,在加载第二个规则之前,在地址栏中输入 about:blank 并按 Enter 以在加载第二个规则之前清除浏览器。