集搜客网页抓取软件(1.阅读指引《连续动作应用场景（三）自动输入查询条件)

优采云发布时间: 2021-12-05 15:04

　　1. 阅读指南

　　文章《连续动作应用场景（三）自动输入查询条件微信公众号》）描述了连续动作中自动输入查询条件的场景，主要目的是为了利用搜狗的微信公众号搜索功能，收录一定的Grab一些关键词的微信，为了达到爬取的目的，需要做以下几步

　　进入一个入口页面，在查询条件输入框中自动输入关键词，自动点击提交按钮，抓取查询结果。如果查询结果分为多页，则翻页抓取。如果在定义规则时定义了多个定义关键词，则进入下一个关键词，回到第一步

　　本文讲解规则定义过程，如果部分过程与正常规则定义过程相同，请跳过。

　　2. 选择进入页面

　　《连续动作应用场景（三）自动输入查询条件微信公众号》）一文认为定义两个采集规则比较合适：

　　第一条抓取规则：使用关键词搜索微信公众号，负责输入查询条件，点击提交按钮。该规则可以从以下地址下载：第二条爬取规则：使用关键词搜索微信公众号_搜索结果，抓取搜索结果。如果有分页符，请翻页抓取。下载链接：

　　运行时，从第一条规则开始，会自动过渡到第二条规则。第一个规则使用的示例页面是入口页面。请注意，要实现连续输入，请在选择示例页面时注意。第一条规则和第二条规则使用的样例页面应该结构相同，否则进入第一条规则。当有两个关键词时，不会定位输入框和提交按钮。

　　3. 第一条规则的工作台

　　如上图所示，在第一条抓取规则的爬虫路由工作台上不定义翻页抓取规则，但可以定义二级抓取规则。因为取页是第二条规则要执行的操作。因此，第一条规则侧重于定义连续动作。

　　输入第二条爬取规则的主题名称，即使用关键词搜索微信公众号_搜索结果点击新建按钮创建第一个动作，即输入查询条件，所以选择输入类型. 再次点击新建按钮创建第二个动作，即点击提交按钮，所以选择提交类型。

　　最后，点击工具栏上的保存规则按钮，保存爬取规则。

　　4. 定义第二条规则

　　因为第一条规则的示例页面和第二条规则的示例页面是一样的，如果直接定义第二条规则，有两种选择：

　　或者选择“新建”菜单，从头开始定义捕获规则；或修改现有工作台上的现有规则并更改主题名称并保存。

　　上图展示了翻页抓取规则的定义，和普通的规则定义没有区别，只不过我们这里使用了定点线索，也可以像标记线索一样翻页。

　　5. 加载之前定义的爬取规则

　　由于两条爬取规则使用同一个示例页面，当两个爬取规则用MS手书连续加载时，第二条被中断，因为MS手书不允许加载两个具有相同示例页面的规则。在这种情况下，在加载第二条之前，在地址栏中输入 about:blank 并按回车键先清除浏览器，然后再加载第二条规则。

0

2021-12-05

集搜客网页抓取软件

0 个评论

要回复文章请先登录或注册