网页爬虫抓取百度图片(集搜客GooSeeker爬虫术语“主题”统一改为“任务” )
优采云 发布时间: 2022-03-26 06:28网页爬虫抓取百度图片(集搜客GooSeeker爬虫术语“主题”统一改为“任务”
)
注:GooSeeker爬虫从V9.0.2版本开始,爬虫术语“主题”改为“任务”。在爬虫浏览器中,先命名任务,然后创建规则,然后登录集合。在苏克官网会员中心的“任务管理”中,可以查看采集任务的执行状态,管理线索的URL,进行调度设置。
一、操作步骤
Jisouke的“飞行模式”专门针对那些没有独立URL的弹出页面,即点击后会弹出一个新的标签页,但URL保持不变。“飞行模式”可以模拟人的操作,打开一个弹窗采集然后再打开下一个弹窗继续采集,这样采集下弹窗- up窗口网页信息。
下面以百度百家为例。虽然它的弹窗有一个独立的网站,但是这种情况下最简单的采集方法就是做一个层次结构采集,但是为了演示天桥采集,我们把它当作网址不变。操作步骤如下:
二、案例规则+操作步骤
第一步:打开网页
1.1、打开GS爬虫浏览器,输入网址等待页面加载完毕,然后点击“定义规则”,然后输入主题,最后再次勾选,主题名称不能重复。
步骤 2:定义一级规则
2.1、双击所需信息,勾选确认。一级规则可以随意标记一条信息,目的是让爬虫判断是否执行采集。
2.2,本例中,点击每个文章的标题,然后跟踪弹出的网页采集数据,需要编写定位每个点击对象的xpath表达式。我们可以使用“show xpath”功能自动定位,找到可以定位到每个action对象的xpath。但是对于结构较少的网页,“显示xpath”将无法定位到所有的action对象,需要自己编写相应的xpath,可以看xpath教程来掌握。
2.3、在连续动作中新建一个“点击”动作,下属主题名填写“百度百家文章采集”,勾选“飞行模式”,填写xpath 表达式公式和动作名称
2.4、点击“保存规则”
第三步:定义二级规则
3.1、再次点击“定义规则”,返回普通网页模式,然后点击第一个文章的标题,会弹出一个新窗口,二级规则为在新窗口中定义
3.2、双击需要的信息进行标记,将定位标记准确映射到采集范围
3.3、点击“测试”,如果输出结果没有问题,点击“保存规则”
第 4 步:获取数据
4.1、在DS计数器中搜索一级规则并运行,点击成功,会弹出一个新窗口采集二级网页,采集之后弹窗网页完成后会自动关闭,点击下一步继续采集。这是飞越模式,智能追踪弹窗采集数据。
注意:一级规则的连续动作执行成功后,会自动采集下级规则,所以不需要单独运行下级规则,尤其是下级规则rule 没有独立的 URL,如果在运行时没有采集到目标数据,它会失败。
注:以上为案例网站的采集规则,请根据目标网站的实际情况定义规则。另外,天桥模式是旗舰功能,请先购买再做规则采集数据。
Tips:没有独立URL的网页如何加载和修改规则?
对于没有独立URL的网页,需要先点击该页面,然后搜索规则,右键选择“仅加载规则”,点击“规则”菜单->“后续分析”完成加载操作,然后您可以修改规则。
比如这种情况下的二级规则就是没有独立的URL。需要先加载一级规则,恢复到普通网页模式,点击文章标题,会弹出一个新窗口。(建议把操作写在第一个二级规则的备注里,方便查看),然后右键二级规则,选择“Load Rules Only”。
Part 1 文章:《连续动作:设置自动返回上级页面》 Part 2 文章:《连续打码:破解各种验证码》
如有疑问,您可以或