网页爬虫抓取百度图片(集搜客GooSeeker爬虫术语“主题”统一改为“任务” )

优采云发布时间: 2022-03-26 06:28

　　网页爬虫抓取百度图片(集搜客GooSeeker爬虫术语“主题”统一改为“任务”

)

　　注：GooSeeker爬虫从V9.0.2版本开始，爬虫术语“主题”改为“任务”。在爬虫浏览器中，先命名任务，然后创建规则，然后登录集合。在苏克官网会员中心的“任务管理”中，可以查看采集任务的执行状态，管理线索的URL，进行调度设置。

　　一、操作步骤

　　Jisouke的“飞行模式”专门针对那些没有独立URL的弹出页面，即点击后会弹出一个新的标签页，但URL保持不变。“飞行模式”可以模拟人的操作，打开一个弹窗采集然后再打开下一个弹窗继续采集，这样采集下弹窗- up窗口网页信息。

　　下面以百度百家为例。虽然它的弹窗有一个独立的网站，但是这种情况下最简单的采集方法就是做一个层次结构采集，但是为了演示天桥采集，我们把它当作网址不变。操作步骤如下：

　　二、案例规则+操作步骤

　　第一步：打开网页

　　1.1、打开GS爬虫浏览器，输入网址等待页面加载完毕，然后点击“定义规则”，然后输入主题，最后再次勾选，主题名称不能重复。

　　步骤 2：定义一级规则

　　2.1、双击所需信息，勾选确认。一级规则可以随意标记一条信息，目的是让爬虫判断是否执行采集。

　　2.2，本例中，点击每个文章的标题，然后跟踪弹出的网页采集数据，需要编写定位每个点击对象的xpath表达式。我们可以使用“show xpath”功能自动定位，找到可以定位到每个action对象的xpath。但是对于结构较少的网页，“显示xpath”将无法定位到所有的action对象，需要自己编写相应的xpath，可以看xpath教程来掌握。