集搜客网页抓取软件(2.1.打开开发者工具在集搜客网络爬虫的浏览器中加载目标)
优采云 发布时间: 2022-01-14 15:08集搜客网页抓取软件(2.1.打开开发者工具在集搜客网络爬虫的浏览器中加载目标)
2.1. 打开开发者工具
在 Jisoke 网络爬虫的浏览器中加载目标网页,然后同时按下 ctrl + shift + c 键,打开当前网页的开发者工具。与 Chrome 的开发者工具完全相同。
2.2. 分析消息包
选择网络选项卡将启用*敏*感*词*网络消息的功能。在浏览器中滚动页面会触发很多网络消息,如下图
关注xhr消息的类型,一般这种类型的消息是携带数据的。单击消息以查看详细内容。
如果需要 URL,请右键单击以从菜单中复制 URL:
第三步:设置抓包功能
在极速客网络爬虫的规则定义模式下,左侧栏会显示5个工作台,点击第5个选项卡,可以看到下图的内容:
勾选“捕获”显示一个输入框,输入要监控的URL,每行一个URL,在URL后面加通配符:*,可以监控多个相似的URL。通配符可以放在开头、中间和结尾,并且可以出现多个星号。例如
*
*
这意味着正在侦听两种类型的 URL。
第四步:运行爬虫并查看结果文件
4.1. 设置爬虫参数
一般参数可以适配大部分网站,个别网站有一些特点,需要设置爬虫参数来处理,比如携程网站,滚动速度要慢, 否则会跳过一些消息。如下图所示,将滚动速度设置为负数。数字越大,速度越慢。
它像普通的爬虫任务一样运行,详情请参阅“启动数据采集”。
打开一个原创的采集结果文件,可以看到更多的dumphttp字段,也就是被监控消息的内容。
第五步:采集 将结果转换为excel格式
采集结果转excel的方法和普通任务一样,请参考“Excel格式数据打包下载”。
被监控消息的内容往往是json格式的,那么随处可见excel文件的oResponseBody字段中的json内容。Jisouke的json存储工具可以进一步解析json内容,进一步将json内容转换成excel格式。
5.1. 过滤相同URL的消息内容
设置监控网址时,如果输入了多个网址,或者匹配规则非常广泛,则会监控多条消息内容。现在必须使用excel中的排序功能,对各个URL对应的内容进行分类。因为每种类型的json结构不同,需要进行分类,然后导入到极速客JSON入库工具中,否则会混淆不同类型的数据。
未完成