集搜客网页抓取软件(2.1.打开开发者工具在集搜客网络爬虫的浏览器中加载目标)

优采云 发布时间: 2022-01-14 15:08

  集搜客网页抓取软件(2.1.打开开发者工具在集搜客网络爬虫的浏览器中加载目标)

  2.1. 打开开发者工具

  在 Jisoke 网络爬虫的浏览器中加载目标网页,然后同时按下 ctrl + shift + c 键,打开当前网页的开发者工具。与 Chrome 的开发者工具完全相同。

  2.2. 分析消息包

  选择网络选项卡将启用*敏*感*词*网络消息的功能。在浏览器中滚动页面会触发很多网络消息,如下图

  

  关注xhr消息的类型,一般这种类型的消息是携带数据的。单击消息以查看详细内容。

  

  如果需要 URL,请右键单击以从菜单中复制 URL:

  

  第三步:设置抓包功能

  在极速客网络爬虫的规则定义模式下,左侧栏会显示5个工作台,点击第5个选项卡,可以看到下图的内容:

  

  勾选“捕获”显示一个输入框,输入要监控的URL,每行一个URL,在URL后面加通配符:*,可以监控多个相似的URL。通配符可以放在开头、中间和结尾,并且可以出现多个星号。例如

  *

  *

  这意味着正在侦听两种类型的 URL。

  第四步:运行爬虫并查看结果文件

  4.1. 设置爬虫参数

  一般参数可以适配大部分网站,个别网站有一些特点,需要设置爬虫参数来处理,比如携程网站,滚动速度要慢, 否则会跳过一些消息。如下图所示,将滚动速度设置为负数。数字越大,速度越慢。

  

  它像普通的爬虫任务一样运行,详情请参阅“启动数据采集”。

  打开一个原创的采集结果文件,可以看到更多的dumphttp字段,也就是被监控消息的内容。

  

  第五步:采集 将结果转换为excel格式

  采集结果转excel的方法和普通任务一样,请参考“Excel格式数据打包下载”。

  被监控消息的内容往往是json格式的,那么随处可见excel文件的oResponseBody字段中的json内容。Jisouke的json存储工具可以进一步解析json内容,进一步将json内容转换成excel格式。

  5.1. 过滤相同URL的消息内容

  设置监控网址时,如果输入了多个网址,或者匹配规则非常广泛,则会监控多条消息内容。现在必须使用excel中的排序功能,对各个URL对应的内容进行分类。因为每种类型的json结构不同,需要进行分类,然后导入到极速客JSON入库工具中,否则会混淆不同类型的数据。

  未完成

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线