网站文章采集软件(LOL盒子没有网页抓取与网页采集技术的抓包实例)

优采云 发布时间: 2021-11-16 06:02

  网站文章采集软件(LOL盒子没有网页抓取与网页采集技术的抓包实例)

  最近一段时间,在网页采集上做了很多工作。使用curl技术开发了微信文章聚合产品,将抓取到的数据转换为json格式,并在android端调用json数据接口进行展示;基于weiphp,做了一个palm头条插件,同样采用了网页采集技术;与创业团队合作搭建高考志愿报送系统,所有数据也是从外地获取。总而言之,网页抓取和网页采集技术是一项非常实用的技能,可以让我们高效快速地获取一些开发产品所需的基础数据。

  在网页爬取和网页采集的过程中,不可避免地会用到抓包技术。所谓抓包,是指当我们访问一个目标网站时,我们需要分析一些我们提交给浏览器的http请求和一些提交给浏览器的数据,在知道请求是如何发起的以及是什么之后数据贴出来了,能否为目标网页编写相应的采集程序。尤其是在模拟登录某些需要用户进行登录验证的网站时,抓包分析就显得尤为重要。

  有的浏览器自带抓包分析工具,或者自带可扩展的抓包插件,比如Firefox的firebug插件和Internet Explorer的HttpWatch。每个抓包工具都有自己独特的功能,这里就不一一介绍了。今天给大家介绍一个好用的抓包工具Fiddler。

  一、下载地址:

  二、基本介绍:

  三、使用教程:

  四、补充介绍:

  手机APP抓拍:

  下面我们结合一个具体的例子来谈谈如何抓取和分析手机APP的请求数据,满足我们自己的需求。下面我就给大家举个LOL盒子抓包的例子。

  我们知道LOL盒子没有网页版,或者网页版的功能没有手机APP的数据集成那么完善。如果我们想做一个微信版的LOL盒子,让用户在微信上回复一些关键词,查看一些基本信息。比如用户在微信回复“英雄”,就可以查看LOL的所有英雄信息。服装、符文等。那么我们要在微信端实现这些功能,肯定是需要数据库的支持的,如果我们的数据是从LOL官网抓取的,难免要写很多匹配规则,所以一个简单高效的方法就是直接抓取集成的LOL box数据。那么话题开始了,我们开始抓取LOL盒子中集成的所有英雄的数据。

  1、 先在手机下载LOL盒子,进入首页(请无视我五渣男的战斗力指数)

  

  2、打开Fiddler,点击全部删除,清除所有捕获的信息

  

  3、点击LOL框中的英雄进入英雄页面

  

  4、 可以看到有免费、我的英雄、查看英雄三个选项。

  

  5、这时候可以看到Fiddler已经抓到了我们需要的数据接口

  

  6、我们在其中一个数据接口上右击,复制url地址,在浏览器中打开

  

  7、可以看到我们需要的周冕英雄的数据接口,json格式。

  

  至此,抓包分析的整个过程大家就清楚了。拿到json接口后,我们就可以利用curl技术将数据采集下来,将json格式的数据转换成数组或者其他格式,然后就可以存储到我们自己的数据库中了。当用户在微信中回复关键词时,我们会从数据库中检索对应的数据回复给用户。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线