实时抓取网页数据(简单实现爬取网页数据的功能,发现猫眼实时票房展示的数据样本 )

优采云 发布时间: 2021-12-21 05:04

  实时抓取网页数据(简单实现爬取网页数据的功能,发现猫眼实时票房展示的数据样本

)

  学完python,准备练习爬虫项目。简单实现爬取网页数据的功能,发现猫眼实时票房显示的数据样本正好符合预期,然后记录遇到的困难和解决方法。

  目标网址:

  目标数据:绿色框是要获取的数据类型,红色框是具体需要获取的数据

  

  通过F12查看网页源码,发现label里面的数据就是需要获取的数据

  

  

  先通过scrapy shell命令:scrapy shell""

  检查是否可以获取数据(我这里遇到了困难,导致无法获取动态加载的目标数据)

  

  执行成功后进入交互模式,可以获取网页的内容,

  输入命令:response.xpath("//div/div/div[2]/div[2]/table").extract()

  可获取的数据类型

  

  通过命令: response.xpath("//div/div/div[2]/div[2]/div/div/table").extract()

  无法获取数据的具体数值信息:返回的数据为空

  

  继续查看网页源代码。数据是实时加载的。发现数据存放在xhr类型的second-box文件中。你可以在这里获取数据

  注意:XHR是什么,请参考这个文章:)

  

  选择-右键-可以选择复制链接地址:

  

  单独打开此页面地址,即可获取实时票房数据。

  

  像红框这样的数据就是需要的。你只需要通过这个地址获取数据

  这时候通过命令进入交互模式:scrapy shell ""

  

  通过命令:response.body。查看具体数据信息(不显示中文,但不妨碍数据的获取)

  

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线