实时抓取网页数据(简单实现爬取网页数据的功能,发现猫眼实时票房展示的数据样本 )
优采云 发布时间: 2021-12-21 05:04实时抓取网页数据(简单实现爬取网页数据的功能,发现猫眼实时票房展示的数据样本
)
学完python,准备练习爬虫项目。简单实现爬取网页数据的功能,发现猫眼实时票房显示的数据样本正好符合预期,然后记录遇到的困难和解决方法。
目标网址:
目标数据:绿色框是要获取的数据类型,红色框是具体需要获取的数据
通过F12查看网页源码,发现label里面的数据就是需要获取的数据
先通过scrapy shell命令:scrapy shell""
检查是否可以获取数据(我这里遇到了困难,导致无法获取动态加载的目标数据)
执行成功后进入交互模式,可以获取网页的内容,
输入命令:response.xpath("//div/div/div[2]/div[2]/table").extract()
可获取的数据类型
通过命令: response.xpath("//div/div/div[2]/div[2]/div/div/table").extract()
无法获取数据的具体数值信息:返回的数据为空
继续查看网页源代码。数据是实时加载的。发现数据存放在xhr类型的second-box文件中。你可以在这里获取数据
注意:XHR是什么,请参考这个文章:)
选择-右键-可以选择复制链接地址:
单独打开此页面地址,即可获取实时票房数据。
像红框这样的数据就是需要的。你只需要通过这个地址获取数据
这时候通过命令进入交互模式:scrapy shell ""
通过命令:response.body。查看具体数据信息(不显示中文,但不妨碍数据的获取)