实时抓取网页数据(简单实现爬取网页数据的功能，发现猫眼实时票房展示的数据样本 )

优采云发布时间: 2021-12-21 05:04

　　实时抓取网页数据(简单实现爬取网页数据的功能，发现猫眼实时票房展示的数据样本

)

　　学完python，准备练习爬虫项目。简单实现爬取网页数据的功能，发现猫眼实时票房显示的数据样本正好符合预期，然后记录遇到的困难和解决方法。

　　目标网址：

　　目标数据：绿色框是要获取的数据类型，红色框是具体需要获取的数据

　　通过F12查看网页源码，发现label里面的数据就是需要获取的数据

　　先通过scrapy shell命令：scrapy shell""

　　检查是否可以获取数据（我这里遇到了困难，导致无法获取动态加载的目标数据）

　　执行成功后进入交互模式，可以获取网页的内容，

　　输入命令：response.xpath("//div/div/div[2]/div[2]/table").extract()

　　可获取的数据类型

　　通过命令： response.xpath("//div/div/div[2]/div[2]/div/div/table").extract()

　　无法获取数据的具体数值信息：返回的数据为空

　　继续查看网页源代码。数据是实时加载的。发现数据存放在xhr类型的second-box文件中。你可以在这里获取数据

　　注意：XHR是什么，请参考这个文章:)

　　选择-右键-可以选择复制链接地址：

　　单独打开此页面地址，即可获取实时票房数据。

　　像红框这样的数据就是需要的。你只需要通过这个地址获取数据

　　这时候通过命令进入交互模式：scrapy shell ""

　　通过命令：response.body。查看具体数据信息（不显示中文，但不妨碍数据的获取）

0

2021-12-21

实时抓取网页数据

0 个评论

要回复文章请先登录或注册