网页中flash数据抓取(本文利用requests与json来爬取金十上的快讯数据进行处理)
优采云 发布时间: 2022-02-26 01:10网页中flash数据抓取(本文利用requests与json来爬取金十上的快讯数据进行处理)
***第一次写文章,希望通过这种方式提升我对错误的印象和理解。(如有错误,请指正。)
本文使用requests和json抓取金石新闻的相关信息
并将其保存在本地
对应网站网址:
1. 通过浏览器的F12解析网页数据,从中提取需要的JSON数据;
在此处插入图像描述
按F5加载(因为是小白=.=,刚开始用的时候做了很多乌龙,心想:“诶?怎么我的不显示数据?”)
然后找到JS数据部分,你会发现我们需要的alerts的内容保存在“flash_newest.js”上。点击后是这样的
因为我们的目的是提出json数据,为了更直观的看数据结构,我们可以(1).百度搜索json解析器,把对应的url复制到上面解析即可;**(注:这里url是flash_json.js头文件中的url)(2).下载插件
2. 但是在这个例子中需要注意的是,我们提出的数据是 JavaScript 格式的数据
所以我们要清楚,我们提取的数据不是json格式的,而是JavaScript格式的,所以我们需要在python上对提取的数据进行必要的处理,使其变成json格式的数据:
(1)。我们来看看呈现的 JavaScript 格式数据
(2)。然后去head和tail转换成json数据
离开:
追尾:
也就是多出来的“;” 在末尾
我这里用python截取字符串来处理
然后我们得到我们需要的json格式数据。
(可以先了解json数据格式的数据!)
3.接下来就是对获取的json格式数据进行处理,得到我们需要的内容
(1).首先了解我们需要的数据存储在哪里
我们可以看到“警报内容”和“警报时间”分别保存在“内容”和“时间”上
(2).提交内容
这样我们就可以得到alert的内容和时间,并保存到变量中!
4. 然后保存到本地
不仅在这里爬,小伙伴们还可以去豆瓣上爬电影、照片等,你是不是又饿又渴?哈哈哈,很开心能够记录自己的学习,错误,忘记大家指正。