网页中flash数据抓取(本文利用requests与json来爬取金十上的快讯数据进行处理)

优采云 发布时间: 2022-02-26 01:10

  网页中flash数据抓取(本文利用requests与json来爬取金十上的快讯数据进行处理)

  ***第一次写文章,希望通过这种方式提升我对错误的印象和理解。(如有错误,请指正。)

  本文使用requests和json抓取金石新闻的相关信息

  并将其保存在本地

  对应网站网址:

  1. 通过浏览器的F12解析网页数据,从中提取需要的JSON数据;

  在此处插入图像描述

  

  按F5加载(因为是小白=.=,刚开始用的时候做了很多乌龙,心想:“诶?怎么我的不显示数据?”)

  

  然后找到JS数据部分,你会发现我们需要的alerts的内容保存在“flash_newest.js”上。点击后是这样的

  

  因为我们的目的是提出json数据,为了更直观的看数据结构,我们可以(1).百度搜索json解析器,把对应的url复制到上面解析即可;**(注:这里url是flash_json.js头文件中的url)(2).下载插件

  2. 但是在这个例子中需要注意的是,我们提出的数据是 JavaScript 格式的数据

  

  所以我们要清楚,我们提取的数据不是json格式的,而是JavaScript格式的,所以我们需要在python上对提取的数据进行必要的处理,使其变成json格式的数据:

  (1)。我们来看看呈现的 JavaScript 格式数据

  

  

  (2)。然后去head和tail转换成json数据

  离开:

  

  追尾:

  

  也就是多出来的“;” 在末尾

  我这里用python截取字符串来处理

  然后我们得到我们需要的json格式数据。

  (可以先了解json数据格式的数据!)

  3.接下来就是对获取的json格式数据进行处理,得到我们需要的内容

  (1).首先了解我们需要的数据存储在哪里

  

  我们可以看到“警报内容”和“警报时间”分别保存在“内容”和“时间”上

  (2).提交内容

  

  这样我们就可以得到alert的内容和时间,并保存到变量中!

  4. 然后保存到本地

  

  

  不仅在这里爬,小伙伴们还可以去豆瓣上爬电影、照片等,你是不是又饿又渴?哈哈哈,很开心能够记录自己的学习,错误,忘记大家指正。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线