网页数据抓取软件( 新冠、谷歌的、头条、百度,各种各样的网站分析)

优采云 发布时间: 2022-01-14 07:12

  网页数据抓取软件(

新冠、谷歌的、头条、百度,各种各样的网站分析)

  COVID-19 数据网站CoronaTracker

  网上有很多网站提供新冠病毒数据,霍普金斯大学、谷歌、今日头条、百度,各种。今天我想把这个 CoronaTracker 作为一个开源数据介绍给大家:

  

  

  界面很简单,但是主要元素都在里面,数据汇总、地图、趋势图、条形图、数据表。我们在制作数据表时可以参考这些网站的图表样式和布局。

  和霍普金斯或者谷歌的相比,它看起来没有那么精致和高端,但数据内容已经足够了。

  

  

  如果我们点击国家,就会进入国家的界面:

  

  除了提供数据外,最近也有相关消息。

  我们今天要模仿的不是数据图,而是这张带有旗帜图标的数据表:

  

  前几天写的*敏*感*词*采集,网友评论说过程太简单了,这个数据采集比较简单,但是网站分析和数据采集的过程基本一样,今天就记录一下详细流程:

  网站分析

  我们需要用谷歌浏览器来做网站分析,网页右键->勾选,或者直接快捷键F12:

  

  打开检查页面:

  

  F12直接打开网络。根据提示,按CTRL+R重新加载网页,网络会显示网页加载过程中产生的数据:

  

  在这个页面中,所有的数据都会显示在all标签下,包括图片、js、css和data。一般情况下,我们会在 XHR 中找到我们想要的数据。如何查看?让我们随机选择一行:

  

  该页面的详细信息将显示在右侧。我们先来看看预告。预览显示格式数据。上图是一个json数据,应该是100行趋势数据。

  

  当我们点击它时,我们可以看到三个数据和数据更新时间。这个数据不是我们想要的,我们想要每个国家的数据,我们点击topCountry:

  

  果然,这个数据是所有国家和地区的最新数据。接下来我们打开标题选项卡:

  

  然后仔细查看这个页面的信息,通常这个header有4个部分:

  GeneralResponse HeadersRequest HeadersQuery 字符串参数或数据表单

  更重要的是 1、3、 的 4 项。我们今天在这个标题中只有 3 个项目。描述比较简单,不需要传递查询条件。如果去特定国家的页面,有查询条件,如下图:

  

  这样的查询不一定复杂。这个查询的字符串也可以直接在url中传递,不需要通过Content传递。通常可以通过GET方法的直接url,但有的需要url和Content。同时交货;POST 方法基本上需要 Content 或 Query 下发,有时 Content 和 Query 需要同时下发。

  回到我们的主题,我们在标头中寻找的第一个重要信息是请求 URL。很多时候,这个请求 URL 与浏览器地址栏中的 URL 不同。这也是很多朋友直接使用地址栏中的网址的原因。无法获取数据的主要原因:

  

  我们只能通过这个Request URL来抓取有用的数据,也就是我们常说的真实URL。

  然后是请求方法。这个 网站 是 GET 方法。如果是POST方式,我们还要看Request Headers中更多的参数,这里就不做介绍了。

  我们查了数据,数据中没有国标信息。我们需要找出图标存放位置的规律:

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线