网页数据抓取软件( 新冠、谷歌的、头条、百度,各种各样的网站分析)
优采云 发布时间: 2022-01-14 07:12网页数据抓取软件(
新冠、谷歌的、头条、百度,各种各样的网站分析)
COVID-19 数据网站CoronaTracker
网上有很多网站提供新冠病毒数据,霍普金斯大学、谷歌、今日头条、百度,各种。今天我想把这个 CoronaTracker 作为一个开源数据介绍给大家:
界面很简单,但是主要元素都在里面,数据汇总、地图、趋势图、条形图、数据表。我们在制作数据表时可以参考这些网站的图表样式和布局。
和霍普金斯或者谷歌的相比,它看起来没有那么精致和高端,但数据内容已经足够了。
如果我们点击国家,就会进入国家的界面:
除了提供数据外,最近也有相关消息。
我们今天要模仿的不是数据图,而是这张带有旗帜图标的数据表:
前几天写的*敏*感*词*采集,网友评论说过程太简单了,这个数据采集比较简单,但是网站分析和数据采集的过程基本一样,今天就记录一下详细流程:
网站分析
我们需要用谷歌浏览器来做网站分析,网页右键->勾选,或者直接快捷键F12:
打开检查页面:
F12直接打开网络。根据提示,按CTRL+R重新加载网页,网络会显示网页加载过程中产生的数据:
在这个页面中,所有的数据都会显示在all标签下,包括图片、js、css和data。一般情况下,我们会在 XHR 中找到我们想要的数据。如何查看?让我们随机选择一行:
该页面的详细信息将显示在右侧。我们先来看看预告。预览显示格式数据。上图是一个json数据,应该是100行趋势数据。
当我们点击它时,我们可以看到三个数据和数据更新时间。这个数据不是我们想要的,我们想要每个国家的数据,我们点击topCountry:
果然,这个数据是所有国家和地区的最新数据。接下来我们打开标题选项卡:
然后仔细查看这个页面的信息,通常这个header有4个部分:
GeneralResponse HeadersRequest HeadersQuery 字符串参数或数据表单
更重要的是 1、3、 的 4 项。我们今天在这个标题中只有 3 个项目。描述比较简单,不需要传递查询条件。如果去特定国家的页面,有查询条件,如下图:
这样的查询不一定复杂。这个查询的字符串也可以直接在url中传递,不需要通过Content传递。通常可以通过GET方法的直接url,但有的需要url和Content。同时交货;POST 方法基本上需要 Content 或 Query 下发,有时 Content 和 Query 需要同时下发。
回到我们的主题,我们在标头中寻找的第一个重要信息是请求 URL。很多时候,这个请求 URL 与浏览器地址栏中的 URL 不同。这也是很多朋友直接使用地址栏中的网址的原因。无法获取数据的主要原因:
我们只能通过这个Request URL来抓取有用的数据,也就是我们常说的真实URL。
然后是请求方法。这个 网站 是 GET 方法。如果是POST方式,我们还要看Request Headers中更多的参数,这里就不做介绍了。
我们查了数据,数据中没有国标信息。我们需要找出图标存放位置的规律: