java爬虫抓取网页数据(本文并不是讲解爬虫的相关技术实现的,而是..)
优采云 发布时间: 2022-02-05 18:04java爬虫抓取网页数据(本文并不是讲解爬虫的相关技术实现的,而是..)
本文不讲解爬虫相关技术的实现,而是从实际的角度出发,将MongoDB抓取并存储的数据用InfluxDB处理,再通过Grafana抓取爬虫的数据。显示图形界面。
开始之前先简单介绍一下Grafana和InfluxDB:
最终效果如下:
请注意,以下操作均在 Mac 下实现。但原理类似,你可以在自己的电脑上进行实验。
2. 安装和配置 InfluxDB
安装 InfluxDB
修改配置文件/usr/local/etc/influxdb.conf。如果原文件中没有对应的配置项,需要自己添加。
3. 安装 Grafana
安装 Grafana
并修改Grafana配置文件/usr/local/etc/grafana/grafana.ini如下:
4.爬虫代码
因为这里主要介绍Grafana和InfluxDB如何与爬虫结合,而不是爬虫的原理,而且代码比较多,影响可读性,所以就不贴爬虫代码了。
5.监控脚本
考虑到可能会加入爬虫监控,这里使用热更新来动态配置监控。
配置文件influx_settings.conf主要用于热更新相关设置。
如何动态读取这个配置文件的设置?需要写一个脚本来监控。代码如下:
我们来试试吧
python3 influx_monitor.py
运行,得到如下内容,说明监控脚本运行成功。
再创建一个窗口,修改配置文件influx_settings.conf
# 修改间隔时间为8秒
interval = 8
第一次切换到运行influxDB的窗口,会提示配置更新,说明配置热更新生效。
6. 配置 Grafana
首先打开Chrome浏览器,输入:3000登录grafana页面。
连接本地influxDB数据库,如下图。
在红框中选择Type为InfluxDB,并输入URL::8086
在红框中输入influxDB数据库名称
新仪表板
新的图表类型仪表板
修改仪表板设置
点击红框修改设置
修改仪表板配置
设置监控数据对象
监控脚本中,写入influxDB的代码如下,其中“measurement”对应表名,“fields”对应写入的字段;
7.运行爬虫文件
启动 MongoDB 数据库服务。
brew services mongodb start
新建一个终端窗口并运行爬虫文件。
爬虫文件运行成功
我们可以在刚刚打开的控制台中查看效果展示:
怎么样?你学会了吗?如果你和我一样喜欢python,也在学习python的道路上奔跑,欢迎加入python学习群:839383 765 群里会分享最新的行业资讯,企业项目案例,分享免费的python课程,一起交流学习每天,让学习把(编辑)变成(处理)一种习惯!