java爬虫抓取网页数据(本文并不是讲解爬虫的相关技术实现的,而是..)

优采云 发布时间: 2022-02-05 18:04

  java爬虫抓取网页数据(本文并不是讲解爬虫的相关技术实现的,而是..)

  本文不讲解爬虫相关技术的实现,而是从实际的角度出发,将MongoDB抓取并存储的数据用InfluxDB处理,再通过Grafana抓取爬虫的数据。显示图形界面。

  开始之前先简单介绍一下Grafana和InfluxDB:

  最终效果如下:

  

  请注意,以下操作均在 Mac 下实现。但原理类似,你可以在自己的电脑上进行实验。

  2. 安装和配置 InfluxDB

  安装 InfluxDB

  

  修改配置文件/usr/local/etc/influxdb.conf。如果原文件中没有对应的配置项,需要自己添加。

  

  3. 安装 Grafana

  安装 Grafana

  

  并修改Grafana配置文件/usr/local/etc/grafana/grafana.ini如下:

  

  4.爬虫代码

  因为这里主要介绍Grafana和InfluxDB如何与爬虫结合,而不是爬虫的原理,而且代码比较多,影响可读性,所以就不贴爬虫代码了。

  5.监控脚本

  考虑到可能会加入爬虫监控,这里使用热更新来动态配置监控。

  配置文件influx_settings.conf主要用于热更新相关设置。

  

  如何动态读取这个配置文件的设置?需要写一个脚本来监控。代码如下:

  

  

  

  

  我们来试试吧

  

python3 influx_monitor.py

  运行,得到如下内容,说明监控脚本运行成功。

  

  再创建一个窗口,修改配置文件influx_settings.conf

  

# 修改间隔时间为8秒

interval = 8

  第一次切换到运行influxDB的窗口,会提示配置更新,说明配置热更新生效。

  

  6. 配置 Grafana

  首先打开Chrome浏览器,输入:3000登录grafana页面。

  连接本地influxDB数据库,如下图。

  在红框中选择Type为InfluxDB,并输入URL::8086

  

  

  在红框中输入influxDB数据库名称

  新仪表板

  

  新的图表类型仪表板

  修改仪表板设置

  

  点击红框修改设置

  

  修改仪表板配置

  设置监控数据对象

  监控脚本中,写入influxDB的代码如下,其中“measurement”对应表名,“fields”对应写入的字段;

  

  7.运行爬虫文件

  启动 MongoDB 数据库服务。

  

brew services mongodb start

  新建一个终端窗口并运行爬虫文件。

  

  爬虫文件运行成功

  我们可以在刚刚打开的控制台中查看效果展示:

  

  怎么样?你学会了吗?如果你和我一样喜欢python,也在学习python的道路上奔跑,欢迎加入python学习群:839383 765 群里会分享最新的行业资讯,企业项目案例,分享免费的python课程,一起交流学习每天,让学习把(编辑)变成(处理)一种习惯!

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线