java爬虫抓取网页数据(本文并不是讲解爬虫的相关技术实现的，而是..)

优采云发布时间: 2022-02-05 18:04

　　本文不讲解爬虫相关技术的实现，而是从实际的角度出发，将MongoDB抓取并存储的数据用InfluxDB处理，再通过Grafana抓取爬虫的数据。显示图形界面。

　　开始之前先简单介绍一下Grafana和InfluxDB：

　　最终效果如下：

　　请注意，以下操作均在 Mac 下实现。但原理类似，你可以在自己的电脑上进行实验。

　　2. 安装和配置 InfluxDB

　　安装 InfluxDB

　　修改配置文件/usr/local/etc/influxdb.conf。如果原文件中没有对应的配置项，需要自己添加。

　　3. 安装 Grafana

　　安装 Grafana

　　并修改Grafana配置文件/usr/local/etc/grafana/grafana.ini如下：

　　4.爬虫代码

　　因为这里主要介绍Grafana和InfluxDB如何与爬虫结合，而不是爬虫的原理，而且代码比较多，影响可读性，所以就不贴爬虫代码了。

　　5.监控脚本

　　考虑到可能会加入爬虫监控，这里使用热更新来动态配置监控。

　　配置文件influx_settings.conf主要用于热更新相关设置。

　　如何动态读取这个配置文件的设置？需要写一个脚本来监控。代码如下：

　　我们来试试吧

python3 influx_monitor.py

　　运行，得到如下内容，说明监控脚本运行成功。

　　再创建一个窗口，修改配置文件influx_settings.conf

# 修改间隔时间为8秒

interval = 8

　　第一次切换到运行influxDB的窗口，会提示配置更新，说明配置热更新生效。

　　6. 配置 Grafana

　　首先打开Chrome浏览器，输入:3000登录grafana页面。

　　连接本地influxDB数据库，如下图。

　　在红框中选择Type为InfluxDB，并输入URL：:8086

　　在红框中输入influxDB数据库名称

　　新仪表板

　　新的图表类型仪表板

　　修改仪表板设置

　　点击红框修改设置

　　修改仪表板配置

　　设置监控数据对象

　　监控脚本中，写入influxDB的代码如下，其中“measurement”对应表名，“fields”对应写入的字段；

　　7.运行爬虫文件

　　启动 MongoDB 数据库服务。

brew services mongodb start

　　新建一个终端窗口并运行爬虫文件。

　　爬虫文件运行成功

　　我们可以在刚刚打开的控制台中查看效果展示：

　　怎么样？你学会了吗？如果你和我一样喜欢python，也在学习python的道路上奔跑，欢迎加入python学习群：839383 765 群里会分享最新的行业资讯，企业项目案例，分享免费的python课程，一起交流学习每天，让学习把（编辑）变成（处理）一种习惯！

0

2022-02-05

java爬虫抓取网页数据

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

java爬虫抓取网页数据(本文并不是讲解爬虫的相关技术实现的，而是..)

0 个评论

发起人