实时抓取网页数据(一个就买了一个阿里云服务器把个人网站迁移上去)
优采云 发布时间: 2021-11-02 11:17实时抓取网页数据(一个就买了一个阿里云服务器把个人网站迁移上去)
前言
前段时间github崩溃了,差点毁了心态,于是干脆买了个阿里云服务器来迁移我的个人网站。
服务器镜像选择nodejs应用,预装nginx。nginx的其他配置我就不多说了。
本文主要介绍如何通过GoAccess分析nginx日志数据。
最终运行效果图:
1、GoAccess 介绍和安装 GoAccess 是一个开源的实时网络日志分析器和交互式查看器,可以在 *nix 系统中运行,也可以通过浏览器终端运行。它为需要动态可视化服务器报告的系统管理员提供快速且有价值的 HTTP 统计信息。
Goaccess用于分析服务器日志数据,主要可以通过两种方式输出数据分析报告:终端或HTML(分为静态和动态)
安装
可以通过官网或者包管理工具下载源码安装,这里使用yum安装
yum install goaccess
验证是否正确安装了 goaccess:
goaccess --v
2、GoAccess 配置
安装完成后,/etc目录下会有一个goaccess.conf配置文件。将以下代码添加到最后一行:
log-format %h %^[%d:%t %^] "%r" %s %b "%R" "%u"
date-format %d/%b/%Y
time-format %H:%M:%S
real-time-html true
port 618
output /usr/local/nginx/html/stat/index.html
上面配置了goaccess的日志格式、日期格式和时间格式,
设置实时HTML分析为true,因为通过WebSocket连接服务器时需要设置端口请求数据。默认端口是7890,这里设置的是618。记得在阿里云后台打开端口,不然数据不可用。最后设置输出HTML地址,该地址放置在nginx服务器静态资源的HTML目录下,可以自行配置。
3、最终输出实时数据分析HTML
在服务器端输入:
goaccess -f /usr/local/nginx/logs/access.log -a > /usr/local/nginx/html/stat/index.html
前者是需要分析的日志文件的地址,后者是输出HTML的地址
打开你的 网站stat 目录,查看实时数据分析。
例如:我的网站可以看到结果