实时抓取网页数据(一个就买了一个阿里云服务器把个人网站迁移上去)

优采云 发布时间: 2021-11-02 11:17

  实时抓取网页数据(一个就买了一个阿里云服务器把个人网站迁移上去)

  前言

  前段时间github崩溃了,差点毁了心态,于是干脆买了个阿里云服务器来迁移我的个人网站。

  服务器镜像选择nodejs应用,预装nginx。nginx的其他配置我就不多说了。

  本文主要介绍如何通过GoAccess分析nginx日志数据。

  最终运行效果图:

  

  1、GoAccess 介绍和安装 GoAccess 是一个开源的实时网络日志分析器和交互式查看器,可以在 *nix 系统中运行,也可以通过浏览器终端运行。它为需要动态可视化服务器报告的系统管理员提供快速且有价值的 HTTP 统计信息。

  Goaccess用于分析服务器日志数据,主要可以通过两种方式输出数据分析报告:终端或HTML(分为静态和动态)

  安装

  可以通过官网或者包管理工具下载源码安装,这里使用yum安装

  yum install goaccess

  验证是否正确安装了 goaccess:

  goaccess --v

  2、GoAccess 配置

  安装完成后,/etc目录下会有一个goaccess.conf配置文件。将以下代码添加到最后一行:

  log-format %h %^[%d:%t %^] "%r" %s %b "%R" "%u"

date-format %d/%b/%Y

time-format %H:%M:%S

real-time-html true

port 618

output /usr/local/nginx/html/stat/index.html

  上面配置了goaccess的日志格式、日期格式和时间格式,

  设置实时HTML分析为true,因为通过WebSocket连接服务器时需要设置端口请求数据。默认端口是7890,这里设置的是618。记得在阿里云后台打开端口,不然数据不可用。最后设置输出HTML地址,该地址放置在nginx服务器静态资源的HTML目录下,可以自行配置。

  3、最终输出实时数据分析HTML

  在服务器端输入:

  goaccess -f /usr/local/nginx/logs/access.log -a > /usr/local/nginx/html/stat/index.html

  

  前者是需要分析的日志文件的地址,后者是输出HTML的地址

  打开你的 网站stat 目录,查看实时数据分析。

  例如:我的网站可以看到结果

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线