js提取指定网站内容( 收集web日志的目的Web日志处理流程及注意事项!)

优采云 发布时间: 2022-03-26 01:15

  js提取指定网站内容(

收集web日志的目的Web日志处理流程及注意事项!)

  

  采集网络日志的目的

  Web日志挖掘是指利用数据挖掘技术对站点用户访问Web服务器时产生的日志数据进行分析和处理,从而发现Web用户的访问模式和爱好,这些对于站点建设来说是潜在的有用和可理解的未知数。信息和知识,用于分析站点访问情况,辅助站点管理和决策支持等。

  1、以改进网站设计为目标,通过挖掘用户集群和用户频繁访问路径,修改网站页面之间的链接关系以适应用户的访问习惯,同时为用户提供有针对性的电子商务活动和个性化信息服务,应用信息推拉技术构建智能网站。

  2、以分析网站性能为目标,主要从统计的角度,对日志数据项进行粗略的统计分析,用户经常访问的页面,单位访问次数时间,以及访问次数随时间的分布。绝大多数现有的网络日志分析工具都属于这一类。

  3、目标是了解用户的意图,主要是通过与用户交互的过程采集用户信息,web服务器根据信息切割用户请求的页面,返回一个定制的页面供用户,目的是提高用户满意度,提供个性化服务。

  采集方法

  网站分析数据主要通过三种方式采集:Web 日志、JavaScript 标签和数据包嗅探器。

  1. 网络日志

  Web日志处理流程:

  

  从上图中可以看出,网站 的分析数据的采集是在 网站 访问者输入 URL 向 网站 服务器发送 http 请求时开始的。网站服务器收到请求后,会在自己的Log文件中追加一条记录,记录内容包括:远程主机名(或IP地址)、登录名、完整登录名、请求日期、请求日期时间、请求的详细信息(包括请求的方法、地址和协议),请求返回的状态,以及请求的文档的大小。网站 服务器然后将页面返回给访问者的浏览器以进行演示。

  2. JavaScript 标签

  JavaScript 标记处理流程:

  

  上面显示的 JavaScript 标记与 Web 日志采集数据相同,以 网站 访问者发出 http 请求开始。不同之处在于,JavaScript 标记返回给访问者的页面代码将收录一段特殊的 JavaScript 代码,该代码在页面显示时执行。此代码将从访问者的cookie中获取详细信息(访问时间、浏览器信息、工具制造商分配给当前访问者的userID等),并将其发送到工具制造商的数据采集服务器。数据采集服务器处理采集到的数据并将其存储在数据库中。网站操作员通过访问分析报告系统查看这些数据。

  3. 数据包嗅探器

  通过数据包嗅探器采集分析的过程:

  

  从上图可以看出,网站访问者发送的请求到达网站服务器之前,会先经过数据包嗅探器,然后数据包嗅探器将请求发送到网站 服务器。数据包嗅探器采集的数据经过工具制造商的服务器处理后存储在数据库中。然后网站运营商可以通过分析报告系统看到这些数据。

  Web日志挖掘过程

  整体流程参考下图:

  

  1、数据预处理阶段根据挖掘的目的,对原创Web日志文件中的数据进行提取、分解、合并,最后转换为用户会话文件。这个阶段是Web访问信息挖掘最关键的阶段。数据预处理包括:用户访问信息的预处理,内容和结构的预处理。

  2、会话识别阶段这个阶段是数据预处理阶段的一部分。这里将其划分为单独的阶段,因为划分为用户会话文件的一组用户会话序列将直接用于挖掘算法,其准确性直接决定挖掘结果的质量,是挖掘过程中最重要的阶段。

  3、模式发现阶段模式发现是利用各种方法和技术,从Web日志数据中挖掘和发现用户使用Web的各种潜在规律和模式。模式发现中使用的算法和方法不仅来自数据挖掘领域,还来自机器学习、统计学和模式识别等其他专业领域。

  模式发现的主要技术有:统计分析、关联规则、聚类、分类、顺序模式和依赖关系。

  (1)统计分析):常用的统计技术有:贝叶斯定理、预测回归、对数回归、对数-线性回归等,可以用来分析网页的访问频率和访问时间网页,访问路径。可用于分析系统性能、发现安全漏洞、为网站修改、市场决策提供支持。

  (2)关联规则):关联规则是WUM最基本的挖矿技术,也是最常用的方法。它们经常用在WUM中被访问的网页中,有利于优化网站组织、网站设计师、网站内容经理、市场分析师,通过市场分析,我们可以知道哪些产品是经常购买的,哪些客户是潜在客户。

  (3)Clustering:聚类技术就是在海量数据中寻找彼此相似的对象组。这些数据是根据距离函数来寻找对象组之间的相似性。在WUM中,可以将具有相似模式的对象对用户进行分组,可用于电子商务中的市场细分,为用户提供个性化服务。

  (4)分类):分类技术的主要目的是将用户数据分类到特定的类别,这与机器学习密切相关。可以使用的技术有:决策树、K-最近邻、朴素贝叶斯分类器、支持向量机。

  (5)sequential patterns):给定一组不同的序列,其中每个序列由不同的元素按顺序组成,每个元素由不同的项组成,并且给定一个用户指定的最小支持阈值,序列模式挖掘就是要找到所有频繁子序列,即序列集中子序列出现的频率不低于用户指定的最小支持度阈值。

  (6)依赖关系:两个元素之间存在依赖关系,如果一个元素A的值可以推导出另一个元素B的值,那么B依赖于A。

  4、模式分析阶段模式分析是Web 使用挖掘的最后一步。主要目的是对模式发现阶段产生的规则和模式进行过滤,去除那些无用的模式,通过一定的方法将发现的模式直观地表达出来。由于Web使用挖掘在大多数情况下属于无偏学习,可以挖掘出所有的模式和规则,因此不能排除某些模式是常识、常见或对最终用户不感兴趣,因此必须采用模式分析. 该方法使挖掘的规则和知识可读并最终可以理解。常见的模式分析方法包括图形和可视化技术、数据库查询机制、数理统计和可用性分析。

  采集数据包括

  采集的数据主要包括:

  全局UUID、访问日期、访问时间、生成日志的服务器IP地址、客户端尝试执行的操作、客户端访问的服务器资源、客户端尝试执行的查询、客户端连接的端口号、访问服务器认证用户名、发送服务器资源请求的客户端IP地址、客户端使用的操作系统、浏览器等信息、操作状态码(200等)、子状态、以 Windows@ 使用的术语表示的操作状态,命中计数。

  用户识别

  对于网站的运营商来说,如何高效、准确地识别用户非常重要,这将极大地帮助网站的运营,比如针对性的推荐。

  用户识别方法如下:

  

  使用 HDFS 存储

  数据采集​​到服务器后,可以根据数据量考虑将数据存储到Hadoop的HDFS中。

  在当今的企业中,一般来说,多台服务器生成日志,包括nginx生成的日志和程序中log4j生成的自定义格式。

  通常的架构如下:

  

  使用 mapreduce 分析 nginx 日志

  nginx默认的日志格式如下:

  222.68.172.190--[18/Sep/2013:06:49:57+0000]"GET/images/my.jpgHTTP/1.1"20019939

  在hadoop中计算后,定期导入到关系数据库中展示。

  您也可以使用 hive 代替 mapreduce 进行分析。

  总结

  Web日志采集是每个互联网公司都必须面对的过程。当采集到数据并通过适当的数据挖掘,它将为整体网站操作能力和网站优化带来质的好处。改进,真正实现数据分析和数据操作。

  通过: 云天

  结尾。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线