seo网站日志分析工具(Mozilla/5.0+(Windows)的来访情况及应敌之策)

优采云 发布时间: 2021-10-30 00:08

  seo网站日志分析工具(Mozilla/5.0+(Windows)的来访情况及应敌之策)

  ⑥Mozilla/5.0+(Windows; +U; +Windows+NT+5.1; +zh-CN; +rv:1.8.0.< @3)+壁虎/20060426

  +火狐/1.5.0.3.

  ①访问时间;②用户IP地址;③访问URL、端口;④请求方法(“GET”、“POST”等);

  ⑤访问方式;⑥代理,即用户使用的操作系统和浏览器软件的类型。

  一、 简单分析日志

  1、关注经常访问的资源

  2、注​​意网站上不存在的资源请求。常见的扫描攻击还包括传递恶意参数等:

  3、 观察搜索引擎蜘蛛的访问

  4、观察访客行为

  对敌对策:

  1、阻止IP

  2、阻止某种浏览器类型(代理)

  3、阻止一个来源(Referer)

  4、反水蛭

  5、文件重命名

  影响:

  1. 计算访问时间,可以得到一定时间段内的服务器访问。

  2.IP统计,可以得到用户分布。

  3.请求的URL的统计信息,可以得到网站页面的关注。

  4. 错误请求的统计可以用来纠正有问题的页面。

  二、网络挖掘

  根据挖掘的Web数据类型,Web数据挖掘可分为以下三类:Web内容挖掘、Web结构挖掘和Web使用挖掘(也称为Web日志挖掘)。

  ①网页内容挖掘。Web 内容挖掘是指从文档内容中提取知识。Web内容挖掘分为文本挖掘和多媒体挖掘。目前,多媒体数据挖掘的研究还处于探索阶段,Web文本挖掘已经具备了更多的实用功能。Web文本挖掘可以对Web上大量文档集合的内容进行汇总、分类、聚类和分析,并利用Web文档进行趋势预测。Web 文档中的标记(例如和)收录附加信息,可用于增强 Web 文本挖掘的作用。

  ②Web结构挖掘。Web 结构挖掘是从 Web 的组织结构和链接关系中获取知识。它不仅限于文档之间的超链接结构,还包括文档的内部结构。文档中URL目录路径的结构等。 网页结构挖掘可以利用网页之间的超链接信息对搜索引擎的搜索结果进行排序,查找个人主页和类似网页,提高网页搜索蜘蛛对网页的抓取效率互联网,并首先沿着超链接爬行。Web 结构挖掘还可以用于对 Web 页面进行分类、预测用户的 Web 链接使用以及 Web 链接属性的可视化。对各种商业搜索引擎索引的页面数进行统计分析。

  ③Web使用记录挖掘。Web 使用记录挖掘是指从 Web 使用记录中提取感兴趣的模式。目前,有很多关于Web使用记录挖掘的研究。WWW 中的每个服务器都保存访问日志并记录有关用户访问和交互的信息。,网站的潜在用户可以通过分析和研究Web日志记录中的规则来识别;扩展的有向树模型可用于识别用户浏览序列模式,从而进行Web日志挖掘;可以根据用户访问的Web记录挖掘用户的兴趣关联规则并将其存储在兴趣关联知识库中,作为预测用户行为的依据,从而为用户预取一些网页,加快用户获取页面的速度,

  通过对Web服务器日志中大量用户访问记录的深入分析,我们发现了有趣的、新颖的、潜在有用的、易于理解的未知信息和知识,如用户访问模式和爱好等,用于分析Web服务器的使用情况。现场并协助管理和支持决策。目前,Web日志挖掘主要应用于个性化服务与定制、提升系统性能与结构、站点修改、商业智能、Web特征描述等诸多领域。

  三、Web日志挖掘方法

  (一)首先进行数据预处理。

  从学习者的访问日志中得到的原创日志记录不适合挖掘,必须进行适当的处​​理才能进行挖掘。因此,我们需要清理日志,去除无用的记录;对于一些记录,我们还需要通过站点结构信息将URL路径补充成一个完整的访问序列;然后划分学习者,将学习者的session划分为多个事务。

  (二)其次,执行模式发现

  一旦学习者的对话和交易识别完成,就可以使用以下技术进行模式发现。模式发现是使用数据挖掘算法对预处理后的数据进行分析。有统计、分类、聚类、海关等多种方法。

  ①路径分析。它可用于确定站点中最常访问的路径,通过路径分析可以获得有关该路径的其他一些信息。路径分析可用于确定网站上的频繁访问路径,从而调整和优化网站的结构,使用户访问所需网页更加方便快捷,也可用于根据用户的典型浏览方式进行智能推荐和有针对性的电子商务活动。例如:70%的学习者访问/E-Business/M2,从/EB开始,经过/E-Business/SimpleDescription,/E-Business/M1;65% 的学习者在页面内容后浏览 4 次或更少。使用这些信息可以改进站点的设计结构。

  ②关联规则。使用关联规则发现方法,可以从Web 的访问事务中找到相关性。关联规则是找出出现在同一事件中的不同项目之间的相关性。用一个数学模型来描述关联规则发现的问题:x=>y的蕴涵公式,其中x和y是属性值对集(或称是项集),X∩Y是空放。在数据库中,如果S%收录属性值对集X交易也收录属性值集Y,则关联规则X=>Y的置信度为C%。

  ③ 顺序模式。在时间戳事务集中,序列模式的发现是指内部事务模式,例如“一些项目跟随另一个”。在数据库中可以查到“在一定时间内,客户购买产品A,然后购买产品B,再购买产品C,即A→B→C的顺序出现频繁”等信息。序列模式所描述的问题是:在给定的交易序列数据库中,每个序列都是按照交易时间排列的一组交易。挖掘序列函数的作用是返回数据库中的高频序列。

  ④分类分析。发现分类规则可以给出识别特定组的公共属性的描述,并且该描述可用于对学习者进行分类。分类中收录的挖掘技术将找出定义项目或事件是否属于数据中特定子集或类别的规则。这类技术是针对各种业务问题使用最广泛的挖掘技术。最著名的分类算法是决策树方法,此外还有神经网络、贝叶斯分类等。例如:在/电子商务/M4学习的学习者中有40%是20多岁的女大学生。

  ⑤ 聚类分析。可以从 Web 访问信息数据中聚类具有相似特征的学习者。在Web事务日志中,将学习者信息或数据项进行聚类,可以方便未来教学模式和学习小组的开发和设计。聚类就是将数据集划分为多个类,使同一类中的数据具有更高的相似度,不同类中的数据尽可能不同。在聚类技术中,没有预先定义的类别和训练样本,所有的记录都是根据彼此之间的相似程度进行分类的。主要算法有k-means、DBSCAN等。聚类分析是对特征相似的用户或数据项进行分类,在网站管理中对浏览行为相似的用户进行聚类。基于模糊理论的网页聚类算法与客户群聚类算法的模糊聚类定义相同,客户访问情况可以用URL(Uj)表示。Suj={(Ci,fSuj(Ci))|Ci∈C},其中fSuj(Ci)→[0,1]为客户Ci与URL(Uj)的相关性:其中m为客户数,点击数( Ci) 表示客户端 Ci 访问 URL (Uj) 的次数。利用Suj中相似性测度Sfij的定义和模糊理论建立模糊相似矩阵,然后根据相似类[Xi]R的定义构造相似类,合并相似类中的共同元素得到等价类是相关的网页。

  ⑥ 统计。统计方法是从网站中提取知识最常用的方法。它分析会话文件,对浏览时间、浏览路径等进行统计分析,如频率和平均值。虽然缺乏深度,但仍可用于改进网站的结构,增强系统安全性,提高网站的访问效率。

  ⑦协同过滤。协同过滤技术使用最近邻技术,利用客户的历史和偏好信息来计算用户之间的距离。目标客户对特色产品的偏好是通过最近邻对产品的评价加权平均计算得出的。

  (三)最后进行模型分析。

  模式分析。在以上所有过程的基础上,进一步分析原创数据,找出用户的浏览模式,即用户的爱好和习惯,并将其可视化,为网页规划和网站构建决策提供具体的理论依据。根据。主要方法有:使用SQL查询语句进行分析;将数据导入多维数据立方体,使用OLAP工具进行分析,并提供可视化的结果输出。(分类模式挖掘、集群模式挖掘、时间序列模式挖掘、序列模式挖掘、关联规则等)

  四、 关联规则

  (一) 关联规则

  顾名思义,关联规则挖掘技术用于发现数据库中属性之间的有趣联系。一般用支持度和置信度两个参数来描述关联规则的属性。

  (二)Apriori 方法介绍

  Apriori 算法最早由 Agrawal 等人提出。1993年。其基本思想是:首先找出所有超过最小支持度的支持项集,并使用频繁(k—1)-item set generation Candidate频繁k-itemsets;其次,使用大项集生成必要的规则;任何频繁项集的子集都必须以频繁项集为核心。

  Apriori 算法需要两个步骤:第一步是生成一个项目集;二是利用生成的项集创建关联规则集。当我们将最小置信度设置为 85% 时,通过关联规则的形成和相应置信度的计算,我们可以得到以下有用信息:

  1.当置信度大于最小置信度时:我们可以认为当用户组浏览相关网页时,列出的链接是非常相关的。它们是用户群的共同爱好。布局的调整,从某种意义上来说,可以带来更高的点击率和潜在客户;

  2.当置信度小于最小置信度时:我们可以认为用户组与呈现的链接没有太多关联,或者关联规则中的链接在争夺用户。

  五、网站中文网络日志挖掘内容

  (1)网站的汇总统计。网站的汇总统计包括分析覆盖的时间、总页数、访问次数、会话数、独立访问者的数量,以及平均和最高访问量。上周的访问量,昨天的访问量和其他结果集。

  (2)内容访问分析。内容访问分析包括访问次数最多和最少的页面、访问最多的路径、访问最多的新闻、访问最多的时间等。

  (3)客户信息分析。客户信息分析包括访问者来源省份统计、访问者浏览器和操作系统分析、访问的页面或网站、来自IP地址和访问者使用的搜索引擎。

  (4)访客活动周期行为分析。访客活动周期行为分析包括每周7天、每天24小时、每周最多访问天数、每天最多访问时间段等。

  (5)主要访问错误分析。主要访问错误分析包括服务器错误、页面未找到错误等。

  (6)网站列分析。网站列分析包括自定义渠道和列设置,统计每一列的访问量,并进行分析。

  (7)业务网站扩展分析。业务网站扩展分析是针对专题或多媒体文件或下载的访问分析。

  (8)有4个方向可供选择:①跟踪用户点击行为,点击流研究;②网页间关联规则研究;③网站研究中各个渠道的浏览方式研究;④聚类和根据用户浏览行为细分用户;(如果能结合现有的互联网产品和应用,提出自己的一些建议和意见,会更有价值。)

  (9) 发现用户访问模式。通过分析和探索Web日志记录中的规则,我们可以识别电子商务的潜在客户,提高对最终用户的服务质量,提高Web服务器系统的性能.

  (10)反竞争情报活动。反竞争情报是企业竞争情报活动的重要组成部分。

  六、相关软件和算法

  (一) 相关软件:

  1.数据挖掘专用软件唤醒。

  2.使用OLAP工具

  3.一些企业开发了商业网站用户访问分析系统,例如CommerceTrends3.0,让电子商务网站更好地了解其网站访问者的行为,帮助网站采取一些行动将这些访问者转变为客户。CommerceTrends 主要由 3 部分组成:Report Generation Server、Campain Analyzer 和 Webhouse Builder。

<p>4.的Accrue Insight,是一款综合性的网络分析工具,可以对网站的运营状态进行深入、细致、准确的分析,通过分析客户的行为模式来帮助

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线