搜索引擎优化毕业论文(基于用户行为模式挖掘和异步数据规约的流程为思路)
优采云 发布时间: 2022-01-13 05:10搜索引擎优化毕业论文(基于用户行为模式挖掘和异步数据规约的流程为思路)
【摘要】 20世纪末以来,随着互联网产业的壮大和人类活动信息化进程的加快,人们的信息交流越来越频繁,如何进行有效的信息检索也成为人们面临的难题之一。搜索引擎技术的出现帮助人们走出了信息迷宫,实现了有效的信息检索,极大地改变了人们的工作和生活方式。目前,对搜索引擎技术的研究已不再局限于自身,对网络用户行为的研究也越来越受到关注。这是因为对网络用户行为进行系统深入的研究,有利于直接捕捉用户的外显需求,挖掘用户的隐性需求。与网络化和信息化相关的另一个挑战是如何处理海量数据。这不仅是对传统数据库服务器的存储方式的巨大挑战,也是对服务器CPU和IO的计算性能的严峻挑战,而Hadoop/Hive是当前非常适合解决此类问题的方法和工具。技术领域。基于上述情况,通过对大量文档的阅读和参考,以及对搜索引擎日志的产生和常用模型的详细分析,本文设计了一个海量搜索日志处理分析平台。具体包括四个部分:数据采集预处理模块、数据存储模块、数据分析模块和集群管理模块。其中,设计了一套基于用户行为模式挖掘的算法,对搜索引擎的日志进行分析处理;在平台监控模块中,实现对集群的监控和管理。以数据挖掘过程为思路,海量数据分析工具Hadoop为实验平台,MapReduce I映射/归约编程模型,简单实用的类SQLHIVE和HBase海量数据库处理海量日志。在各个分布式服务器中分解挖掘模式进行关联匹配,然后综合挖掘结果,从而减轻网络和服务器性能瓶颈的压力,体现异步挖掘和异步数据缩减的优势。最后通过搭建实验环境进行验证。这个平台。使用的数据是搜狗实验室提供的三个搜索引擎的日志样本(样本数据、单日数据、月度数据)。详细分析用户检索行为,优化平台性能,对比优化前后系统运行时间。实验数据表明,本文设计的测井分析平台具有良好的稳定性和有效性。