Web具有四个特点:庞大性动态性、异构性、半结构化的数据结构环境

优采云 发布时间: 2021-08-19 19:18

  Web具有四个特点:庞大性动态性、异构性、半结构化的数据结构环境

  [摘要]:随着网络技术的飞速发展,WWW已成为信息发布、交互和获取的主要工具,涉及到新闻、广告、消费、金融、教育、电子商务等诸多领域。在。 Web 具有四个特征:庞大性、动态性、异构性和半结构化数据结构环境。此外,Web 还收录丰富的动态超链接资源。面对Web的这些固有特性,人们希望从这些海量数据中寻找数据和信息,而搜索引擎技术是最常用的。 Web挖掘包括三个方面:内容挖掘、结构挖掘和使用挖掘。本文主要涉及Web结构挖掘。结构挖掘是从WWW的组织结构、Web文档结构和链接关系中获取知识。在搜索引擎技术领域,可以通过分析一个网页或整个网站链接以及链接的数量和对象来建立网络自己的链接结构模型,并分析和研究PageRank、HITS、TSPR和其他基于链接结构的搜索。结果排名算法可以指导网站链接结构优化,有组织有计划地提高网页在搜索结果中的排名,避免盲目处理造成的混乱结果。本文重点介绍当前主流的PageRank算法,重点介绍算法的形成和计算方法,分析了算法在独立网站等几种模型下的效果,包括索引页,包括入站链接和出站链接,等,提出相应的优化策略。然后概述了Java版PageRank计算程序的总体思路,并给出了通过该程序验证这些优化策略的实验结果。最后,通过总结PageRank算法的优缺点,介绍了Topic Sensitive PageRank、Hilltop等算法并做了简要介绍。 Web挖掘是知识时代人们从大量信息中获取知识的需要。对于搜索报价

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线