整套解决方案:智能搜索引擎技术网页信息动态采集系统网页正文提取网页分类算法网页摘要..

优采云 发布时间: 2020-12-19 08:45

  整套解决方案:智能搜索引擎技术网页信息动态采集系统网页正文提取网页分类算法网页摘要..

  搜索引擎智能技术中若干关键问题的研究与实现[摘要]随着Internet技术的飞速发展和网络信息资源的爆炸性增长,Internet用户的数量也在以惊人的速度增长。越来越多的网民习惯于通过搜索引擎在Internet上检索信息。现在,搜索引擎已成为人们必备的网络应用工具。随着搜索引擎应用程序的广泛普及,人们不再满足于传统搜索引擎提供的服务。人们希望搜索引擎可以更智能,更人性化。检索结果可以更准确,这些新要求对搜索引擎技术提出了更高的要求。本文对当前作为研究热点的智能搜索引擎技术领域中的几个关键问题进行了探索性研究。内容主要包括:1)基于网站优先级调整算法提出并实现了网页信息动态采集技术,该技术通过检测广告的平均新鲜度的变化来动态调整网站的优先级。采样网页,以实现相应网站个网页信息采集的频率动态调整。2)研究了网页源代码中中文文本密度与网页主体之间的关系,提出并实现了一种基于文本密度的网页主体提取算法,并摆脱了现有的HTML网页主体提取算法(超文本标记语言),超文本标记语言)标签,并借助某些规则,以实现高效,快速地提取网页文本。3)研究了自动文本分类领域中的几个关键问题,并提出并实现了基于哈希表的动态矢量的更多还原。 [摘要]互联网技术飞速发展,网络信息资源爆炸性增长,互联网用户数量惊人。越来越多的Internet用户通过搜索引擎成为习惯的在线检索信息。搜索引擎的广泛应用,人们不再满足于传统的搜索引擎,搜索引擎更加智能,人类更加精确。新需求给人们带来了更多... [Recovery [关键词]智能搜索引擎技术;网页信息动态采集系统;网页文本提取;网页分类算法;网页摘要;矢量动态尺寸缩减; [关键词]智能搜索引擎技术;动态网页信息获取系统;网页文本提取;网页分类算法;网页摘要;矢量动态降维; [订购硕*敏*感*词*论文全文] Q联系人Q:138113721 139938848目录摘要4-5摘要5-6简介11-211.1主题选择的背景和意义11-121.2相关工作*敏*感*词*摘要12-191.2.1网页信息动态采集技术12-131.2.2中文网页文本提取技术13-151.2.3自动文档摘要技术15-171.2.4文本自动分类技术17-181.2.5网页重复数据删除技术18-191.3文书工作和组织结构19-211.3.1论文Lord研究工作19-201.3.2论文内容安排20-21基于网站优先级调整的网页信息动态采集算法21-27 2.1算法流程图21 -23 2.2网页新鲜度算法23 2.3 网站基于网页新鲜度的优先级调整算法23-25 2.4基于网站 pri的多线程网页信息ority 采集技术25-26 2.5根据网页类别确定优先级26 2.6本章摘要26-27基于文本密度的提取网页文本算法的研究27-33 3.1算法流程图27 3.2识别和文本特征识别处理27-28 3.3网页源代码的预处理28-29 3.4计算网页文本源行的中文密度29 3.5阻止网页的源代码29 3.6删除伪网页的源代码29 -31 3.7辅助网页的源代码文本识别方法31 3.8网页文本的原创格式保留31 3.9本章摘要31-33基于主题词索引的网页分类算法研究33-524.1概述33-344.2开放测试和封闭测试34-354.3算法性能评估指标35-364.4与网站分类算法相关的基础研究36-424.4.1文本的表示形式36-374.4.2基于向量模板37构造向量空间模型[k56]4.3基于哈希表37-39构造向量空间模型[k56]4.4主题词基于概念分析的抽取算法39-404.4.5改进的矢量余弦相似度算法40-424.5基于主题词索引的类别中心矢量分类算法42-464.5.1生成分类器模型434.5.2分类算法434.5.3向量的归一化434.5.4将类别数提高到分类精度Impact 43-444.5.5文档类别分布对分类准确性的影响444.5.6中心向量的校正算法44-464.5.7分类算法的适应性464.6 KNN(K最近邻)分类算法46 -484.7 CKNN(聚类K最近邻)分类算法48-504.8本章摘要50-52相似性研究基于ty的文本摘要52-64 5.1基于相似度的文本摘要52 5.2文档结构模型52 5.3分段和子句52-54 5.4主题词提取54-55 5.4.1主题词字符串的矢量化54 [k72]4.2建立文档结构向量空间模型54-55 5.5计算文档结构各部分的权重55-57 5.6正负规则57 5.7用户偏好词汇57 5.8基于句子相似度的句子冗余算法57-58 5.9确定摘要和原创文本的比例58 5.10摘要句子选择和摘要生成585.11抽象技术在提取中文网页摘要中的应用58-63 5.11.1预提取网页文本对提高摘要准确性的影响59-62 5.11.2提高摘要算法的实时性能62-63 5.12本章摘要63-64实验设计点火和数据分析64-886.1基于网站优先级调整的网页信息动态采集技术实验和积分65-70 [k108]1.1实验设计65-66 [k108]1.2数据分析66-69 [k108]1.3存在的不足和进一步的改进69-706.2基于中文密度算法的中文网页文本提取技术的实验和分析70-716.2.1实验设计706.2.2数据分析706.2.3存在的缺点和下一个改进工作70-716.3两种方法在对象71-74中的比较实验和两种文档矢量表示方法的分析6.3.1实验设计716.3.2数据分析71-746.4改进的余弦矢量相似度算法74-76的实验和分析[k108]4.1实验设计74 [ k108]4.2数据分析74-766.5基于主题心的类别中心向量分类算法的实验与分析ding 76-796.5.1实验设计766.5.2数据分析76-786.5.3存在的问题和下一步78-796.6实验和分析CKNN分类算法79-806.6.1实验设计79 [k1 08]6.2数据分析79-806.6.3存在的问题和下一步806.7实验设计和数据KNN分类算法的分析80-826.7.1实验设计80-816.7.2数据分析81-826.8类别中心向量分类算法,CKNN分类算法和KNN的性能比较分类算法82-836.8.1实验设计826.8.2数据分析82-836.9基于相似度的文档摘要技术的实验和数据分析83-856.9.1实验设计83-846.9.2数据分析84-856.9.3存在的问题和下一步856.10网络信息采集的实验和数据分析系统85-876.10.1实验设计85-866.10.2数据分析866.10.3存在的问题和下一步86-876.11本章摘要87-88 Web信息动态采集系统设计和实现88-95 7.1系统组成88-89 7.2系统模块的集成89-93 7.3网页分类模块的适应性93 7.4系统运行状态监视程序93 7.5基于主题词索引的网页重复数据删除方法93-94 7.6本章摘要94-95摘要95-97参考文献

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线