搜索引擎优化毕业论文(:石油主题搜索引擎的发展现状和工作原理和搜索策略)
优采云 发布时间: 2021-10-03 20:23搜索引擎优化毕业论文(:石油主题搜索引擎的发展现状和工作原理和搜索策略)
【摘要】近年来,我国石油工业信息化发展迅速,但用于石油专业信息检索的学科搜索引擎却寥寥无几。现有的搜索引擎相关技术大多面向综合搜索引擎,对学科信息检索的研究并不完善。因此,专业石油学科搜索引擎的研发具有重要的价值和意义。介绍了话题搜索引擎的发展现状和工作原理,阐述了话题爬虫的工作原理和搜索策略。在研究*敏*感*词*主题搜索引擎相关技术的基础上,分析了现有技术的不足,并提出了若干改进措施。分析石油主题网页生成DOM树,设计基于DOM的词共现模型。在该模型的基础上,根据共现信息对石油学科词汇进行扩充,从而构建石油学科词典。石油学科词典在原有词汇的基础上增加了更多的石油学科词汇,具有更加明显的石油学科特征。考虑各种因素对权重的影响,对TFIDF权重公式进行分解。以文本段为单位计算相似度,改进了N层向量空间模型的权重计算公式,降低了向量空间的维数。提出了一种基于反向链接上下文的自适应主题爬取策略。利用相关网页的反向链接上下文完善特征库,根据特征库计算链接的优先级值,优化链接优先级的计算。实验证明,在性能上,基于反向链接上下文的自适应算法优于基于链接上下文的传统算法,不存在话题漂移现象,达到了自适应效果。