搜索引擎优化毕业论文(企业搜索引擎系统,构建一个,系统综合运用其他技术,)
优采云 发布时间: 2021-11-23 16:13搜索引擎优化毕业论文(企业搜索引擎系统,构建一个,系统综合运用其他技术,)
【摘要】:随着信息化进程的加速和深入,越来越多的企业建立了自己的企业网站(Intranet),这样的网站的规模越来越大。类型越来越多,结果是用户越来越难从这些数据中找出自己感兴趣的信息。如果没有搜索引擎的帮助,似乎越来越不可能做到这一点。. 使用谷歌等大型商业搜索引擎提供的现场搜索功能当然也是一种选择,但它的设计目的是为了满足大多数企业现场搜索的共同需求。它缺乏个性化,还有一些其他的缺点,例如: ① 是 索引的内容有限:搜索引擎不会对网站的所有内容进行索引,通常只采集网页信息,不能采集文本、pdf、word等数据文件的信息或数据库数据;②更新慢:搜索引擎对网站的更新频率也有一定的周期,很多内容进入索引需要一定的时间;③内容不准确:搜索引擎需要从页面内容中提取文本数据,但这种机制难以避免数据重复。因此,企业越来越需要自己的站内搜索引擎,为用户提供更高质量的搜索服务。针对这一需求,本课题分析了企业搜索引擎开发的必要性和可行性。经过调查,最终决定使用Lucene,一个小巧、高效、以自由开源软件项目为核心,综合使用其他如文本提取。、数据库等技术做二次开发,构建企业搜索引擎系统。本文首先从发展、原理、评价指标等方面对搜索引擎进行了总体介绍,然后对中文分词、索引、检索等搜索引擎核心技术进行了更深入的研究,重点分析Lucene 的系统结构和分析、索引和检索原理。同时也研究了Ajax、DWR框架等搜索引擎系统的周边技术。最后,以Lucene为核心,对中科院ICTCLAS分词系统进行了适当修改,使其能够与Lucene结合使用。利用PDFBox、POI、HtmlParser、Ajax、数据库、Hibernate等技术,成功构建企业搜索引擎系统,实现pdf、word、HTML等非结构化数据的全文检索。