基于LUCENE的站内搜索引擎的设计与实现1.6万字

优采云 发布时间: 2021-06-14 22:00

  基于LUCENE的站内搜索引擎的设计与实现1.6万字

  基于LUCENE的站点搜索引擎的设计与实现

  1.6万字41页

  收录开题报告+任务书+答辩PPT+论文正文+主程序代码

  总结

  LUCENE[1] 是 Apache 软件基金会雅加达项目组的一个子项目。它是一个开源的全文搜索引擎工具包,也就是说它不是一个完整的全文搜索引擎,而是一个全文搜索引擎架构。 ,提供完整的查询引擎和索引引擎。 LUCENE 的目的是为软件开发者提供一个简单易用的工具包,以便在目标系统中轻松实现全文搜索功能,或者建立一个完整的全文搜索引擎。

  作为一个开源项目,LUCENE自成立以来,在开源社区引起了很大的反响。程序员不仅使用它来构建特定的全文搜索应用程序,还可以将它们集成到各种系统软件中。 ,以及构建Web应用程序,甚至一些商业软件也使用LUCENE作为其内部全文检索子系统的核心。 Apache 软件基金会的网站 使用 LUCENE 作为全文搜索引擎。 IBM 开源软件 eclipse 的2.1 版本也使用 LUCENE 作为帮助子系统的全文索引引擎。相应的IBM商业软件Web Sphere LUCENE也用在了。 LUCENE以其开源特性、优秀的索引结构、良好的系统架构获得越来越多的应用。

  这个系统的实际需求来自于我在公司实习期间开发的官方网站2007年世界特奥会。这个官方网站也用到了网站上的搜索引擎的功能。该搜索引擎由 LUCENE 使用。在.NET平台上实现,网站现在运行稳定,站内搜索使整个网站更加强大,为用户提供更便捷的搜索功能。

  本文对搜索引擎的原理、组成、数据结构、工作流程等做了深入细致的研究分析。并通过LUCENE设计并实现了一个全文搜索站点搜索引擎系统,最后通过增量索引和优化索引两个方面来说明如何提高LUCENE的效率。

  关键词:全文搜索,搜索引擎,LUCENE,雅加达

  基于LUCENE的站点搜索引擎的设计与实现

  摘要

  LUCENE是apache软件基金会jakarta项目组的一个子项目,是开源的全文搜索引擎工具包,不是完整的全文搜索引擎,而是一个完整的框架-文本搜索引擎,提供完整的查询引擎和索引引擎。 LUCENE旨在为软件开发人员提供一个简单易用的工具包,方便在目标系统中实现全文检索功能,或作为建立完整全文搜索引擎的基础。

  作为一个开源项目,LUCENE 出现后在开源社区引起了巨大反响。程序员不仅使用它来构建具体的全文检索应用程序,而且将其集成到各种系统软件中,构建Web应用程序,甚至一些商业软件也使用LUCENE作为其全文检索子系统的核心。 Apache Software Foundation 网站使用LUCENE 作为全文搜索引擎,LUCENE 用于帮助IBM 软件收入日蚀2.1 版本中子系统的全文索引引擎。作为IBM 相应的商业软件Web Sphere 也使用了LUCENE。 LUCENE以开源特性、优秀的索引结构、良好的系统架构获得越来越多的应用。

  这个系统的实际需求来源于我在企业实习时在“2007世界特奥会官网”上的开发。官网也使用了站内搜索引擎的功能,我在.NET平台下使用LUCENE实现了搜索引擎。现为稳定运行,站内搜索使整个站点的功能更加强大,为用户提供更便捷的搜索功能。

  本人仔细研究分析了搜索引擎的原理、组成、数据结构、工作流程,利用LUCENE设计并实现了一个全文检索站的搜索引擎。最后,我从增量指标和优化指标两个方面来说明如何提高LUCENE的效率。

  关键词:全文检索、搜索引擎、雅加达

  内容

  1.绪论1

  1.1项目背景1

  1.2 研究现状及存在问题2

  1.3 论文组织结构二

  2.全文搜索和LUCENE 3

  2.1 全文搜索及全文搜索介绍3

  2.2全文检索系统与数据库4的比较

  2.3 LUCENE 介绍 8

  2.4 LUCENE 应用、特点和优势 9

  2.5 互联网搜索引擎研究 10

  2.6 中文分词简介11

  3.LUCENE 系统结构12

  3.1 LUCENE系统结构组织12

  3.2 数据流分析12

  3.3 LUCENE索引文件格式解析14

  3.3.1 LUCENE源码解析解说14

  3.3.2 LUCENE 索引文件格式 14

  3.4 LUCENE的反向排序原理17

  3.5 LUCENE 搜索结果排名第 20

  4.系统设计与实现 21

  4.1 系统要求 21

  4.2开发环境和工具22

  4.3 系统组织结构24

  4.4 流程实现 25

  4.4.1 根据网站25中的不同模块创建动态索引

  4.4.2搜索界面26

  4.4.3 搜索结果界面27

  5.关键技术28

  5.1 LUCENE 增量索引 28

  5.2优化索引28

  5.3 LUCENE 文件格式的通用性 29

  5.4 私人文件的处理 31

  摘要 32

  谢谢 33

  参考文献 34

  附录 A 主要源程序 35

  参考资料

  [8] 彭宏辉,林作权。互联网上的搜索引擎与元搜索引擎[J].计算机科学

  [9] 曹远达等。中文Web文档全文检索系统的设计与实现[J].北京理工大学学报

  [10] 闫伟龙等。面向网络全文检索中索引文件的组织[J].

  计算机应用研究

  附录A主要源程序

  1、 生成静态索引

  IntranetIndexer writer = new IntranetIndexer(@"E:UsingWebGenSIndexForEnIndex");

  writer.AddDirectory(new DirectoryInfo(@"E:BackUpOutWebEnglish"), "*.aspx");

  writer.AddDirectory(new DirectoryInfo(@"E:BackUpOutWebEnglish"), "*.html");

  ......

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线