搜索引擎优化毕业论文(国内多个招聘网站利用定制的Heritrix进行数据抓取,程序)

优采云 发布时间: 2021-12-13 11:29

  搜索引擎优化毕业论文(国内多个招聘网站利用定制的Heritrix进行数据抓取,程序)

  [摘要]:随着信息的快速膨胀和信息的多样化,传统搜索引擎需要采集、索引、查询内容不断扩展。因此,即使面对搜索到的信息,我们也需要在大量不相关的信息中努力寻找所需的信息。垂直搜索引擎面向特定的专业领域,不会像一般搜索引擎那样检索大量无关信息,提高了查询效率,让用户能够更快地查询到自己需要的信息。即垂直搜索引擎在针对性、准确性、及时性等方面都优于传统搜索引擎。随着互联网的发展,越来越多的人依靠互联网的便利和海量的信息开始网上找工作,所以人们需要招聘网站或工作网站关注相关招聘信息,在为了方便人们更好地在线求职,本文提出基于Lucene和Heritrix设计构建一个求职垂直搜索引擎。本文讨论和研究了求职垂直搜索引擎的相关原理、技术和基本实现过程。针对国内多个招聘网站,使用定制的Heritrix进行数据抓取,将抓取到的网页信息进行结构化,然后在Lucene的基础上构建并存储结构化的信息,从而构建一个职位搜索信息的垂直搜索引擎。系统在需求分析和设计阶段采用MDA(Model Driven Architecture)指导程序开发,并使用开源工具包Heritrix和Lucene实现程序的开发。整个系统大致分为四个部分:信息抽取模块、爬虫模块、索引模块和用户搜索模块。在爬虫模块中,基于对Heritrix的理解,建立了符合系统需求的自定义爬虫程序;在信息抽取模块中,HtmlParser 用于分析网页信息。在本文中,位置节点的概念用于正确构造信息。在索引模块中,将数据库存储和索引存储结合起来,提高系统性能;在用户搜索模块中,

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线