wwwwoccom江汉大学本科毕业论文(最终版)相关文档资源

优采云 发布时间: 2021-06-12 20:23

  wwwwoccom江汉大学本科毕业论文(最终版)相关文档资源

  《全文搜索引擎的设计与实现-毕业论文.doc》由会员共享,全文可免费在线阅读。更多《全文搜索引擎的设计与实现——毕业论文(终版)》相关文档,请在棒棒文库(上亿篇)中搜索。

  1、这是DMOZ所有页面的列表(这是一个多MB的文件,所以这需要几分钟)。 wgethtt:rdfdmozorgrdfcontentrdfugzgunzicontentrdfugz 接下来选择这些页面的一些随机子集。 DMOZ 收录大约三百万个 URL。从每个 URL 中选择一个。这时候大概会有一个 URL:mkdirdmozbinnutchorgaachenutchtoo*敏*感*词*mozParsercontentrdfusubsetgtdmozurls。这个分析器也需要几分钟才能完成,因为它必须分析整个文件。最后,使用这些选定的 URL 来初始化 crawldb。 binnutchinjectcrawlcrawldbdmoz 现在拥有一个网络数据库,其中收录大约一个尚未获得的 URL。选择:从初始列表启动。人们不知道这个选项是创建一个初始列表并在 urls 目录中覆盖它。 binnutchinjectcrawlcrawldburls 由于DMOZ收录大量的URL,爬取对硬件和时间都有要求。下面将演示自定义事故列表引导的使用。假设当前工作目录一直是${NUTCH_RUNTIME_HOME}runtimelocal,首先创建一个文件夹custom,在c

  2、awldbcustom 接下来要做的是从 Internet 获取这些数据。它旨在定义爬行深度,然后将执行三轮爬行。第一轮抓取:第一轮抓取是抓取初始的URL集合,这里会抓取一个页面回来。爬取完成后,建议新爬取的页面中的URL,并更新crwaldb。第一轮爬取命令 binnutchgeneratecrawlcrawldbcrawlsegmentss=`*敏*感*词*crawlsegments*|tail`echo$sbinnutchfetch$sbinnutcharse$sbinnutchudatedbcrawlcrawldb$s 第二轮爬取:提取得分最高的页面,生成新的segment。第二轮爬取以第一轮为基础,爬取依据是更新后的crawldb。 wwwwoccom江汉大学本科毕业论文(设计)表第二轮抓取命令binnutchgeneratecrawlcrawldbcrawlsegmentstoNs=`*敏*感*词*crawlsegments*|tail`echo$sbinnutchfetch$sbinnutcharse$sbinnutchudatedbcrawlcrawldb$s第三轮抓取:第三轮抓取和第二轮抓取原理是一样的,从第二轮爬取的页面中提取URL

  3、utch 下载地址:htt:aacheetoakcomnutchaachenutchsrctargz 安装命令列表:从网上获取Nutch,将下载的aachenutchsrctargz解压到aachenutch目录下,编译完成后重新编译Nutch源码(使用Ant自动构建工具)完成后,会多出一个runtime文件夹,进入Nutch运行本地模式表Nutch安装命令wgethtt:aacheetoakcomnutchaachenutchsrctargztarzxvfaachenutchsrctargzcdaachenutchantcdruntimelocalbinnutchwwwwoccom江汉大学本科毕业论文(设计)图片检测Nutch环境到这一步,如果出现Nutch命令帮助信息,这意味着Nutch命令安装完成。爬取整个网络 爬取整个网络的目的是处理非常大的爬行,这些爬行可能需要数周时间才能完成并在许多机器上运行。这也允许在爬行过程中进行更多控制,以及增量爬行。最重要的是要记住,抓取整个网络并不一定意味着抓取整个万维网。整个网络的抓取可以限制为只抓取列出的你要抓取的网址。这是通过使用类似 using crawl 的命令

  在4、ustom 下创建文件网址。国内排名靠前的门户网站已经从网上提前准备好作为初始子集。表预取URLhtt:wwwsohucomhtt:wwwmocomhtt:wwwcntvcnhtt:wwwqqcomhtt:wwwcomhtt:wwwsinacomcnhtt:wwwifengcomhtt:wwweolecomcnwwwwoccom江汉大学本科毕业论文(设计)的htt:gbcricnhtt:wwwxinhuatht:wwwxinhuatht:wwwxinhuatht:wwwxinhuatht:wwwxinhtcomht:wwwxinhtcomht:wwwxinhtcomht:wwwxinhuat wwwxinmincnhtt:wwwjrjcomcnhtt :wwwshangducomhtt:wwwgmwcnhtt:wwwadmincom 表创建初始URL采集命令mkdircustomtouchurlsviurls将上面的URL复制到urls,保存退出。打算将爬取后的数据全部放入爬取目录。该表将custom中设置的URL注入crawldb binnutchinjectcrawlc

  5、随着公司规模的不断扩大,自身的信息化建设也在不断推陈出新。随着网页内容越来越多,迫切需要处理这些网页以便检索它们。一些公司也想建立自己的搜索引擎,就像中国的搜狗和百度,通过不断优化现有技术,他们也可以在路上创造一个搜索引擎的世界。随着公司规模的不断扩大,各种网页文字必然出现。目前比较好的方法是按需分类,即按分类手动搜索。然而,在现实生活中,并不是每个文档都能被正确分类。即使分类正确,一旦文档数量过大,检索起来就会很困难,而且会耗费大量的时间,而且可能无法找到所有的文档。如果你有一个单一站点或多个站点的全文搜索引擎,你会在几秒钟甚至几毫秒内找到你需要的内容,它也可以传达你想要帮助你通过别人找到的内容。比如我想找一个关于“软件生产计划”的文章。当你把这个想法告诉别人,让别人帮你找这个@k​​13@时,别人可能不明白你需要找什么“今年”“生产计划”或“软件生产计划样本”? 使用该系统,您可以通过调整关键字来快速检索您需要的任何内容。由于目前搜索引擎的快速发展,许多公司希望扩大搜索引擎业务,开始定制自己的搜索引擎。本系统中使用的所有系统都是免费的开源软件,您可以使用它们来定制符合您自己需求的搜索引擎功能。

  6、ge){svsetStartage(ic); svsetEndage(ic+);}else{svsetStartage(lastage); svsetEndage(lastage);}}} 我们来看看查询的效果。比如这里我想看看凤凰网的某条信息是否可以查询(搜索之前一定要确保已经抓取了凤凰网的数据并提交了索引)。打开凤凰首页,在“刘云山会见金正恩特使崔龙海”上找到文章。 wwwwoccom江汉大学本科毕业论文(设计)在申请基本查询页面输入关键词“金正恩特使”。由于我之前索引了多个门户网站,我可以看到查询关键字“金正恩特使”。在第二项中,我找到了我需要的目标。高级查询:高级查询服务也由 servlet 处理。 wwwwoccom江汉大学本科毕业论文(设计)高级服务接口高级服务只会通过关键词等,结合查询条件。总结本章主要介绍了系统的功能结构,包括Solr返回的XML消息、消息对应的实体类型、系统所需的软硬件环境、系统运行状态等。每个步骤都以截图或表格的形式进行解释,以方便读者理解。由于上一章已经对技术框架进行了介绍,因此本章仅围绕我们的具体系统说明如何使用它们。 wwwwoccom 江汉大学本科

  7、STATUSqtimeint 本次查询所需的毫秒数 querystrString 用户输入的关键字表 对应的结果实体(ResonseHeader) 属性名称 类型 备注 numFoundlong 本次找到的记录数 startlong 查询开始项位置 itemsListItem 集合表条目实体(Item)属性名称类型备注摘要字符串文档摘要wwwwoccom江汉大学本科毕业论文(设计)contentString网页内容titleString网页标题segmentString数据段boostString文档摘要MD值idString网页id,一般同urlurlString连接地址authorList连接锚点集合versionString文档版本号表对应头实体(Document)属性名称类型备注resonseHeaderResonseHeader响应头实体resonseResultResonseResult对应内容实体实体之间的关系这些实体类型之间的关系是组合关系:DocumentResonseHeaderItemResonseResult系统实现系统所需的环境硬件需要P以上的主机,M以上的内存,G以上的硬盘空间,软件环境操作系统:Linu

  8、hasNext();){itemgetAnthor()add(iteratornext());}}itemsetBoost(docgetFieldValue(quotboostquot)toString()); itemsetSegment(docgetFieldValue(quotsegmentquot)toString()); itemsetVersion(docgetFieldValue(quot_version_quot)toString()); resultgetItems()add(item);}setDocumentdocument=newDocument();文档集ResonseHeader(标题); documentsetResonseResult(result);}catch(Excetione){erintStackTrace();}returndocument;}rivatevoidsetPage(intic, longnumFound){intlastage=(int)(numFound+); svsetLastage(lastage); if(ic=amamicltlasta

  9、 可以自定义以提高搜索引擎效率。这时,系统提供了一个很好的例子。小结 本章介绍了系统的范围、需要实现的功能以及可行性分析和决策。让读者了解这个系统会做什么,会用什么样的方案来做,以及这个系统会带来什么好处。为了更好地介绍系统,还必须了解系统使用的框架,才能更好地了解系统的内部实现。 wwwwoccom 江汉大学本科毕业论文(设计)全文搜索引擎系统设计与实现系统设计的任务是根据系统分析提出的逻辑模型,科学合理地设计物理模型,考虑实际情况,确定物理模型。系统的实施方案,解决如何去做的问题。系统功能图 本系统仍按传统搜索引擎划分为三个模块,即爬虫模块、处理模块、检索模块。如图所示: 图系统功能图 图系统功能图 wwwwwwoccom 江汉大学本科 根据SolrJ返回的消息,毕业论文(设计)系统实体设计实体将实体划分为对应的头实体(ResonseHeader),对应的结果实体(ResonseResult)、项目实体(Item)、文档实体(Document)如图所示。实体。图Solr查询返回XML消息格式实体对应头实体(ResonseHeader)属性名称类型备注statusint检查的属性表

  10、令时的过滤器完成。 Nutch 数据由这些组成:爬取数据库,或 crawldb。它收录有关 Nutch 已知的每个 URL 的信息,包括它是否已被获取,甚至何时被获取。链接数据库,或linkdb。它收录指向每个已知 URL 的链接,包括源 URL 和链接的锚文本。一系列片段或片段。每个段是作为一个单元获取的一组 URL。 Segments 是它自己的目录和它的子目录:  crawl_generate 决定了一组要获取的 URL;  crawl_fetch 收录获取到的每个 URL 的状态; 一个内容收录从每个URL中检索到的原创内容;  一个arse_text 收录每个URL 的解析文本;  一个arse_data 收录每个URL 解析后内容的外部链接和元数据;  crawl_arse 收录外部链接的 URL,用于更新 crawldb。 wwwwoccom江汉大学本科毕业论文(设计)使用一组URL列表来确定crawldb选择:从DMOZ数据库启动。通过注入器将 URL 添加到 crawldb。您可以从 DMOZ 开放类别目录中添加 URL。您必须先下载并解压

  11、x开发工具:Eclise框架库Lucene:htt:本科毕业论文江汉大学aachefayeacomaachemirrorlucenejavalucenesrctgzwwwwoccom(设计)nutch:htt:aacheetoakcomnutchaachenutchsrctargzHadoo:htt:htt:mirrorbjtueducnaachehadootcommonzHadoo:htt:mirrorbjtueducnaachehadootcommonzhtt:mirrorbjtueducnaachehadootcommonz开发工具isht:mirrorbjtueducnaachehadootcommongzht 开发工具ishtegmsegmshegclmshdgzhdglzhd 开发工具,它是基于JAVA平台的面向对象,它采用面向对象的分析和设计方法,在开发过程中可以很好地利用面向对象的特点,从而减少了编程量,它可以保持界面的一致性和操作的相似性,使系统具有集成性,从而提高系统开发效率。系统中Nutch的配置需要在使用Nutch之前下载并配置Nutch。下面以CentOS操作系统为例,介绍Linux下Nutch的安装和配置。安装Nutch之前,首先要确保本机安装了JDK、ANT等环境。这些环境的安装这里就不介绍了。

  12、,crawldb 会更新。第三轮爬取命令 binnutchgeneratecrawlcrawldbcrawlsegmentstoNs=`*敏*感*词*crawlsegments*|tail`echo$sbinnutchfetch$sbinnutcharse$sbinnutchudatedbcrawlcrawldb$s 经过三轮爬取,数据库已经获得了数千个网页。接下来要做的是索引他。 );Stringtar=formatformat((Date)docgetFieldValue(quotts​​tamquot));itemsetTstam(tar);itemsetSegment(docgetFieldValue(quotsegmentquot)toString());wwwwoccom江汉大学本科毕业论文(设计)itemsetUrl(docgetFieldValue(quoturlquot)toString()); Listas=(ArrayList)docgetFieldValue(quotanchorquot); if(as!=null){for(Iteratoriterator=asiterator();iterato

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线