搜索引擎优化毕业论文(第一章课题背景知识搜索引擎技术的发展历史(10))

优采云 发布时间: 2022-04-20 03:05

  搜索引擎优化毕业论文(第一章课题背景知识搜索引擎技术的发展历史(10))

  第1章学科背景知识第1节搜索引擎原理第2节搜索引擎分类第3节搜索引擎技术发展历史第4节搜索引擎现状第5节搜索引擎前景第2节技术解读(10)节1 HTTP和HTML(10)Section 2 Web Spider(11)Section 3网页噪声(13)Section 4页面分析(13)Section 5中文分词) (16)Section 6 布尔代数(19)Section 7 CGI(19)Section 8 SOCKECT 网络编程(20)Chapter 3 TOKING 海量网页搜索系统架构和实施(21)Section 1 结构设计(21)Section 2 数据流程图(22)Section 3 网页捕获) 参与(31)Section 4 网页预处理部分(35)Section 5 信息查询服务部分(42)Section 6 用户反馈(46)Section 4) Section 7 功能扩展(46)Section 8 优化用户体验 ( 50)第4章系统评估(52)第1节爬取速度​​(52)第5节)第2节分词效率(52)第3节搜索评估( 53)参考文献(56)本科毕业项目第一章项目背景知识 1970年代中期,美国国防部高级研究计划局(DefenseAdvancedResearchProjectsAgency)开始了互联网技术的研究。 WWW(WorldWideWeb)自1989年诞生以来,在过去的二十年里发展迅速。它已成为人类社会信息资源的重要组成部分,越来越多的社会信息资源主体开始选择Web作为其载体。

  著名的netcraft(viaDigg)刚刚完成了最新的互联网调查,结果显示,截至2006年6月31日,互联网上共有80,655,993个网站。仅在 6 月份,全球 网站 的数量就增加了 310 万。而2003年这表明互联网上网站的数量在过去3年里翻了一番,而且增长速度惊人。著名的网站排名国际网站月刊收录全球约有34762836735个网址。因此,人们在信息海洋中搜索所需信息的能力变得越来越重要,搜索引擎成为人们在互联网上检索信息的必备工具。第一节搜索引擎原理搜索引擎应定位为计算机应用软件系统,或网络应用软件系统。从网络用户的角度出发,根据用户提交的类自然语言查询词或短语,返回一系列可能与查询相关的网页信息,供用户进一步判断和选择。为了高效地做到这一点,它大致分为三个子系统;即网页采集、网页预处理和查询服务。网页采集主要负责网页的爬取,由URL服务器、爬虫、内存、分析器和URL解析器组成。爬虫是这部分的核心;网页预处理主要负责分析网页内容和索引文档并存储在数据库中,它由索引器和分类器组成。这个模块涉及到很多文件和数据,bucket的操作是这部分的核心;查询服务主要负责分析用户输入的搜索表达式,匹配相关文档,将检索结果返回给用户,由查询者和网页等级评估器组成,网页等级的计算是核心这部分。

  搜索引擎的主要工作流程是:首先从spider启动,spider程序自动启动并定时读取网页URL服务器上的URL列表,按照深度优先的方式爬取指定的URL或广度优先算法。 网站,为爬取的网页分配一个唯一的文档,并将其存储在文档数据库中。并将当前页面上的所有超链接存储到 URL 服务器中。在爬取的同时,分词器和索引器将已经爬取的网页文档处理成词,并根据词在网页中出现的位置和频率计算权重,然后将分词结果存入索引库整个爬取和索引工作完成后,更新整个索引库和文档库,让用户可以查询到最新的网页信息。查询器首先对用户输入的信息进行分词,检索出所有收录搜索词的记录,通过计算网页的权重和级别对查询记录进行排序,并进行集合操作,最后从文档中提取出每条记录数据库。将网页的概要信息反馈给查询用户。 UR 图1-1-1 搜索引擎总体总体体系结构 第二节搜索引擎的分类 搜索引擎按其工作方式可分为三类,即全文搜索引擎(FullTextSearchEngine)、目录索引搜索引擎( SearchIndex/ 目录)和 MetaSearchEngine。 一、全文搜索引擎 全文搜索引擎是名副其实的搜索引擎。国外比较有代表性的是GoogleFast/AllTheWeb、AltaVista、Inktomi、Teoma、WiseNut等,国内比较有名的是百度(Baidu)。

  它们都是通过从互联网上提取每个网站(主要是网页文本)的信息,检索出符合用户查询条件的相关记录,然后按照一定的顺序排序而建立的数据库。结果返回给用户,因此它们是一个真正的搜索引擎。本科毕业设计 图1-2-1 世界著名的全文搜索引擎LOGO二、 目录索引 目录索引虽然有搜索功能,但严格意义上不是真正的搜索引擎,只是分类仅按目录 网站 链接列表。用户完全不用搜索关键词(关键字)就可以找到他们需要的信息。最具代表性的目录索引是大名鼎鼎的 Yahoo!其他著名的还有 OpenDirectoryProject (DMOZ)、LookSmart、About 等。国内搜狐、新浪、网易搜索也属于这一类。图1-2-2 世界著名目录索引LOGO三、元搜索引擎(METASearchEngine) 元搜索引擎在接受用户查询请求时,同时在多个其他引擎上进行搜索,并将结果返回给用户。著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等,其中代表性的中文元搜索引擎是搜星搜索引擎。在排列搜索结果方面,有的直接按照源引擎排列搜索结果,如Dogpile,有的按照自定义规则重新排列,如Vivisimo。

  四、除了以上三类引擎,还有以下非主流形式:(一)集合搜索引擎:如HotBot在2002年底推出的引擎. 这个引擎和META Search引擎有点类似,但不同的是,它不是同时调用多个引擎进行搜索,而是用户从提供的4个引擎中进行选择,所以称其为“集体”搜索引擎更为准确. (二)门户搜索引擎:比如AOLSearch、MSNSearch等虽然提供搜索服务,但既没有目录也没有网络数据库,搜索结果来自其他引擎。(三) FreeAllLinks,简称FFA):这种类型的网站一般只是对链接项进行简单的滚动排列,少数有简单的分类,但规模远小于Yahoo等目录索引. (四)垂直搜索引擎:有针对性的搜索引擎。一个可能有上千条结果搜索,而在这个庞大的信息群中,有用的信息只是其中的一小部分。一般搜索引擎的弊端在网络信息快速膨胀下凸显,搜索难度越来越大,控制、用户需求和市场服务之间的巨大反差造成了强烈的“搜索噪音”,垂直搜索引擎已经成为搜索引擎本科毕业设计发展史上的里程碑。第三节 搜索引擎技术发展历程 互联网发展初期,网站比较少,信息搜索比较容易。然而,随着互联网的爆发式发展,普通网民就像大海捞针一样。 网站它应运而生。现代意义上的搜索引擎的鼻祖是阿尔奇,他是 1990 年被蒙特利尔大学的学生艾伦·埃姆塔奇发现的。虽然 WorldWideWeb

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线