搜索引擎优化毕业论文(第一章课题背景知识搜索引擎技术的发展历史(10))

优采云发布时间: 2022-04-20 03:05

　　第1章学科背景知识第1节搜索引擎原理第2节搜索引擎分类第3节搜索引擎技术发展历史第4节搜索引擎现状第5节搜索引擎前景第2节技术解读（10)节1 HTTP和HTML(10)Section 2 Web Spider(11)Section 3网页噪声(13)Section 4页面分析(13)Section 5中文分词) (16)Section 6 布尔代数(19)Section 7 CGI(19)Section 8 SOCKECT 网络编程(20)Chapter 3 TOKING 海量网页搜索系统架构和实施（21)Section 1 结构设计（21)Section 2 数据流程图（22)Section 3 网页捕获）参与（31)Section 4 网页预处理部分（35)Section 5 信息查询服务部分（42)Section 6 用户反馈（46)Section 4） Section 7 功能扩展（46)Section 8 优化用户体验（ 50)第4章系统评估（52)第1节爬取速度（52)第5节）第2节分词效率（52)第3节搜索评估（ 53)参考文献（56)本科毕业项目第一章项目背景知识 1970年代中期，美国国防部高级研究计划局（DefenseAdvancedResearchProjectsAgency）开始了互联网技术的研究。 WWW（WorldWideWeb）自1989年诞生以来，在过去的二十年里发展迅速。它已成为人类社会信息资源的重要组成部分，越来越多的社会信息资源主体开始选择Web作为其载体。

　　著名的netcraft（viaDigg）刚刚完成了最新的互联网调查，结果显示，截至2006年6月31日，互联网上共有80,655,993个网站。仅在 6 月份，全球网站的数量就增加了 310 万。而2003年这表明互联网上网站的数量在过去3年里翻了一番，而且增长速度惊人。著名的网站排名国际网站月刊收录全球约有34762836735个网址。因此，人们在信息海洋中搜索所需信息的能力变得越来越重要，搜索引擎成为人们在互联网上检索信息的必备工具。第一节搜索引擎原理搜索引擎应定位为计算机应用软件系统，或网络应用软件系统。从网络用户的角度出发，根据用户提交的类自然语言查询词或短语，返回一系列可能与查询相关的网页信息，供用户进一步判断和选择。为了高效地做到这一点，它大致分为三个子系统；即网页采集、网页预处理和查询服务。网页采集主要负责网页的爬取，由URL服务器、爬虫、内存、分析器和URL解析器组成。爬虫是这部分的核心；网页预处理主要负责分析网页内容和索引文档并存储在数据库中，它由索引器和分类器组成。这个模块涉及到很多文件和数据，bucket的操作是这部分的核心；查询服务主要负责分析用户输入的搜索表达式，匹配相关文档，将检索结果返回给用户，由查询者和网页等级评估器组成，网页等级的计算是核心这部分。

　　搜索引擎的主要工作流程是：首先从spider启动，spider程序自动启动并定时读取网页URL服务器上的URL列表，按照深度优先的方式爬取指定的URL或广度优先算法。网站，为爬取的网页分配一个唯一的文档，并将其存储在文档数据库中。并将当前页面上的所有超链接存储到 URL 服务器中。在爬取的同时，分词器和索引器将已经爬取的网页文档处理成词，并根据词在网页中出现的位置和频率计算权重，然后将分词结果存入索引库整个爬取和索引工作完成后，更新整个索引库和文档库，让用户可以查询到最新的网页信息。查询器首先对用户输入的信息进行分词，检索出所有收录搜索词的记录，通过计算网页的权重和级别对查询记录进行排序，并进行集合操作，最后从文档中提取出每条记录数据库。将网页的概要信息反馈给查询用户。 UR 图1-1-1 搜索引擎总体总体体系结构第二节搜索引擎的分类搜索引擎按其工作方式可分为三类，即全文搜索引擎（FullTextSearchEngine）、目录索引搜索引擎（ SearchIndex/ 目录）和 MetaSearchEngine。一、全文搜索引擎全文搜索引擎是名副其实的搜索引擎。国外比较有代表性的是GoogleFast/AllTheWeb、AltaVista、Inktomi、Teoma、WiseNut等，国内比较有名的是百度（Baidu）。

　　它们都是通过从互联网上提取每个网站（主要是网页文本）的信息，检索出符合用户查询条件的相关记录，然后按照一定的顺序排序而建立的数据库。结果返回给用户，因此它们是一个真正的搜索引擎。本科毕业设计图1-2-1 世界著名的全文搜索引擎LOGO二、目录索引目录索引虽然有搜索功能，但严格意义上不是真正的搜索引擎，只是分类仅按目录网站链接列表。用户完全不用搜索关键词（关键字）就可以找到他们需要的信息。最具代表性的目录索引是大名鼎鼎的 Yahoo!其他著名的还有 OpenDirectoryProject (DMOZ)、LookSmart、About 等。国内搜狐、新浪、网易搜索也属于这一类。图1-2-2 世界著名目录索引LOGO三、元搜索引擎（METASearchEngine）元搜索引擎在接受用户查询请求时，同时在多个其他引擎上进行搜索，并将结果返回给用户。著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等，其中代表性的中文元搜索引擎是搜星搜索引擎。在排列搜索结果方面，有的直接按照源引擎排列搜索结果，如Dogpile，有的按照自定义规则重新排列，如Vivisimo。

　　四、除了以上三类引擎，还有以下非主流形式：（一）集合搜索引擎：如HotBot在2002年底推出的引擎. 这个引擎和META Search引擎有点类似，但不同的是，它不是同时调用多个引擎进行搜索，而是用户从提供的4个引擎中进行选择，所以称其为“集体”搜索引擎更为准确. (二）门户搜索引擎：比如AOLSearch、MSNSearch等虽然提供搜索服务，但既没有目录也没有网络数据库，搜索结果来自其他引擎。(三） FreeAllLinks，简称FFA）：这种类型的网站一般只是对链接项进行简单的滚动排列，少数有简单的分类，但规模远小于Yahoo等目录索引. (四）垂直搜索引擎：有针对性的搜索引擎。一个可能有上千条结果搜索，而在这个庞大的信息群中，有用的信息只是其中的一小部分。一般搜索引擎的弊端在网络信息快速膨胀下凸显，搜索难度越来越大，控制、用户需求和市场服务之间的巨大反差造成了强烈的“搜索噪音”，垂直搜索引擎已经成为搜索引擎本科毕业设计发展史上的里程碑。第三节搜索引擎技术发展历程互联网发展初期，网站比较少，信息搜索比较容易。然而，随着互联网的爆发式发展，普通网民就像大海捞针一样。网站它应运而生。现代意义上的搜索引擎的鼻祖是阿尔奇，他是 1990 年被蒙特利尔大学的学生艾伦·埃姆塔奇发现的。虽然 WorldWideWeb

0

2022-04-20

搜索引擎优化毕业论文

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

搜索引擎优化毕业论文(第一章课题背景知识搜索引擎技术的发展历史(10))

0 个评论

发起人