搜索引擎优化毕业论文( 如何查找这些深层网页成为现代网络搜索引擎发展的一个重要课题)
优采云 发布时间: 2021-10-24 14:26搜索引擎优化毕业论文(
如何查找这些深层网页成为现代网络搜索引擎发展的一个重要课题)
网络搜索引擎技术发展方向分析与研究
摘要:随着网络的不断发展,对高速有效的信息检索系统的需求变得越来越迫切。本文分析了网络检索的核心技术——搜索引擎,找出了影响其检索效果的技术瓶颈。在综合考虑当前搜索引擎发展趋势的基础上,指出了网络搜索引擎未来的发展方向。
关键词:搜索引擎;深网; 垂直搜索
中文图书馆分类号:TP311 文献识别码:A
一、介绍
随着网络技术的发展,网络搜索引擎近年来得到了发展,已经成为一个巨大的全球化信息空间和最便捷的信息检索工具。互联网上有很多搜索引擎,比较有名的有AltaVista、雅虎、百度、新浪、天网。但目前搜索引文索引的网页大多为表层页面。据研究,Web中的深层页面[1](deep Web),如:需要访问权限的网页、访问网络数据库、查询和调用、图像、音频、视频等多媒体文档的返回页面Internet 上各种格式的文档、软件等,大约是可见网页大小的 400 到 500 倍。所以,
以下是2010年CNNIC网民使用互联网产品的比例[2]:
从以上数据可以看出,如今的网民越来越依赖搜索引擎。可以说,它们与互联网上的搜索是完全分不开的。搜索引擎的地位越来越高,同时对自己的技术要求也越来越高。爬得越高,不仅收录的信息量会更大,爬取和查询处理的速度也必须大大提高,才能提升它的用户体验。正因为如此,出现了许多Web信息检索系统(可以为用户提供信息检索服务)。最著名的是谷歌、雅虎、AltaVista、Infoseek 等。
网民使用互联网产品的比例
快速有效的网络信息检索系统的出现,为数字图书馆、电子商务和远程教育显示了广阔的前景。但在使用过程中,随着互联网的飞速发展,网络技术的不断变革,新的网络服务不断推出,人们逐渐发现并意识到其局限性和不足。因此,网络搜索引擎技术的发展方向成为计算机技术和信息与图书馆信息检索技术研究的热点。
2 搜索引擎技术分析
搜索引擎是随着网络信息的快速增长而逐渐发展起来的一项技术。它是为解决“信息迷航”问题而发明的技术。搜索引擎使用一定的策略来采集和发现互联网上的信息,并对信息进行理解、提取、组织和处理,为用户提供搜索服务,从而达到信息导航的目的。每个搜索引擎的具体实现不尽相同,但一般由5个基本部分组成:机器人、分析器[3]、索引器、检索器和用户界面。搜索引擎的技术分析也主要从这些方面入手。
搜索者的功能是在互联网上漫游、查找和采集信息。它通常是一个全天候运行的搜索引擎服务器端计算机程序。始终尽可能多地、快速地采集网站各类新信息,并定期更新已采集的旧信息,避免死链接和无效链接。目前有两种采集信息的策略。(1)从一组起始网址开始,跟踪这些网址中的超链接(Hyperlink),以广度优先、深度优先或启发式的方式发现互联网上的信息。(2) Web空间分为域名、IP地址或国家域名,每个搜索者负责在一个子空间中进行穷举搜索。
分析器利用一定的策略,对搜索者从互联网上采集和发现的信息进行理解、提取、组织和处理,为用户提供检索服务,从而达到信息导航的目的。根据信息采集和服务提供方式的不同,搜索引擎系统可以分为三大类:目录搜索引擎、机器人搜索引擎和元搜索引擎。
索引器的作用是从搜索器搜索到的信息中提取索引项,建立索引表来表示文档,生成文档库。索引项有两种:客观索引项和内容索引项:客观索引项与文档的语义内容无关,如作者姓名、URL、更新时间、编码、长度、链接流行度等。 ; 内容索引项用于反映文档的内容,如关键词及其权重、词组、词等。 内容索引项可分为单索引项和多索引项(或词组索引项) . 单索引条目是英文的英文单词,因为单词之间有自然的分隔符(空格),所以更容易提取;
检索器根据用户的查询需求快速查询索引数据库中的文档,评估文档与查询需求的相关性,按照一定的规则对输出结果进行排序,并将信息反馈给用户。检索者常用的信息检索模型有四种:集合论模型、代数模型、概率模型和混合模型。
用户界面的作用是输入用户查询,显示查询结果,提供用户相关性反馈机制。主要目的是方便用户使用搜索引擎,以多种方式高效、及时地从搜索引擎中获取有效、及时的信息。用户界面的设计和实现采用人机交互的理论和方法,充分适应人类的思维习惯。
3、搜索引擎的技术瓶颈
面对互联网发展的新技术、新形势,搜索引擎的难点主要集中在搜索者和分析者上,包括以下几点: 1) 是否支持并发数据捕获?如果要同时进行,必须保证所有采集器都可以合作采集,不会出现采集的重复。2)解决采集重复数据删除,只需要采集一个网站更新数据。3)对于需要cookie数据的网页,如何采集,部分网站需要通过cookie数据登录网站。4) 解决自动识别码验证问题,部分网站密集访问请求会被拒绝进行技术处理。5) 解决flash、JS、视频等内容采集技术。目前,搜索引擎还不能详细抓取上述内容,只能根据内容的文字描述来判断内容的性质。6) 大量数据的存储也是一个难点。据说谷歌的存储是自研架构,没有用到数据库。因为在一定程度上还是会损失数据库的查询效率,所以可以使用数据块模式,然后通过散列表的模式连接。7)内容管理系统(cms)的出现,满足了人们在不懂技术的情况下创建、发布、更新网站的需求,可惜真正能做到友好的很少。cms 该系统将使搜索引擎优化更难优化站点内各个页面的标题和其他元标记。8)提高信息抓取的数量和速度。互联网是一个动态的内容网络,每天都有无数的页面被更新和创建。搜索引擎想要向用户展示互联网上的最新信息,就必须不断地抓取互联网上最新更新的内容。9)判断用户意图与智能开发,实现用户意图判断与智能开发。每天都有无数的页面被更新和创建。搜索引擎想要向用户展示互联网上的最新信息,就必须不断地抓取互联网上最新更新的内容。9)判断用户意图与智能开发,实现用户意图判断与智能开发。每天都有无数的页面被更新和创建。搜索引擎想要向用户展示互联网上的最新信息,就必须不断地抓取互联网上最新更新的内容。9)判断用户意图与智能开发,实现用户意图判断与智能开发。
4、搜索引擎技术指标的开发
搜索引擎评价指标[5]直接关系到参与系统的最终评价。不合理的指标会导致对系统的不合理评价。因此,标准化评估会议在评估指标的选择上非常谨慎。早期常用的评价指标有precision、recall、F1值等,其含义如下:
召回率=系统检索到的相关文档数/相关文档总数
准确率=系统检索到的相关文件数/系统返回的文件总数?
显然,召回率考察的是系统找到完整答案的能力,而准确率考察的是系统找到答案的能力。两者相辅相成,从两个不同的方面更全面地反映系统性能。F1值是一个结合准确率和召回率的指标。考虑到不同系统在某些情况下的准确率和召回率不同,论文联盟不方便直接比较,可以更直观地利用F1值对系统性能进行排序。
P@10 是系统为该主题返回的前 10 个结果的准确率。考虑到用户在查看搜索引擎结果时,往往希望能在第一页(一般是10条结果)找到自己需要的信息,所以设置了这样一个拟人化的指标。P@10 往往能反映系统在真实应用环境中的性能。.