一元搜索引擎的关键技术摘要,你知道吗?
优采云 发布时间: 2021-04-06 03:13一元搜索引擎的关键技术摘要,你知道吗?
随着计算机网络技术的飞速发展,人们必须使用搜索引擎在Internet上的大量信息中找到所需的信息。搜索引擎已经成为人们获取信息的重要手段。以下是该研究编辑编写的搜索引擎的关键技术论文,希望您能从中获得一些见识!
有关搜索引擎的关键技术论文的论文1
关于元搜索引擎的关键技术
摘要:元搜索引擎可以解决传统搜索引擎覆盖范围不完全的问题,并且可以整合多个传统搜索引擎的优势。根据多个传统搜索引擎的结果集专门构建一个搜索引擎,以提高搜索服务的质量。元搜索引擎集成了多个成员搜索引擎的搜索结果,以提供其自己的搜索结果。在此过程中,它涉及一系列关键技术,例如查询转换,成员搜索引擎调度和搜索结果排名综合。
关键词:元搜索引擎;查询转换;引擎调度
中文图书馆分类号:TP393
元搜索引擎也称为集体搜索引擎。它没有自己的索引数据库或爬网机器人,仅充当中间代理。元搜索引擎集成了多个单个搜索引擎,提供了统一的搜索界面,将用户的搜索请求提交给多个独立的搜索引擎,并同时检索了多个数据库;以及对基于多个独立搜索引擎的搜索进行两次处理,例如重复数据删除和搜索结果排序;然后输出给用户,因为元搜索引擎集成了多个搜索引擎的搜索结果。元搜索引擎通常比传统搜索引擎具有更大的信息覆盖范围,并且可以有效地提高召回率。
元搜索引擎可以分为三个模块:用户请求端,后台业务逻辑处理模块和结果重新显示模块。用户请求端负责与用户交互,接收用户的请求,并将请求传递给后端服务模块进行处理。用户请求端还负责处理用户的个性化配置,例如配置成员搜索引擎的信任权重值等。后端业务逻辑处理模块的主要功能是将用户的请求转换成成员搜索引擎可以理解的模型,并在接收到成员搜索引擎返回的结果后,将进行分析,提取,排序和综合搜索结果。 。结果显示主要负责显示最终结果,同时提供一些附加效果以提供更好的用户体验,例如在细分后突出显示用户搜索关键字等[1]。
尽管元搜索引擎可以方便用户同时搜索多个搜索引擎,但在提高召回率的同时,还引入了一个新问题:对于特定的用户搜索,某些成员搜索引擎的准确率更高。而且有些具有极低的准确性,也就是说,成员搜索引擎的有效性存在很大差异。如果分类和合成算法处理不当,很容易使满足用户检索需求的搜索结果不堪重负。另外,元搜索引擎需要同时向多个成员搜索引擎发送请求并获取搜索结果,然后对搜索结果进行整合,这增加了时间损失和用户的搜索等待时间。因此,如何解决这两个问题是构建成功的元搜索引擎的关键。由于元搜索引擎的结果集成了多个成员搜索引擎的搜索结果,因此信息量通常相对较大。用户通常不会遍历所有结果,而只注意信息的前几页或前几页。如何尽可能地将用户需要的结果放在最重要的位置。元搜索引擎的排名综合是完成多个成员搜索引擎的搜索结果集成的模块。排名综合算法的优缺点将直接影响元搜索引擎的效率。因此,如何有效地整合成员搜索引擎的结果已成为元搜索引擎的核心问题。
1种元搜索引擎的关键技术
元搜索引擎通过集成多个成员搜索引擎的搜索结果来提供自己的搜索结果。在这个过程中,涉及一系列关键技术,例如查询转换,成员搜索引擎调度,搜索结果排名和综合[25,26]。
1. 1个查询转换
由于不同的成员搜索引擎通常具有不同的查询格式要求,因此,元搜索引擎系统必须先将用户输入的搜索关键字转换为每个成员搜索引擎,然后再向成员搜索引擎发送搜索请求。规定的格式。例如,编码转换,特殊字符处理等。
除了提供最基本的查询转换之外,为了提高查询的准确性,某些元搜索引擎还提供了一些扩展的运算符和查询语法来扩展用户的查询请求。这通常需要预先处理用户的搜索关键字,然后根据预定义的运算符和查询语法格式将用户的搜索关键字转换为新的搜索关键字。例如,某些搜索引擎提供“和”和“或”操作。为了提供更专业的搜索,一些搜索引擎还对用户的搜索关键字进行了细分,然后根据每个分词单元的类别信息确定要调用的成员搜索引擎[1]。
1. 2成员搜索引擎调度
每个搜索引擎都擅长不同领域。例如,百度擅长中文搜索,谷歌和必应则擅长英语搜索。此外,每次其他成员搜索将消耗一定数量的系统资源,同时将增加查询延迟并增加用户的等待时间。因此,有必要选择合适的成员搜索引擎来获得满足用户搜索需求的搜索结果。
当前,有两种常用的成员搜索引擎调度:一种是用户要调用的成员搜索引擎。该方法的优点在于,它为用户提供了更大的选择度,同时避免了计算成员搜索引擎的调度信息的系统的损失。但是,每当用户搜索不同类别的关键字时,他们通常都需要重新指定成员搜索引擎。但是,大多数Internet用户通常不知道应该为他们搜索的关键字选择哪个成员搜索引擎,因此他们的用户体验较差。另一个是系统决定选择哪个成员搜索引擎。这种方法的优点是用户在搜索时不需要预先指定成员搜索引擎,并且具有更好的用户体验。但是,系统通常需要进行大量计算才能确定需要为每个用户搜索安排的成员搜索引擎。例如,为了确定要通过学习策略安排的成员搜索引擎,通常有必要使用大量信息来预先训练算法。这通常需要大量的系统资源[2,3]。
1. 3搜索结果经过排序和合成
搜索结果排名综合是对集成在元搜索引擎系统中的每个成员搜索引擎的搜索结果进行合成,去重复和重新排序的过程,这也是当今大多数元搜索引擎系统的核心。搜索结果的排序和合成通常分为三个过程:重复数据删除,合成和重新排序。合并是将每个成员搜索引擎的搜索结果集成到元搜索引擎中的过程。在此过程中,通常会记录一些其他信息。例如,每个成员搜索引擎可能需要记录爬网的搜索结果。信息,例如总数和检索到的搜索结果的总数。对于每个搜索结果,可能有必要记录其所在的成员搜索引擎,原创成员搜索引擎中的位置以及其他信息。重复数据删除是在元搜索引擎系统中集成的每个成员的搜索引擎中删除重复搜索结果的过程。在此过程中,通常需要记录一些其他信息,例如每个搜索结果的“共识度”。也就是说,包括其成员的搜索引擎的数量。不同的元搜索引擎系统可能使用不同的重复数据删除算法。有两种常见的重复数据删除方法。一种是根据搜索结果的URL信息来判断它是否重复。是的,除了根据URL信息进行判断之外,它还会根据特定的内容信息判断它是否为重复信息。例如,原创和重载的文章被视为重复项。重排序是在重复数据删除后对搜索结果进行重排序的过程。重新排序通常会重新计算每个搜索结果的权重信息,然后根据权重信息对其进行重新排名。不同的元搜索引擎系统通常会考虑不同的因素,并采用不同的算法来计算权重。影响权重的常见因素包括成员搜索引擎的有效性,搜索结果在原创成员搜索引擎中的位置,搜索结果的摘要信息和描述信息与用户搜索关键字之间的匹配程度,以及元搜索引擎系统中的搜索结果集成成员搜索引擎中的共识度等。有两种常见的权重计算方法。一种是用户定义相应的权重信息,另一种是元搜索引擎系统本身根据相关信息计算每个搜索结果的权重。例如,机器学习算法就是一种。经常使用计算权重的算法来训练算法,以通过使用大量数据来确定相应的参数,然后使用训练后的算法来计算权重信息[4]。
参考文献:
[1]龚强,于国宝,廖虎生。元搜索引擎查询结果处理模型[J]。华南理工大学学报(自然科学版),2004,32:47-51,5 7.
[2]李存和,孟文杰。关键词:分类搜索,元搜索引擎,调度策略计算机工程与设计,2008,29(5):1065-1066,111 9.
[3]张伟峰,徐宝文,周小雨。基于遗传算法的搜索引擎调度[J]。微电子学与计算机,2001(4):34-3 8.
[4]杨春明,何天祥。姜丽娜,J志强,肖建华。元搜索引擎结果的重复数据删除与结果排序研究[J]。软件,2012,33(6):51-5 3.
作者单位:湖南铁路职业技术学院,湖南株洲412001
单击下一页了解更多>>>搜索引擎的关键技术论文