网页搜集搜索引擎的工作原理基于三段式式工作流程

优采云 发布时间: 2021-03-30 02:12

  网页搜集搜索引擎的工作原理基于三段式式工作流程

  1. 1. 1搜索引擎如何工作搜索引擎具有两个重要组成部分,即离线和在线。离线部分由搜索引擎定期执行,包括下载网站的页面集合,并在处理后将这些页面转换为可搜索的索引。当用户查询时,根据与用户需求的相关性,使用索引来选择候选文档并以排序方式显示在线文档。搜索引擎的原理基于三个阶段的工作流,即采集,预处理和服务提供。它使用某些策略在上发现和采集信息,对信息进行处理和组织,以便为用户提供检索服务,从而达到信息导航的目的。因此,搜索引擎的工作原理包括搜索引擎收录页,建立索引并向用户提供查询服务。 1网页集合搜索引擎使用软件根据某种策略自动获取文档,并且软件名称不同,例如,等。从字面上翻译为机器人,从字面上翻译为爬虫,从字面上翻译为网络蜘蛛,以及从字面上翻译为机器人,它们是搜索引擎用来抓取网页的工具或自动程序。著名的搜索引擎检测器():谷歌,百度,MSN和MSN。搜索引擎将检索主页,并根据其中的链接搜索网站其他页面。搜索引擎从Web爬网页面的过程就像在蜘蛛网(Web)上的()(),称为or。

  搜索引擎应从抓取网页,使用它们(蜘蛛程序)自动访问,然后沿着网页中的URL爬网到其他网页。搜索引擎将Web视为有向图:采集过程从初始网页的URL开始,找到其中的所有URL并将它们放入队列中。根据搜索策略,从队列中选择下一个要抓取的网页的URL;重复上述过程,直到满足系统停止条件为止。 Web爬网策略有三种类型:深度优先,宽度优先和最佳优先。在许多情况下,深度优先将导致蜘蛛陷入()问题。目前,广度优先和最佳优先的方法很普遍。 Web具有两个重要的特征:大量的信息和快速的更新频率,这使其变得极为困难。大量的信息意味着蜘蛛只能在给定的时间下载部分网页,这需要蜘蛛有针对性地下载它。快速更新频率意味着,当蜘蛛网下载某个网站的最后一页时,可能先前的页面已被更新。在某种程度上,它类似于夜晚在晴朗的天空中看天空。您看到的只是恒星在不同时间的反射,因为它们的距离不同。蜘蛛获取的页面集合不是Web的快照,因为它在任何时候都不代表Web。如今,尽管网络速度有所提高,但仍不能满足处理速度和存储容量的要求。因此,搜索引擎通常需要定期重新访问所有网页。时间间隔随搜索引擎和目标网页的不同而变化,因此可以更新索引数据库以更真实地反映网页内容的更新,例如添加新的网页信息,删除无效链接以及根据网页的变化内容和链接关系,重新排序。

  使网页的特定内容及其更改更准确地反映在用户的查询结果中。 2预处理预处理旨在为采集的Web文档建立逻辑视图。在传统的信息检索中,文档的逻辑视图是“”模型,也就是说,文档被视为某些单词的无序集合。在Web搜索引擎中,此视图已逐渐扩展,例如单词频率,权重,Web文档的元信息,文档授权和使用条件等。搜索引擎需要处理蜘蛛搜索的信息并提取索引项从中检索用户。索引项分为:内容索引项元数据索引项,指的是文档的名称,URL,更新时间,编码,长度等。搜索引擎应为索引项分配权重以表明这一点

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线