网页搜集搜索引擎的工作原理及工作流程

优采云发布时间: 2021-07-18 04:19

　　网页搜集搜索引擎的工作原理及工作流程

　　1.1.1 搜索引擎的工作原理搜索引擎有两个重要的部分，离线部分和在线部分。离线部分由搜索引擎定期执行，包括下载网站页面的集合，并将这些页面处理成可搜索的索引。在线部分在用户查询时执行，根据与用户需求的相关性，利用索引选择候选文档并排序显示。搜索引擎的原理是基于三个阶段的工作流，即采集、预处理和提供服务。它利用一定的策略在互联网上发现和采集信息，对信息进行处理和组织，为用户提供检索服务，从而达到信息导航的目的。因此，搜索引擎的工作原理包括搜索引擎收录页面、索引和为用户提供查询服务。 1 网页采集搜索引擎使用软件按照一定的策略自动获取文档，软件名称各不相同，如Robot、Spider、crawler、Wanderer等。Robot直译为robot，crawler直译为crawler ，spider直译为网络蜘蛛，Wanderer直译为机器人。它们是搜索引擎用来抓取网页的工具或自动程序。知名搜索引擎检测器（Robot）：谷歌的googlebot、百度的baiduspider、MSN的MSNbot、雅虎的Slurp。搜索引擎会检索首页，根据里面的链接搜索网站其他页面。搜索引擎从 Web 上抓取页面的过程就像蜘蛛在蜘蛛网上爬行（爬行），称为 Webcrawling 或 Spidering。

　　搜索引擎必须从互联网上抓取网页，使用它们的蜘蛛自动访问互联网，并沿着网页中的 URL 抓取到其他网页。搜索引擎将Web视为一个有向图：采集过程从初始网页的URL开始，找到其中的所有URL并将其放入队列；根据搜索策略，从队列中选择下一个要抓取的网页的网址；重复上述过程，直到满足系统的停止条件。网络爬行策略分为三种类型：深度优先、广度优先和最佳优先。深度优先在很多情况下会导致被困蜘蛛，目前最常用的方法是广度优先和最佳优先方法。网络有两个重要的特点：海量信息和快速更新频率，这使得网络爬虫极其困难。庞大的信息量意味着蜘蛛在给定的时间内只能下载网页的一部分，这就需要蜘蛛有针对性地进行下载。更新频率快意味着当蜘蛛下载某个网站的最后一个页面时，可能之前下载的页面已经更新了。在某种程度上，CrawlingWeb 类似于在晴朗的天空中看夜晚的天空。你看到的只是星星在不同时间的状态的反映，因为它们的距离不同。蜘蛛获取的页面集合并不是Web的快照，因为它并不代表任何时候的Web。如今，虽然网络速度提高了，但仍然无法满足处理速度和存储容量的要求。因此，搜索引擎的蜘蛛一般需要定期重新访问所有网页。时间间隔随着搜索引擎和目标网页的不同而变化，以便更新索引库，更真实地反映网页内容的更新，比如添加新的网页信息，去除死链接，并根据变化重新排序在网络内容和链接关系中。

　　使网页的具体内容及其变化更准确地反映在用户的查询结果中。 2 预处理预处理的目的是建立采集到的Web 文档的逻辑视图。在传统的信息检索中，文档的逻辑视图是“bagofwords”模型，即将文档视为一些词的无序集合。在Web搜索引擎中，这个视图已经逐渐扩展，比如词频、权重、Web文档的元信息、文档权限和使用条件等。搜索引擎需要对蜘蛛搜索到的信息进行处理，并提取索引供用户搜索的项目。索引项分为：内容索引项元数据索引项，指的是文档的名称、URL、更新时间、编码、长度等。搜索引擎应该给索引项赋予一个权重来表明这一点

0

2021-07-18

搜索引擎优化定义

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

网页搜集搜索引擎的工作原理及工作流程

0 个评论

发起人