网页搜集搜索引擎的工作原理及工作流程
优采云 发布时间: 2021-07-18 04:19网页搜集搜索引擎的工作原理及工作流程
1.1.1 搜索引擎的工作原理 搜索引擎有两个重要的部分,离线部分和在线部分。离线部分由搜索引擎定期执行,包括下载网站页面的集合,并将这些页面处理成可搜索的索引。在线部分在用户查询时执行,根据与用户需求的相关性,利用索引选择候选文档并排序显示。搜索引擎的原理是基于三个阶段的工作流,即采集、预处理和提供服务。它利用一定的策略在互联网上发现和采集信息,对信息进行处理和组织,为用户提供检索服务,从而达到信息导航的目的。因此,搜索引擎的工作原理包括搜索引擎收录页面、索引和为用户提供查询服务。 1 网页采集 搜索引擎使用软件按照一定的策略自动获取文档,软件名称各不相同,如Robot、Spider、crawler、Wanderer等。Robot直译为robot,crawler直译为crawler ,spider直译为网络蜘蛛,Wanderer直译为机器人。它们是搜索引擎用来抓取网页的工具或自动程序。知名搜索引擎检测器(Robot):谷歌的googlebot、百度的baiduspider、MSN的MSNbot、雅虎的Slurp。搜索引擎会检索首页,根据里面的链接搜索网站其他页面。搜索引擎从 Web 上抓取页面的过程就像蜘蛛在蜘蛛网上爬行(爬行),称为 Webcrawling 或 Spidering。
搜索引擎必须从互联网上抓取网页,使用它们的蜘蛛自动访问互联网,并沿着网页中的 URL 抓取到其他网页。搜索引擎将Web视为一个有向图:采集过程从初始网页的URL开始,找到其中的所有URL并将其放入队列;根据搜索策略,从队列中选择下一个要抓取的网页的网址;重复上述过程,直到满足系统的停止条件。网络爬行策略分为三种类型:深度优先、广度优先和最佳优先。深度优先在很多情况下会导致被困蜘蛛,目前最常用的方法是广度优先和最佳优先方法。网络有两个重要的特点:海量信息和快速更新频率,这使得网络爬虫极其困难。庞大的信息量意味着蜘蛛在给定的时间内只能下载网页的一部分,这就需要蜘蛛有针对性地进行下载。更新频率快意味着当蜘蛛下载某个网站的最后一个页面时,可能之前下载的页面已经更新了。在某种程度上,CrawlingWeb 类似于在晴朗的天空中看夜晚的天空。你看到的只是星星在不同时间的状态的反映,因为它们的距离不同。蜘蛛获取的页面集合并不是Web的快照,因为它并不代表任何时候的Web。如今,虽然网络速度提高了,但仍然无法满足处理速度和存储容量的要求。因此,搜索引擎的蜘蛛一般需要定期重新访问所有网页。时间间隔随着搜索引擎和目标网页的不同而变化,以便更新索引库,更真实地反映网页内容的更新,比如添加新的网页信息,去除死链接,并根据变化重新排序在网络内容和链接关系中。
使网页的具体内容及其变化更准确地反映在用户的查询结果中。 2 预处理预处理的目的是建立采集到的Web 文档的逻辑视图。在传统的信息检索中,文档的逻辑视图是“bagofwords”模型,即将文档视为一些词的无序集合。在Web搜索引擎中,这个视图已经逐渐扩展,比如词频、权重、Web文档的元信息、文档权限和使用条件等。 搜索引擎需要对蜘蛛搜索到的信息进行处理,并提取索引供用户搜索的项目。索引项分为:内容索引项元数据索引项,指的是文档的名称、URL、更新时间、编码、长度等。搜索引擎应该给索引项赋予一个权重来表明这一点