搜索引擎优化定义(搜索引擎如何有效地检索和利用这些信息成为巨大挑战?)
优采云 发布时间: 2022-01-04 06:22搜索引擎优化定义(搜索引擎如何有效地检索和利用这些信息成为巨大挑战?)
随着网络技术的飞速发展,万维网已经成为海量信息的载体。如何有效地检索和使用这些信息已成为一个巨大的挑战。当链接地址不明时,用户在这种信息海中搜索信息无异于大海捞针。
搜索引擎技术应运而生,成功解决了这个问题。搜索引擎为用户提供信息检索服务。作为一种辅助人们检索信息的工具,它们是发现网络信息的关键技术,是用户访问万维网的最佳入口。据权威调查显示,搜索引擎导航服务已经成为一项非常重要的互联网服务。全球80%的网站,其70%-90%的访问量来自搜索引擎。因此,让搜索引擎收录更多的网页是增加对网站的访问量的最有效方法。
搜索引擎依靠软件自动搜索网页,通过各种链接获取互联网上大页面文档的信息,并按照一定的算法和规则进行排序,形成文档索引数据库,供用户查询。提供这种服务的网站就是“搜索引擎”。
搜索引擎采集互联网上数十亿的网络文档,对每个词条进行索引,即关键词,建立索引数据库。当用户搜索某个关键词时,所有收录该关键词的文档都会作为搜索结果列出。这些结果将按与搜索的相关性顺序显示关键词。
搜索引擎搜索和采集的Web文档类型包括HTML、PDF、博客、FTP文件、图片、文字处理文档(Word、PPT)、多媒体文件等,本文主要处理页面或Web文档。
商业运营成功的知名搜索引擎包括谷歌、雅虎、MSN、Ask Jeeves、百度等
1.1.1 搜索引擎的工作原理
搜索引擎有两个重要的部分,即离线部分和在线部分。离线部分由搜索引擎定期执行,包括下载网站页面的集合,并在处理后将这些页面转换为可搜索的索引。在线部分在用户查询时执行,根据与用户需求的相关性,通过索引选择候选文档并排序显示。
搜索引擎的原理是基于三个阶段的工作流,即采集、预处理和提供服务。它以一定的策略发现和采集互联网上的信息,对信息进行处理和组织,为用户提供检索服务,从而达到信息导航的目的。因此,搜索引擎的工作原理包括搜索引擎收录页面、索引以及为用户提供查询服务。
1 个网络采集
搜索引擎使用软件按照一定的策略自动获取文档,软件名称不同,如Robot、Spider、crawler、Wanderer等。Robot直译为robot,crawler直译为crawler,spider为直译为网络蜘蛛,流浪者直译为机器人。它们是搜索引擎用来抓取网页的工具或自动程序。
著名搜索引擎机器人:Google 的 googlebot、百度的 baiduspider、MSN 的 MSNbot 和 Yahoo 的 Slurp。
搜索引擎会检索首页并根据其中的链接搜索网站其他页面。搜索引擎从Web上抓取页面的过程就像蜘蛛在蜘蛛网上爬行(爬行),称为Web爬行或Spidering。
搜索引擎必须从互联网上抓取网页,使用它们的蜘蛛自动访问互联网,并沿着网页中的 URL 抓取到其他网页。搜索引擎将 Web 视为有向图:
采集过程从初始网页的URL开始,找到其中的所有URL并放入队列;
根据搜索策略从队列中选择下一步要抓取的网页的网址;
重复上述过程,直到满足系统停止条件。
网络爬取策略分为深度优先、广度优先和最佳优先。深度优先在很多情况下会导致被困蜘蛛,目前