搜索引擎优化定义(搜索引擎如何有效地检索和利用这些信息成为巨大挑战？)

优采云发布时间: 2022-01-04 06:22

　　随着网络技术的飞速发展，万维网已经成为海量信息的载体。如何有效地检索和使用这些信息已成为一个巨大的挑战。当链接地址不明时，用户在这种信息海中搜索信息无异于大海捞针。

　　搜索引擎技术应运而生，成功解决了这个问题。搜索引擎为用户提供信息检索服务。作为一种辅助人们检索信息的工具，它们是发现网络信息的关键技术，是用户访问万维网的最佳入口。据权威调查显示，搜索引擎导航服务已经成为一项非常重要的互联网服务。全球80%的网站，其70%-90%的访问量来自搜索引擎。因此，让搜索引擎收录更多的网页是增加对网站的访问量的最有效方法。

　　搜索引擎依靠软件自动搜索网页，通过各种链接获取互联网上大页面文档的信息，并按照一定的算法和规则进行排序，形成文档索引数据库，供用户查询。提供这种服务的网站就是“搜索引擎”。

　　搜索引擎采集互联网上数十亿的网络文档，对每个词条进行索引，即关键词，建立索引数据库。当用户搜索某个关键词时，所有收录该关键词的文档都会作为搜索结果列出。这些结果将按与搜索的相关性顺序显示关键词。

　　搜索引擎搜索和采集的Web文档类型包括HTML、PDF、博客、FTP文件、图片、文字处理文档（Word、PPT）、多媒体文件等，本文主要处理页面或Web文档。

　　商业运营成功的知名搜索引擎包括谷歌、雅虎、MSN、Ask Jeeves、百度等

　　1.1.1 搜索引擎的工作原理

　　搜索引擎有两个重要的部分，即离线部分和在线部分。离线部分由搜索引擎定期执行，包括下载网站页面的集合，并在处理后将这些页面转换为可搜索的索引。在线部分在用户查询时执行，根据与用户需求的相关性，通过索引选择候选文档并排序显示。

　　搜索引擎的原理是基于三个阶段的工作流，即采集、预处理和提供服务。它以一定的策略发现和采集互联网上的信息，对信息进行处理和组织，为用户提供检索服务，从而达到信息导航的目的。因此，搜索引擎的工作原理包括搜索引擎收录页面、索引以及为用户提供查询服务。

　　1 个网络采集

　　搜索引擎使用软件按照一定的策略自动获取文档，软件名称不同，如Robot、Spider、crawler、Wanderer等。Robot直译为robot，crawler直译为crawler，spider为直译为网络蜘蛛，流浪者直译为机器人。它们是搜索引擎用来抓取网页的工具或自动程序。

　　著名搜索引擎机器人：Google 的 googlebot、百度的 baiduspider、MSN 的 MSNbot 和 Yahoo 的 Slurp。

　　搜索引擎会检索首页并根据其中的链接搜索网站其他页面。搜索引擎从Web上抓取页面的过程就像蜘蛛在蜘蛛网上爬行（爬行），称为Web爬行或Spidering。

　　搜索引擎必须从互联网上抓取网页，使用它们的蜘蛛自动访问互联网，并沿着网页中的 URL 抓取到其他网页。搜索引擎将 Web 视为有向图：

　　采集过程从初始网页的URL开始，找到其中的所有URL并放入队列；

　　根据搜索策略从队列中选择下一步要抓取的网页的网址；

　　重复上述过程，直到满足系统停止条件。

　　网络爬取策略分为深度优先、广度优先和最佳优先。深度优先在很多情况下会导致被困蜘蛛，目前

0

2022-01-04

搜索引擎优化定义

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

搜索引擎优化定义(搜索引擎如何有效地检索和利用这些信息成为巨大挑战？)

0 个评论

发起人