seo的一个基础工作是将网页提供给搜索引擎的原理

优采云 发布时间: 2021-07-21 07:35

  seo的一个基础工作是将网页提供给搜索引擎的原理

  seo 的基本任务之一就是为搜索引擎提供网页,所以有两种方式来完成这项工作:1、Active 2、Passive

  为什么这么说?这里需要解释一下搜索引擎的原理。

  当我们使用搜索引擎进行查询时,搜索引擎会向用户返回一个查询结果页面。这个页面是在数亿条结果中给你一个答案的过程。

  这些页面来自哪里?

  引擎是一个软件,一个在数据集合上运行的程序。它有两个基本组件:1、get 数据组件 2、数据分析的组件

  第一部分,数据采集,解决海量网页抓取问题

  这个问题的解决依赖于技术+策略。我们知道,技术再好,也会有瓶颈。他需要依靠某些算法和策略来做我们期望的事情。

  因此,引擎的抓取策略是 SEO 的关键。通用引擎会采用多种策略的组合来抓取数据,以减少消耗,提高抓取效率。

  这就像你所知道的关于“定期采集”和“增量采集”的策略。从引擎的角度来看,他要面对的是整个互联网的数据抓取,所以采集策略更趋向于整体。 (注意:做seo的时候不要从网站的角度看问题)

  在具体的采集过程中,如何抓取一个网页也可能有不同的考虑。最常见的就是所谓的“爬行”:把网络上的网页集合看成一个有向图。采集过程从给定的起始 URL 集合 S(或“*敏*感*词*”)开始,然后按照先深、先宽或其他一些策略遍历链接。不断从S中去除URL,下载对应的网页,解析网页中的超链接URL,看之前是否访问过。那些访问过的URL被加入到集合S中,整个过程可以直观的想象成蜘蛛在网络上爬行。真正的系统其实是多个“蜘蛛”同时爬行。

  (注意:你可以在网站的日志中验证这一点)

  另一种方法是,在第一次综合网页集合后,系统维护对应的URL集合S,后续的集合直接基于这个集合。每次搜索一个网页,如果它发生变化并收录一个新的URL,那么对应的网页也被检索出来,这些新的URL也被放到集合S中;如果S中某个url对应的网页不存在,则将其从S中删除。 这种方法也可以看成是一种极端的第一宽搜索,即第一层是一个大集合,只有一层向下延伸。

  另一种方法是让网站owners主动向搜索引擎提交自己的网址(为了宣传自己,他们通常都有这种热情),系统会在一定时间内(从2天到几个月)给网站发送一个“蜘蛛”程序,扫描网站的所有网页并将相关信息存入数据库。大型商业搜索引擎一般都提供这个功能。

  今天的搜索引擎已经完善了上述所有方法。在具体的实践过程中,会因不同条件的结合而采取不同的策略。即使是同一个站点,也可以同时采用不同的策略。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线