seo的一个基础工作是将网页提供给搜索引擎的原理

优采云发布时间: 2021-07-21 07:35

　　seo 的基本任务之一就是为搜索引擎提供网页，所以有两种方式来完成这项工作：1、Active 2、Passive

　　为什么这么说？这里需要解释一下搜索引擎的原理。

　　当我们使用搜索引擎进行查询时，搜索引擎会向用户返回一个查询结果页面。这个页面是在数亿条结果中给你一个答案的过程。

　　这些页面来自哪里？

　　引擎是一个软件，一个在数据集合上运行的程序。它有两个基本组件：1、get 数据组件 2、数据分析的组件

　　第一部分，数据采集，解决海量网页抓取问题

　　这个问题的解决依赖于技术+策略。我们知道，技术再好，也会有瓶颈。他需要依靠某些算法和策略来做我们期望的事情。

　　因此，引擎的抓取策略是 SEO 的关键。通用引擎会采用多种策略的组合来抓取数据，以减少消耗，提高抓取效率。

　　这就像你所知道的关于“定期采集”和“增量采集”的策略。从引擎的角度来看，他要面对的是整个互联网的数据抓取，所以采集策略更趋向于整体。（注意：做seo的时候不要从网站的角度看问题）

　　在具体的采集过程中，如何抓取一个网页也可能有不同的考虑。最常见的就是所谓的“爬行”：把网络上的网页集合看成一个有向图。采集过程从给定的起始 URL 集合 S（或“*敏*感*词*”）开始，然后按照先深、先宽或其他一些策略遍历链接。不断从S中去除URL，下载对应的网页，解析网页中的超链接URL，看之前是否访问过。那些访问过的URL被加入到集合S中，整个过程可以直观的想象成蜘蛛在网络上爬行。真正的系统其实是多个“蜘蛛”同时爬行。

　　（注意：你可以在网站的日志中验证这一点）

　　另一种方法是，在第一次综合网页集合后，系统维护对应的URL集合S，后续的集合直接基于这个集合。每次搜索一个网页，如果它发生变化并收录一个新的URL，那么对应的网页也被检索出来，这些新的URL也被放到集合S中；如果S中某个url对应的网页不存在，则将其从S中删除。这种方法也可以看成是一种极端的第一宽搜索，即第一层是一个大集合，只有一层向下延伸。

　　另一种方法是让网站owners主动向搜索引擎提交自己的网址（为了宣传自己，他们通常都有这种热情），系统会在一定时间内（从2天到几个月）给网站发送一个“蜘蛛”程序，扫描网站的所有网页并将相关信息存入数据库。大型商业搜索引擎一般都提供这个功能。

　　今天的搜索引擎已经完善了上述所有方法。在具体的实践过程中，会因不同条件的结合而采取不同的策略。即使是同一个站点，也可以同时采用不同的策略。

0

2021-07-21

seo教程:搜索引擎优化入门与进阶电子版

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

seo的一个基础工作是将网页提供给搜索引擎的原理

0 个评论

发起人

AI时代内容工厂

seo的一个基础工作是将网页提供给搜索引擎的原理

0 个评论

发起人

相关问题