“爬虫（蜘蛛）”搜索引擎爬虫的工作原理分析

优采云发布时间: 2021-06-14 23:06

　　作为一个合格的SEOER，我们联系网站，联系搜索引擎。在这种情况下，我们必须对搜索引擎有一定的了解。只有这样，我们才能产生效果。严格来说，搜索引擎使用“爬虫（蜘蛛）”等计算机程序来抓取我们网页上的信息。一般来说，搜索引擎爬虫的工作原理分为爬取、过滤和收录四大环节，我们来看看索引和排序。

　　1、seed 网址

　　所谓的*敏*感*词*网址是指开头选择的网址地址。在大多数情况下，网站的首页、频道页等内容更丰富的页面会作为*敏*感*词*网址；

　　然后将这些*敏*感*词*网址放入要抓取的网址列表中；

　　2、要获取的URL列表

　　爬虫从要爬取的URL列表中一一读取。在读取URL的过程中，会通过DNS解析URL，并将URL地址转换为网站服务器IP地址+相对路径；

　　3、Web 下载器

　　接下来把这个地址给网页下载器（所谓网页下载器，顾名思义就是负责下载网页内容的模块；

　　4、源代码

　　对于下载到本地的网页，也就是我们网页的源代码，一方面必须将该网页存储在网页库中，另一方面会从下载的网页。

　　5、提取网址

　　新提取的URL地址会首先在爬取的URL列表中进行比较，以检查该网页是否被爬取。

　　6、新的URL存放在待抓取队列中

　　如果网页没有被抓取，将新的网址放在待抓取网址列表的最后，等待抓取。

　　像这样循环工作，直到爬取队列为空，爬虫就完成了整个爬取过程。

　　那么下载的网页就会进入一定的分析。分析完索引后，就可以看到收录的结果了。

　　对于一个真正的爬虫来说，哪些页面先抓取，哪些页面稍后抓取，哪些页面不抓取是有一定的策略的。下面介绍一个比较通俗易懂的爬虫爬取过程。作为 SEO，我们知道这些就足够了。

0

2021-06-14

搜索引擎优化原理

0 个评论

要回复文章请先登录或注册