“爬虫(蜘蛛)”搜索引擎爬虫的工作原理分析
优采云 发布时间: 2021-06-14 23:06“爬虫(蜘蛛)”搜索引擎爬虫的工作原理分析
作为一个合格的SEOER,我们联系网站,联系搜索引擎。在这种情况下,我们必须对搜索引擎有一定的了解。只有这样,我们才能产生效果。严格来说,搜索引擎使用“爬虫(蜘蛛)”等计算机程序来抓取我们网页上的信息。一般来说,搜索引擎爬虫的工作原理分为爬取、过滤和收录四大环节,我们来看看索引和排序。
1、seed 网址
所谓的*敏*感*词*网址是指开头选择的网址地址。在大多数情况下,网站的首页、频道页等内容更丰富的页面会作为*敏*感*词*网址;
然后将这些*敏*感*词*网址放入要抓取的网址列表中;
2、要获取的URL列表
爬虫从要爬取的URL列表中一一读取。在读取URL的过程中,会通过DNS解析URL,并将URL地址转换为网站服务器IP地址+相对路径;
3、Web 下载器
接下来把这个地址给网页下载器(所谓网页下载器,顾名思义就是负责下载网页内容的模块;
4、源代码
对于下载到本地的网页,也就是我们网页的源代码,一方面必须将该网页存储在网页库中,另一方面会从下载的网页。
5、提取网址
新提取的URL地址会首先在爬取的URL列表中进行比较,以检查该网页是否被爬取。
6、新的URL存放在待抓取队列中
如果网页没有被抓取,将新的网址放在待抓取网址列表的最后,等待抓取。
像这样循环工作,直到爬取队列为空,爬虫就完成了整个爬取过程。
那么下载的网页就会进入一定的分析。分析完索引后,就可以看到收录的结果了。
对于一个真正的爬虫来说,哪些页面先抓取,哪些页面稍后抓取,哪些页面不抓取是有一定的策略的。下面介绍一个比较通俗易懂的爬虫爬取过程。作为 SEO,我们知道这些就足够了。