seo教程:搜索引擎优化入门与进阶pdf(互联网信息爆发式增长,如何有效的获取并利用这些信息)

优采云 发布时间: 2022-01-27 06:03

  seo教程:搜索引擎优化入门与进阶pdf(互联网信息爆发式增长,如何有效的获取并利用这些信息)

  随着互联网信息的爆炸式增长,如何有效地获取和利用这些信息是搜索引擎工作的首要环节。数据爬取系统作为整个搜索系统的上游,主要负责互联网信息的采集、保存和更新。它像蜘蛛一样在网络中爬行,因此通常被称为“蜘蛛”。比如我们常用的几种常见的搜索引擎蜘蛛叫做:Baiduspdier、Googlebot、搜狗网络蜘蛛等。

  蜘蛛爬取系统是搜索引擎数据来源的重要保障。如果把网络理解为一个有向图,那么蜘蛛的工作过程可以认为是对这个有向图的遍历。从一些重要的*敏*感*词*URL开始,通过页面上的超链接关系,不断发现新的URL并进行爬取,从而尽可能多地爬取有价值的网页。对于百度这样的大型爬虫系统,由于网页随时都有被修改、删除或者新的超链接出现的可能,所以需要不断更新爬虫过去爬过的页面,维护一个URL库和页面库。

  

  上图为蜘蛛爬取系统的基本框架,包括链接存储系统、链接选择系统、dns解析服务系统、爬取调度系统、网页分析系统、链接提取系统、链接分析系统、网页存储系统。百度蜘蛛通过本系统的配合完成对互联网页面的爬取。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线