搜索引擎优化教程(抓取系统设计一套合理的抓取优先级调配策略(图))
优采云 发布时间: 2021-09-10 01:21搜索引擎优化教程(抓取系统设计一套合理的抓取优先级调配策略(图))
此外,百度还支持Canonical标签,也可以看作是间接重定向的效果
这也是对搜索引擎的理解和描述
获取优先级和部署
由于互联网资源的巨*敏*感*词*和快速变化,搜索引擎几乎不可能全部捕获并合理更新。保持一致性几乎是不可能的。因此,需要爬取系统设计合理的爬取优先级部署策略,包括深度优先遍历策略、广度优先遍历策略、pr-first策略、反链策略、社交分享引导策略等。
每种策略都有自己的优点和缺点。在实践中,往往会采用多种策略组合使用,以达到最高优先级的爬取效果。
过滤重复网址
在爬取过程中,Spider需要判断一个页面是否被爬取过。如果还没有被抓取,它会抓取网页并将其放入抓取的URL集合中。
判断是否被爬取,涉及到核心是快速搜索对比,还涉及到URL归一化识别
例如
一个 URL 收录大量无效参数,但实际上是同一个页面,会被视为同一个 URL
获取暗网数据
互联网上存在大量搜索引擎暂时无法抓取的数据,称为暗网数据
一方面,网站的大量数据存在于网络数据库中,Spider难以通过抓取网页获取完整内容;另一方面,由于网络环境的原因,网站本身不符合规范,以及孤岛等,也会导致搜索引擎无法抓取。目前获取暗网数据的主要思路还是通过开放平台提交数据来解决问题,比如“百度开放平台”等。
抓反作弊
蜘蛛在爬取过程中经常会遇到所谓的爬取黑洞,或者面临大量低质量页面的困扰,这就需要爬取部门也设计一套完整的爬取防作弊系统
例如分析URL特征,分析页面大小和内容,分析爬取规模对应的站点规模等
网络协议
刚才提到百度搜索引擎会涉及复杂的爬取策略
实际上,搜索引擎和资源提供者之间存在着相互依赖。搜索引擎需要站长为其提供资源,否则搜索引擎将无法满足用户的检索需求;并且站长需要使用搜索引擎来推广内容以获得更多的受众
蜘蛛爬虫系统直接涉及到互联网资源提供者的利益。为了实现搜索引擎和站长的双赢,双方在抓取过程中必须遵守一定的规则,以方便双方的数据处理和连接
这个过程遵循的规范是我们日常生活中调用的一些网络协议
以上是对搜索引擎的一些工作原理的简单介绍。明天我们会继续更新搜索引擎的工作原理。让我们一起期待吧。
当您联系我时,请确保您是从金体网看到的