搜索引擎优化(seo)的基本工作模块(SEO人员需要了解搜索引擎的工作原理,你知道吗?)

优采云 发布时间: 2022-04-20 12:25

  搜索引擎优化(seo)的基本工作模块(SEO人员需要了解搜索引擎的工作原理,你知道吗?)

  SEO 需要了解搜索引擎的工作原理以及它们的工作原理,以便更好地优化 网站。搜索引擎的基本工作原理包括以下四个过程:爬取建库、检索排序、外部投票、结果展示。搜索引擎工作原理流程图如图2-2所示。百度也正式发布了《搜索引擎的工作原理》,百度从官方的角度发出了一些声音,纠正了网上对搜索引擎的一些误解。

  

  搜索引擎蜘蛛如何工作

  随着互联网信息的爆炸式增长,如何有效地获取和利用这些信息是搜索引擎工作的首要环节。数据爬取系统作为整个搜索系统的上游,主要负责互联网信息的采集、存储和更新。它像蜘蛛一样在网络中爬行,因此通常被称为“蜘蛛”。比如我们常用的搜索引擎蜘蛛有Baiduspider、Googlebot、搜狗网络蜘蛛等。

  蜘蛛爬取系统是搜索引擎数据来源的重要保障。如果把Web理解为一个有向图,那么蜘蛛的工作过程可以认为是对这个有向图的遍历。从一些重要的*敏*感*词*URL开始,通过页面上的超链接关系,不断发现新的URL并进行爬取,从而尽可能多地爬取有价值的网页。对于百度这样的大型爬虫系统,由于网页随时都有被修改、删除或者新的超链接出现的可能,所以需要不断更新爬虫过去爬过的页面,维护一个URL库和页面库。

  蜘蛛爬取系统基本框架图,包括链接存储系统、链接选择系统、DNS解析服务系统、爬取调度系统、网页分析系统、链接提取系统、链接分析系统、网页存储系统。百度蜘蛛通过本系统的配合完成对互联网页面的爬取。

  图 2-3

  1.爬取策略类型

  图2-3看似简单,但Baiduspider在爬取过程中实际上面临着一个超级复杂的网络环境。一致性,在不给网站体验带来压力的同时,需要设计多种复杂的抓取策略。这里有一个简单的介绍:

  (1)爬取友好度

  庞大数量级的互联网资源要求爬虫系统尽可能高效地利用带宽,在有限的硬件和带宽资源下尽可能多地抓取有价值的资源。这就产生了另一个问题:消耗被逮捕的网站的带宽会造成访问压力。如果度数过大,将直接影响被捕网站的正常用户访问行为。所以在爬取过程中要控制好爬取压力,既不影响网站的正常用户访问,又要尽可能多地抢到有价值的资源。

  通常,最基本的是基于IP的压力控制。因为如果是基于域名的话,可能会出现一个域名对应多个IP(很多大网站)或者多个域名对应同一个IP(小网站共享IP)的问题. 在实践中,往往根据IP和域名的各种情况进行压力分配控制。同时,站长平台也推出了压力反馈工具。站长可以自己手动调节抓取压力网站。这时百度蜘蛛会根据站长的要求,优先控制抓取压力。

  对同一站点的爬取速度控制一般分为两类:一类是一段时间内的爬取频率;另一种是一段时间内的爬行流量。同一个站点在不同时间的爬取速度也是不同的。例如,根据具体的网站类型,在夜间爬行可能会更快。主要思路是错开正常用户访问的高峰,不断调整。不同的站点也需要不同的爬取率。

  (2)常用爬取返回码

  下面简单介绍一下百度支持的几种返回码。

  ① 最常见的 404 代表“NOT FOUND”。认为网页无效,通常会从库中删除。同时,如果蜘蛛在短期内再次找到这个网址,也不会被抓取。

  ②503代表“Service Unavailable”,表示网页暂时无法访问。通常,网站 暂时关闭,带宽受限。对于返回503状态码的网页,百度蜘蛛不会直接删除这个网址,会在短时间内多次访问。如果网页已经恢复,会正常爬取;如果继续返回 503,则该 URL 仍会被访问。被认为是断开的链接,已从库中删除。

  ③403代表“Forbidden”,表示该网页当前被禁止访问。如果是新的URL,蜘蛛暂时不会抓取,短期内会多次访问;如果是已有的收录 URL,则不会直接删除,短期内还会多次访问。如果网页正常访问,则正常爬取;如果仍然禁止访问,该 URL 也将被视为无效链接,将从库中删除。

  ④301代表“Moved Permanently”,表示网页被重定向到一个新的URL。遇到网站迁移、域名替换、网站改版时,建议使用301返回码,并使用站长平台网站改版工具,减少改版带来的网站流量损失.

  (3)识别多个 URL 重定向

  Internet 上的某些网页由于各种原因具有 URL 重定向状态。为了正常抓取这些资源,需要蜘蛛识别和判断URL重定向,同时防止作弊。重定向可以分为三类:http 30x 重定向、元刷新重定向和 js 重定向。此外,百度还支持Canonical标签,在效果上也可以认为是间接重定向。

  (4)抢优先分配

  由于互联网资源的巨*敏*感*词*和快速变化,搜索引擎几乎不可能对所有资源进行合理的抓取和更新并保持一致性。因此,爬虫系统需要设计合理的爬取优先级分配策略,主要包括深度优先遍历策略、广度优先遍历策略、pr优先策略、反链策略、社交分享引导策略等。自己的优点和缺点。在实际情况中,往往会结合使用多种策略来达到最佳的抓取效果。

  (5)重复 URL 过滤

  在爬取过程中,蜘蛛需要判断一个页面是否被爬取过。如果还没有被爬取过,就会对网页进行爬取,放到被爬取的url集合中。判断是否被爬取的核心是快速查找对比,还涉及到URL规范化识别。例如,收录大量无效参数的 URL,但实际上是同一页面,将被视为同一 URL。

  (6)暗网数据采集

  互联网上有很多暂时无法被搜索引擎捕获的数据,称为暗网数据。一方面,网站的大量数据存在于网络数据库中,蜘蛛很难通过爬取网页获取完整的内容;该问题还会导致搜索引擎无法抓取。目前暗网数据获取的主要思路还是使用开放平台提交数据,比如“百度站长平台”、“百度开放平台”等。

  (7)抢反作弊

  爬虫在爬取过程中经常会遇到所谓的爬虫黑洞,或者面临大量低质量页面的问题,这就要求在爬虫系统中也应该设计一套完整的爬虫防作弊系统。比如分析URL特征,分析页面大小和内容,分析爬取规模对应的站点规模等。

  声明:本站所有文章,除非另有说明或标记,均发布在本站原创。任何个人或组织未经本站同意,不得复制、盗用、采集、将本站内容发布到任何网站、书籍等媒体平台。本站内容如有侵犯原作者合法权益的,您可以联系我们处理。

  

  新用户正常

  

  支付宝扫描

  

  微信扫一扫>奖励领取海报链接

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线