百度搜索引擎优化指南v20(百度资源平台公开课之网站抓取和收录的一个原理)

优采云 发布时间: 2021-09-23 00:15

  百度搜索引擎优化指南v20(百度资源平台公开课之网站抓取和收录的一个原理)

  您好,今天,百度资源平台正式播出了一个公开课,主要向您介绍网站capture和收录的原理。在这里,我做了详细的笔记(没有遗漏任何单词)。看完后,可以说做收录基本上不是什么大问题

  百度爬虫的工作原理

  首先,百度的爬虫将与网站主页互动。在获得网站主页后,它将理解页面并理解内容(类型和值计算)。其次,它将从网站主页提取所有超链接。如下图所示,主页上的超链接称为“后链”。当下一轮抓取时,抓取器将继续与这些超链接页面交互,获取要细化的页面,并依次逐层抓取,构成一个抓取循环

  

  抓取友好优化

  1、URL规格:

  任何资源都是通过URL捕获的。URL与网站门牌号相对,因此URL规划非常重要。特别是在上图所示的“要捕获的URL”环境中,当爬虫在主页上时,它不知道URL是什么样子

  优秀URL的特点是主流和简单。可以不制作一些非主流样式,让人们看起来非常直观

  好的URL示例:

  

  如上图所示,第一个链接是百度知道的链接。整个链接分为三个部分。第一部分是网站site,第二部分是资源类型,第三部分是资源ID。这是一个非常简单的URL,爬虫看起来非常好

  如上图所示,第三段比百度知道的要多。首先,第一段是网站站点,第二段是站点的主目录,第三段是站点的次目录,最后一段是站点的内容ID。像这样的URL也是标准的

  不友好的URL示例:

  

  如上图所示,这种链接乍一看是非常长和复杂的。有经验的网站管理员可以看到,此URL收录字符,并且此URL收录文章标题,导致URL太长。相对较长的URL并不优于简单的URL。百度站长平台的规则明确规定URL不能超过256字节,我个人建议URL长度控制在100字节以内,100个字符就足以显示URL的资源

  

  如上图所示,此URL收录统计参数,可能导致重复爬行,浪费网站权益。因此,不能使用参数。如果必须使用参数,也可以保留必要的参数。参数字符可以使用常规连接器,如“?”和“&”,以避免使用非主流连接器

  2、Rational discovery链接:

  爬虫是从主页上逐层抓取的,因此需要做好主页与资源页面之间的URL关系。这样,爬行动物抓东西相对省力

  

  如上图所示,从主页到特定内容的超链接路径关系称为发现链接。目前,大多数移动台都不太关注发现链接关系,因此爬虫无法抓取内容页面

  

  如上图所示,这两个站点是移动的网站通用站点构建方法。从链接发现的角度来看,这两种类型的站点是不友好的

  Feed-stream推荐:大多数提供Feed-streams的网站都有大量的后台数据,如果用户继续刷,就会出现新的内容。然而,无论你刷新多少次,你可能只刷了大约1%的内容,爬虫相当于一个用户。爬虫无法以这种方式抓取网站所有内容,因此一些页面爬虫将无法找到它,即使你有100万个内容,你可能只能捕获10000-20000个

  仅搜索条目:如上图所示,主页上只有一个搜索框。用户需要输入关键词才能找到相应的内容,但爬虫无法进入关键词再爬网,所以爬虫只能爬网到首页,没有后链,自然爬网和收录都不理想

  解决方案:索引页下的内容根据发布时间按相反顺序排序。这有一个优势。搜索引擎可以通过索引页面获取您的网站最新资源。此外,新发布的资源应该在索引页面上实时同步。许多纯静态网页已经更新了内容,但是主页(索引页)没有出现,这将导致搜索引擎无法通过索引页捕获最新资源。第三点是后链的URL(最新的文章)需要直接在源代码中公开,以便于搜索引擎捕获。最后,索引页越多越好。一些高质量的索引页面就足够了,比如长城,它基本上只使用主页作为索引页面

  最后,我们来谈谈一个更有效的解决方案,就是通过百度站长资源平台直接主动提交资源,让搜索引擎绕过索引页面,直接抓取最新资源。这里我们需要注意两点

  问:提交的资源越多越好

  答:收录效果的核心始终是内容质量。如果提交大量低质量和淹没的资源,将导致惩罚性打击

  问:为什么你提交了一个普通的收录却没有收到

  答:资源提交只能加速资源发现,不能保证在短时间内捕获。当然,百度表示,该算法不断优化,以更快地捕获高质量内容

  3、accessibility:

  夹具应与网站相互作用,并确保网站的稳定性,然后夹具才能正常爬升。那么访问友好主要包括以下几个方面

  访问速度优化:建议加载时间控制在2秒以内,因此用户和爬虫都会选择开启速度更快的网站。其次,避免不必要的跳跃。虽然这种情况只是一小部分,但网站中仍存在多个级别的跳转,爬虫很可能在多级别跳转的同时断开连接。从没有WWW的域名跳转到有WWW的域名,然后跳转到HTTPS,最后跳转到新站点是很常见的。在这种情况下,有一个三级或四级跳跃。如果有类似的网站版本,建议直接跳转到新域名

  标准化HTTP返回码:正确使用普通301/302和404主要是常规问题。用常规方法解决它们。例如,如果遇到无效资源,请使用404而不是某些特殊的返回状态代码

  访问稳定性优化:首先,尽量选择国内规模较大的DNS服务,确保站点的稳定性。事实上,阿里云对于域名的DNS来说是相对稳定可靠的。其次,小心使用技术手段阻止爬行。如果有不想在百度上显示的特定资源,可以使用机器人来阻止它们,例如,网站后台链接大多被机器人阻止。如果爬网频率过高,导致服务器压力过大,影响用户正常访问,可以通过资源平台的工具降低爬网频率。二是防止防火墙误拦截爬网。建议您将搜索引擎的UA添加到白名单中。最后一点是服务器的稳定性,特别是在短时间内提交大量高质量资源时。此时,我们必须注意服务器的稳定性,因为当您提交大量资源时,爬虫将增加。此时,是否会导致服务器打开压力过大?这个问题需要站长注意

  

  如上图所示,这三个示例是第三方防火墙拦截的状态。当普通用户打开此状态时,搜索引擎在爬网时也将处于此状态。因此,如果我们遇到CC或DDoS,我们必须打开防火墙并释放搜索引擎的UA

  4、识别百度爬虫

  对于一些网站,可能会有针对用户的特殊优化,网站可能会想区分用户和爬虫进行优化,所以此时有必要识别百度爬虫

  

  首先,用一种简单的方法,我们可以通过百度的UA识别百度爬虫。目前,百度PC、手机和applet是三种不同的UA。通过一种简单的识别方法,有第三方爬虫模仿百度爬虫,这让你无法识别它们。然后在这个时候,我们可以通过双向DNS解析认证进行区分。有关详细信息,请参阅“简单两步:教您快速识别百度蜘蛛”

  问答环节

  问:新网站会有新的爬网限制吗

  答:对于任何新站,都没有捕获限制,但是从去年开始,我们已经开始支持新站,这样你的网站就可以先在百度上收录了。然后做出一个价值判断,那么如何让百度知道你是一个新网站呢?有两条捷径。第一点是提交给百度资源平台,第二点是去工业和信息化部进行ICP备案。我们可以从工业和信息化部获得ICP备案数据。备案后,我们知道有人建了一个新站点,这可以给新站点一个b

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线