百度搜索引擎优化指南v20(百度资源平台公开课之网站抓取和收录的一个原理)

优采云发布时间: 2021-09-23 00:15

　　您好，今天，百度资源平台正式播出了一个公开课，主要向您介绍网站capture和收录的原理。在这里，我做了详细的笔记（没有遗漏任何单词）。看完后，可以说做收录基本上不是什么大问题

　　百度爬虫的工作原理

　　首先，百度的爬虫将与网站主页互动。在获得网站主页后，它将理解页面并理解内容（类型和值计算）。其次，它将从网站主页提取所有超链接。如下图所示，主页上的超链接称为“后链”。当下一轮抓取时，抓取器将继续与这些超链接页面交互，获取要细化的页面，并依次逐层抓取，构成一个抓取循环

　　抓取友好优化

　　1、URL规格：

　　任何资源都是通过URL捕获的。URL与网站门牌号相对，因此URL规划非常重要。特别是在上图所示的“要捕获的URL”环境中，当爬虫在主页上时，它不知道URL是什么样子

　　优秀URL的特点是主流和简单。可以不制作一些非主流样式，让人们看起来非常直观

　　好的URL示例：

　　如上图所示，第一个链接是百度知道的链接。整个链接分为三个部分。第一部分是网站site，第二部分是资源类型，第三部分是资源ID。这是一个非常简单的URL，爬虫看起来非常好

　　如上图所示，第三段比百度知道的要多。首先，第一段是网站站点，第二段是站点的主目录，第三段是站点的次目录，最后一段是站点的内容ID。像这样的URL也是标准的

　　不友好的URL示例：

　　如上图所示，这种链接乍一看是非常长和复杂的。有经验的网站管理员可以看到，此URL收录字符，并且此URL收录文章标题，导致URL太长。相对较长的URL并不优于简单的URL。百度站长平台的规则明确规定URL不能超过256字节，我个人建议URL长度控制在100字节以内，100个字符就足以显示URL的资源

　　如上图所示，此URL收录统计参数，可能导致重复爬行，浪费网站权益。因此，不能使用参数。如果必须使用参数，也可以保留必要的参数。参数字符可以使用常规连接器，如“？”和“&amp；”，以避免使用非主流连接器

　　2、Rational discovery链接：

　　爬虫是从主页上逐层抓取的，因此需要做好主页与资源页面之间的URL关系。这样，爬行动物抓东西相对省力

　　如上图所示，从主页到特定内容的超链接路径关系称为发现链接。目前，大多数移动台都不太关注发现链接关系，因此爬虫无法抓取内容页面

　　如上图所示，这两个站点是移动的网站通用站点构建方法。从链接发现的角度来看，这两种类型的站点是不友好的

　　Feed-stream推荐：大多数提供Feed-streams的网站都有大量的后台数据，如果用户继续刷，就会出现新的内容。然而，无论你刷新多少次，你可能只刷了大约1%的内容，爬虫相当于一个用户。爬虫无法以这种方式抓取网站所有内容，因此一些页面爬虫将无法找到它，即使你有100万个内容，你可能只能捕获10000-20000个

　　仅搜索条目：如上图所示，主页上只有一个搜索框。用户需要输入关键词才能找到相应的内容，但爬虫无法进入关键词再爬网，所以爬虫只能爬网到首页，没有后链，自然爬网和收录都不理想

　　解决方案：索引页下的内容根据发布时间按相反顺序排序。这有一个优势。搜索引擎可以通过索引页面获取您的网站最新资源。此外，新发布的资源应该在索引页面上实时同步。许多纯静态网页已经更新了内容，但是主页（索引页）没有出现，这将导致搜索引擎无法通过索引页捕获最新资源。第三点是后链的URL（最新的文章）需要直接在源代码中公开，以便于搜索引擎捕获。最后，索引页越多越好。一些高质量的索引页面就足够了，比如长城，它基本上只使用主页作为索引页面

　　最后，我们来谈谈一个更有效的解决方案，就是通过百度站长资源平台直接主动提交资源，让搜索引擎绕过索引页面，直接抓取最新资源。这里我们需要注意两点

　　问：提交的资源越多越好

　　答：收录效果的核心始终是内容质量。如果提交大量低质量和淹没的资源，将导致惩罚性打击

　　问：为什么你提交了一个普通的收录却没有收到

　　答：资源提交只能加速资源发现，不能保证在短时间内捕获。当然，百度表示，该算法不断优化，以更快地捕获高质量内容

　　3、accessibility:

　　夹具应与网站相互作用，并确保网站的稳定性，然后夹具才能正常爬升。那么访问友好主要包括以下几个方面

　　访问速度优化：建议加载时间控制在2秒以内，因此用户和爬虫都会选择开启速度更快的网站。其次，避免不必要的跳跃。虽然这种情况只是一小部分，但网站中仍存在多个级别的跳转，爬虫很可能在多级别跳转的同时断开连接。从没有WWW的域名跳转到有WWW的域名，然后跳转到HTTPS，最后跳转到新站点是很常见的。在这种情况下，有一个三级或四级跳跃。如果有类似的网站版本，建议直接跳转到新域名

　　标准化HTTP返回码：正确使用普通301/302和404主要是常规问题。用常规方法解决它们。例如，如果遇到无效资源，请使用404而不是某些特殊的返回状态代码

　　访问稳定性优化：首先，尽量选择国内规模较大的DNS服务，确保站点的稳定性。事实上，阿里云对于域名的DNS来说是相对稳定可靠的。其次，小心使用技术手段阻止爬行。如果有不想在百度上显示的特定资源，可以使用机器人来阻止它们，例如，网站后台链接大多被机器人阻止。如果爬网频率过高，导致服务器压力过大，影响用户正常访问，可以通过资源平台的工具降低爬网频率。二是防止防火墙误拦截爬网。建议您将搜索引擎的UA添加到白名单中。最后一点是服务器的稳定性，特别是在短时间内提交大量高质量资源时。此时，我们必须注意服务器的稳定性，因为当您提交大量资源时，爬虫将增加。此时，是否会导致服务器打开压力过大？这个问题需要站长注意

　　如上图所示，这三个示例是第三方防火墙拦截的状态。当普通用户打开此状态时，搜索引擎在爬网时也将处于此状态。因此，如果我们遇到CC或DDoS，我们必须打开防火墙并释放搜索引擎的UA

　　4、识别百度爬虫

　　对于一些网站，可能会有针对用户的特殊优化，网站可能会想区分用户和爬虫进行优化，所以此时有必要识别百度爬虫

　　首先，用一种简单的方法，我们可以通过百度的UA识别百度爬虫。目前，百度PC、手机和applet是三种不同的UA。通过一种简单的识别方法，有第三方爬虫模仿百度爬虫，这让你无法识别它们。然后在这个时候，我们可以通过双向DNS解析认证进行区分。有关详细信息，请参阅“简单两步：教您快速识别百度蜘蛛”

　　问答环节

　　问：新网站会有新的爬网限制吗

　　答：对于任何新站，都没有捕获限制，但是从去年开始，我们已经开始支持新站，这样你的网站就可以先在百度上收录了。然后做出一个价值判断，那么如何让百度知道你是一个新网站呢？有两条捷径。第一点是提交给百度资源平台，第二点是去工业和信息化部进行ICP备案。我们可以从工业和信息化部获得ICP备案数据。备案后，我们知道有人建了一个新站点，这可以给新站点一个b

0

2021-09-23

百度搜索引擎优化指南v20

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

百度搜索引擎优化指南v20(百度资源平台公开课之网站抓取和收录的一个原理)

0 个评论

发起人

AI时代内容工厂

百度搜索引擎优化指南v20(百度资源平台公开课之网站抓取和收录的一个原理)

0 个评论

发起人

相关问题