robots.txt搜索引擎蜘蛛会在网站上的特定文件

优采云发布时间: 2021-04-26 20:03

　　当搜索引擎程序获取网站时，我们实际上可以通过相关文档进行指导。

　　仅了解搜索引擎蜘蛛将使用链接来了解您网站上的信息。但是他们也正在浏览网站代码以及目录中的特定文件，标签和元素。接下来，让我们看一下这些元素是什么。

　　robots.txt

　　当搜索引擎蜘蛛抓取网站时，首先要做的是首先抓取robots.txt文件。

　　对于复杂的网站，robots.txt文件必不可少。对于只有几页的小网站，可能不需要robots.txt文件。没有它，搜索引擎蜘蛛将抓取网站上的所有内容。

　　使用robots.txt文件引导搜索引擎蜘蛛的主要方法有两种。

　　1.首先，可以使用“禁止”命令。这将引导蜘蛛忽略特定的URL文件，文件扩展名甚至整个网站部分：

　　用户代理：Googlebot

　　不允许：/ example /

　　尽管disallow指令可以防止Spider抓取网站的特定部分（从而节省抓取预算），但不一定会阻止该页面被索引并显示在搜索结果中，例如，您可以看到在这里：

　　2.另一种方法是使用noindex命令。不为页面或文件建立索引不会阻止对其进行爬网，但是会阻止对页面或文件进行索引（或将其从索引中删除）。 Google非正式支持此robots.txt命令，而百度/必应则完全不支持该命令：

　　用户代理：Googlebot

　　Noindex：/ example /

　　用户代理：*

　　不允许：/ example /

　　显然，由于这些页面仍在被抓取中，因此它们仍将使用您的抓取预算。

　　这是一个经常被忽略的问题：disallow指令实际上会撤消搜索引擎Spider的noindex标记的工作。这是因为disallow会阻止蜘蛛访问网页的内容，从而阻止看到和观察元标记。

　　另一个使用robots.txt协议来告诉搜索引擎哪些页面可以被爬网，哪些页面不能被爬网。当然，并不是所有的蜘蛛都表现良好，甚至有一些甚至会忽略您的指令（特别是恶意软件寻找漏洞）。

　　XML网站地图

　　XML网站地图可帮助蜘蛛了解网站的基本结构。请注意，蜘蛛程序将站点地图用作线索，而不是权威的指南来学习如何建立索引网站。机器人还将考虑其他因素（例如您的内部链接结构）来确定您的网站是什么。

　　使用可扩展标记语言（XML）网站地图最重要的是确保发送到搜索引擎的消息与robots.txt文件一致。

　　不要将被robots.txt阻止的文件内容发送给搜索引擎；考虑到网站的抓取预算，我们在这里绝对不能犯错误。

　　第二个重要的事情是确保XML网站地图仅收录规范的URL，因为Baidu / Google将XML网站地图视为规范的信号。

　　URL规范化

　　如果网站上存在重复的内容（我们应避免重复的内容），则rel =“ canonical”链接元素会告知蜘蛛网哪个URL应被视为主要版本。

　　如果不使用规范标记，将导致搜索引擎收录搜索具有不同URL的页面，但网站上的内容相同，这将使搜索引擎错误地认为该页面上有很多重复的页面网站，从而减少对网站]进行评估的权利。

　　分页

　　正确设置rel =“ next”和rel =“ prev”链接元素非常重要。如果电子商务网站的每个类别中都有很多产品，则要避免陷入搜索引擎的重复内容过滤器中，那么rel = next和rel = prev非常重要。

　　假设网站有50种不同的模型可供选择。在主类别页面上，用户可以查看排名前10的产品，每个产品都有一个产品名称和一个缩略图。然后，他们可以单击“下一页”以查看接下来的10个结果，依此类推。

　　这些页面中的每个页面将具有相同或非常相似的标题，元描述和页面内容，因此主类别页面的标题应具有rel =“ next”（没有rel =“ prev”，因为它是First页）超文本标记语言（HTML）。在随后的每个页面中添加rel =“ next”和rel =“ prev”链接元素将告诉采集器您要将这些页面用作序列。

　　或者，如果我们有内容的“查看全部”页面，则可以将其标准化为所有分页页面上的“查看全部”页面，并完全跳过rel = prev / next。缺点是“查看全部”页面可能会出现在搜索结果中。如果页面加载时间太长，搜索访问者的跳出率将会很高，这不是一件好事。

　　如果没有rel =“ canonical”，rel =“ next”和rel =“ prev”链接元素，则这些页面将相互竞争以进行排名，并且存在重复内容过滤的风险。如果实施正确，则rel = prev / next会指示Google将序列视为一页，或者将rel = canonical视为将权重分配给“查看全部”页面。（关于分页优化技术，每个人都可以查看此文章：分页分页优化技术）

　　常见编码问题

　　想要获得良好排名的网站由许多因素决定。其中，一个非常重要，也就是：一个页*敏*感*词*有简洁的代码（Google的移动优先索引）非常重要。这将使搜索引擎更容易识别页面上的重要内容。很小的错误很可能会导致蜘蛛混淆抓取工具，并导致搜索结果出现严重问题。

　　以下是一些基本的注意事项：

　　1.无限空间（又称蜘蛛陷阱）。不良的编码有时会无意间导致“无限空间”或“蜘蛛陷阱”。诸如指向相同内容的无尽URL或以多种方式呈现相同信息的页面之类的问题，或具有不同日期的无限日历的日历可能会导致蜘蛛卡在循环中，从而迅速耗尽您的抓取预算。

　　在404错误页面的HTTP标头中错误地提供200状态代码是另一种表示方式。因此，正确的页面状态代码也非常重要，并且还可以节省抓取预算。

　　当蜘蛛遇到大量压缩或重复的内容时，它最终会放弃，这可能意味着它永远不会获得最佳内容，并且会在索引中产生一堆无用的页面。

　　2.嵌入的内容。如果您希望蜘蛛程序有效地抓取网站的内容，则最好保持简单。搜索引擎蜘蛛经常会遇到JavaScript，框架，Flash以及异步JavaScript和XML（AJAX）的问题。尽管百度/ Google在抓取诸如Javascript和AJAX之类的格式方面越来越好，但使用HTML最安全。

　　一个常见的例子是无限滚动网站的使用。尽管它可以提高可用性，但可能会使搜索引擎难以正确地对内容进行爬网和编制索引。即使每个文章或产品页面都以滚动格式显示，也要确保每个文章或产品页面都有一个唯一的URL，并通过传统的链接结构进行连接。

0

2021-04-26

网站内容搜索

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

robots.txt搜索引擎蜘蛛会在网站上的特定文件

0 个评论

发起人

AI时代内容工厂

robots.txt搜索引擎蜘蛛会在网站上的特定文件

0 个评论

发起人

相关问题