robots.txt搜索引擎蜘蛛会在网站上的特定文件

优采云 发布时间: 2021-04-26 20:03

  robots.txt搜索引擎蜘蛛会在网站上的特定文件

  当搜索引擎程序获取网站时,我们实际上可以通过相关文档进行指导。

  仅了解搜索引擎蜘蛛将使用链接来了解您网站上的信息。但是他们也正在浏览网站代码以及目录中的特定文件,标签和元素。接下来,让我们看一下这些元素是什么。

  robots.txt

  当搜索引擎蜘蛛抓取网站时,首先要做的是首先抓取robots.txt文件。

  对于复杂的网站,robots.txt文件必不可少。对于只有几页的小网站,可能不需要robots.txt文件。没有它,搜索引擎蜘蛛将抓取网站上的所有内容。

  使用robots.txt文件引导搜索引擎蜘蛛的主要方法有两种。

  1.首先,可以使用“禁止”命令。这将引导蜘蛛忽略特定的URL文件,文件扩展名甚至整个网站部分:

  用户代理:Googlebot

  不允许:/ example /

  尽管disallow指令可以防止Spider抓取网站的特定部分(从而节省抓取预算),但不一定会阻止该页面被索引并显示在搜索结果中,例如,您可以看到在这里:

  2.另一种方法是使用noindex命令。不为页面或文件建立索引不会阻止对其进行爬网,但是会阻止对页面或文件进行索引(或将其从索引中删除)。 Google非正式支持此robots.txt命令,而百度/必应则完全不支持该命令:

  用户代理:Googlebot

  Noindex:/ example /

  用户代理:*

  不允许:/ example /

  显然,由于这些页面仍在被抓取中,因此它们仍将使用您的抓取预算。

  这是一个经常被忽略的问题:disallow指令实际上会撤消搜索引擎Spider的noindex标记的工作。这是因为disallow会阻止蜘蛛访问网页的内容,从而阻止看到和观察元标记。

  另一个使用robots.txt协议来告诉搜索引擎哪些页面可以被爬网,哪些页面不能被爬网。当然,并不是所有的蜘蛛都表现良好,甚至有一些甚至会忽略您的指令(特别是恶意软件寻找漏洞)。

  

  XML网站地图

  XML网站地图可帮助蜘蛛了解网站的基本结构。请注意,蜘蛛程序将站点地图用作线索,而不是权威的指南来学习如何建立索引网站。机器人还将考虑其他因素(例如您的内部链接结构)来确定您的网站是什么。

  使用可扩展标记语言(XML)网站地图最重要的是确保发送到搜索引擎的消息与robots.txt文件一致。

  不要将被robots.txt阻止的文件内容发送给搜索引擎;考虑到网站的抓取预算,我们在这里绝对不能犯错误。

  第二个重要的事情是确保XML网站地图仅收录规范的URL,因为Baidu / Google将XML网站地图视为规范的信号。

  URL规范化

  如果网站上存在重复的内容(我们应避免重复的内容),则rel =“ canonical”链接元素会告知蜘蛛网哪个URL应被视为主要版本。

  如果不使用规范标记,将导致搜索引擎收录搜索具有不同URL的页面,但网站上的内容相同,这将使搜索引擎错误地认为该页面上有很多重复的页面网站,从而减少对网站]进行评估的权利。

  分页

  正确设置rel =“ next”和rel =“ prev”链接元素非常重要。如果电子商务网站的每个类别中都有很多产品,则要避免陷入搜索引擎的重复内容过滤器中,那么rel = next和rel = prev非常重要。

  假设网站有50种不同的模型可供选择。在主类别页面上,用户可以查看排名前10的产品,每个产品都有一个产品名称和一个缩略图。然后,他们可以单击“下一页”以查看接下来的10个结果,依此类推。

  这些页面中的每个页面将具有相同或非常相似的标题,元描述和页面内容,因此主类别页面的标题应具有rel =“ next”(没有rel =“ prev”,因为它是First页)超文本标记语言(HTML)。在随后的每个页面中添加rel =“ next”和rel =“ prev”链接元素将告诉采集器您要将这些页面用作序列。

  或者,如果我们有内容的“查看全部”页面,则可以将其标准化为所有分页页面上的“查看全部”页面,并完全跳过rel = prev / next。缺点是“查看全部”页面可能会出现在搜索结果中。如果页面加载时间太长,搜索访问者的跳出率将会很高,这不是一件好事。

  如果没有rel =“ canonical”,rel =“ next”和rel =“ prev”链接元素,则这些页面将相互竞争以进行排名,并且存在重复内容过滤的风险。如果实施正确,则rel = prev / next会指示Google将序列视为一页,或者将rel = canonical视为将权重分配给“查看全部”页面。 (关于分页​​优化技术,每个人都可以查看此文章:分页分页优化技术)

  常见编码问题

  想要获得良好排名的网站由许多因素决定。其中,一个非常重要,也就是:一个页*敏*感*词*有简洁的代码(Google的移动优先索引)非常重要。这将使搜索引擎更容易识别页面上的重要内容。很小的错误很可能会导致蜘蛛混淆抓取工具,并导致搜索结果出现严重问题。

  以下是一些基本的注意事项:

  1.无限空间(又称蜘蛛陷阱)。不良的编码有时会无意间导致“无限空间”或“蜘蛛陷阱”。诸如指向相同内容的无尽URL或以多种方式呈现相同信息的页面之类的问题,或具有不同日期的无限日历的日历可能会导致蜘蛛卡在循环中,从而迅速耗尽您的抓取预算。

  在404错误页面的HTTP标头中错误地提供200状态代码是另一种表示方式。因此,正确的页面状态代码也非常重要,并且还可以节省抓取预算。

  当蜘蛛遇到大量压缩或重复的内容时,它最终会放弃,这可能意味着它永远不会获得最佳内容,并且会在索引中产生一堆无用的页面。

  2.嵌入的内容。如果您希望蜘蛛程序有效地抓取网站的内容,则最好保持简单。搜索引擎蜘蛛经常会遇到JavaScript,框架,Flash以及异步JavaScript和XML(AJAX)的问题。尽管百度/ Google在抓取诸如Javascript和AJAX之类的格式方面越来越好,但使用HTML最安全。

  一个常见的例子是无限滚动网站的使用。尽管它可以提高可用性,但可能会使搜索引擎难以正确地对内容进行爬网和编制索引。即使每个文章或产品页面都以滚动格式显示,也要确保每个文章或产品页面都有一个唯一的URL,并通过传统的链接结构进行连接。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线