搜索引擎优化有什么用(一个搜索引擎程序抓取网站时的信息引导的蜘蛛方法)
优采云 发布时间: 2022-01-26 06:26搜索引擎优化有什么用(一个搜索引擎程序抓取网站时的信息引导的蜘蛛方法)
当一个搜索引擎程序爬取网站时,我们其实可以通过相关文件来引导它。很容易理解,搜索引擎蜘蛛使用链接来了解您的 网站 上的信息。但他们也在浏览特定文件、标签和元素的 网站 代码和目录。
机器人.txt
当搜索引擎蜘蛛抓取 网站 时,它做的第一件事就是抓取 robots.txt 文件。robots.txt 文件对于复杂的 网站 是必不可少的。对于只有几页的小网站s,可能不需要robots.txt文件。没有它,搜索引擎蜘蛛会抓取 网站 上的所有内容。
使用 robots.txt 文件引导搜索引擎蜘蛛的主要方法有两种。
首先,可以使用“禁用”指令。这指示蜘蛛忽略特定的 URL 文件、文件扩展名甚至是 网站 的整个部分:
用户代理:Googlebot
禁止:/example/
虽然 disallow 指令会阻止蜘蛛抓取您的 网站 的特定部分(从而节省抓取预算),但它不一定会阻止该页面被编入索引并出现在搜索结果中,如下所示:
另一种方法是使用 noindex 指令。不对页面或文件编制索引不会阻止它被抓取,但是,它会阻止它被索引(或将其从索引中删除)。这个 robots.txt 指令是谷歌非官方支持的,百度/必应完全不支持:
用户代理:Googlebot
无索引:/example/
用户代理: *
禁止:/example/
显然,由于这些页面仍在被抓取,它们仍然会使用您的抓取预算。这是一个经常被忽视的问题:disallow 指令实际上撤消了搜索引擎蜘蛛的 noindex 标签的工作。这是因为 disallow 阻止蜘蛛访问网页的内容,从而阻止查看和尊重元标记。另一个使用 robots.txt 协议来告诉搜索引擎哪些页面可以和不能被抓取。当然,并非所有蜘蛛都表现良好,有些甚至会忽略您的命令(尤其是寻找错误的恶意机器人)。
XML 站点地图
XML 站点地图帮助蜘蛛了解站点的基础设施。请注意,蜘蛛使用站点地图作为关于如何索引 网站 的线索,而不是权威指南。该机器人还会考虑其他因素(例如您的内部链接结构)来确定您的 网站 是关于什么的。使用可扩展标记语言 (XML) 站点地图最重要的是确保发送到搜索引擎的消息与您的 robots.txt 文件一致。不要将已通过 robots.txt 屏蔽的文件内容发送给搜索引擎;鉴于 网站 抓取预算,所以我们不要在这里犯错。第二个最重要的事情是确保 XML 站点地图只收录规范的 URL,因为百度/谷歌会将 XML 站点地图视为规范化信号。
URL 规范化
如果网站上有重复的内容(我们应该避免),rel="canonical" 链接元素会告诉蜘蛛哪个 URL 应该被视为主要版本。如果不使用canonical标签,会导致网站上URL不同但内容相同的页面被搜索引擎收录搜索,从而使搜索引擎误认为有很多重复页面在 网站 上,从而减少对 网站 的评论成本。
分页
正确设置 rel=”next” 和 rel=”prev” 链接元素非常重要。如果电子商务 网站 每个类别有很多产品,如果您想避免陷入搜索引擎重复内容过滤器,rel=next 和 rel=prev 非常重要。
假设 网站有 50 种不同的模型可供选择。在主类别页面上,用户可以查看前 10 个产品,每个产品都有一个产品名称和一个缩略图。然后他们可以单击“下一步”查看接下来的 10 个结果,依此类推。
这些页面中的每一个都将具有相同或非常相似的标题、元描述和页面内容,因此主类别页面的头部应该有一个 rel="next"(没有 rel="prev",因为它是第一页)超文本标记语言 (HTML)。将 rel="next" 和 rel="prev" 链接元素添加到每个后续页面会告诉爬虫您希望将这些页面用作序列。或者,如果我们有该内容的“查看全部”页面,我们可以在所有分页页面上规范化为“查看全部”页面并完全跳过 rel=prev/next。缺点是“查看全部”页面可能会出现在搜索结果中。如果页面加载时间过长,搜索访问者的跳出率就会很高,这不是一件好事。
如果没有 rel="canonical"、rel="next" 和 rel="prev" 链接元素,这些页面将相互竞争排名并冒重复内容过滤的风险。正确实施,rel=prev/next 将指示 Google 将序列视为一页,或 rel=canonical 将所有权重分配给“查看全部”页面。(分页优化技巧可以查看这个文章:页面分页优化技巧)
常见的编码问题
一个网站想要有一个好的排名,这是由很多因素决定的,其中一个很重要,那么就是:一个页面有简洁的代码(谷歌的移动优先索引)是很重要的。这将使搜索引擎更容易识别页面的重要内容。一个小错误很有可能会导致蜘蛛混淆爬虫并导致搜索结果出现严重问题。
以下是一些需要注意的基本事项:
无限空间(又名蜘蛛陷阱)。糟糕的编码有时会在不经意间造成“无限空间”或“蜘蛛陷阱”。诸如指向相同内容的无限 URL 或以多种方式呈现相同信息的页面或具有不同日期的无限日历的日历等问题可能会导致蜘蛛卡在循环中,从而迅速耗尽您的抓取预算。在 404 错误页面的超文本传输协议安全 (HTTP) 标头中错误地提供 200 状态码是另一种呈现方式,因此正确的页面状态码也非常重要,可以节省爬取预算。当蜘蛛遇到大量精简或重复的内容时,它最终会放弃,这可能意味着它永远无法获得最好的内容,最终会在索引中出现一堆无用的页面。
嵌入的内容。如果您希望蜘蛛有效地抓取 网站 的内容,最好保持简单。搜索引擎蜘蛛经常遇到 JavaScript、框架、Flash 和异步 JavaScript 和 XML (AJAX) 的问题。虽然百度/谷歌在抓取 Javascript 和 AJAX 等格式方面做得越来越好,但使用 HTML 是最安全的。一个常见的例子是无限滚动的 网站。虽然它可能会提高可用性,但可能会使搜索引擎难以正确抓取和索引您的内容。确保每个 文章 或产品页面都有一个唯一的 URL 并通过传统的链接结构连接,即使它以滚动格式显示。