谷歌计划处罚过度使用搜索引擎优化技术网站(图)

优采云发布时间: 2021-05-22 21:31

　　1：Google计划惩罚过度使用搜索引擎优化技术网站

　　3月19日消息，据国外媒体报道，一名Google工程师表示，Google目前正在准备重新组装其搜索引擎设备，因此，网站未经完全同意将难以过度使用搜索优化技术。赢。

　　根据报道，Google目前计划对网站过度使用搜索引擎优化技术进行处罚。 Google搜索引擎领域的Barry Schwartz发布了最近的西南西南会议小组讨论的视频片段，马特·卡茨（Matt Cutts）在其中讨论了该计划。

　　据了解，谷歌认为，为了确保“过度使用搜索引擎优化（SEO）网站和高满意度的用户网站”之间的公平性，施瓦茨（Schwartz）只是在准备采用这种措施。引用卡茨是这样说的。

　　“我们正在努力使GoogleBot变得更智能，以便我们能够提供更好的相关信息。与此同时，我们还试图找出滥用它的人，例如网页上有很多关键字，或者交换了太多链接和其他不遵循常规做法的网站。”

　　据报道，施瓦茨表示，这些变化将“在未来几个月或几周内”开始影响搜索结果，尽管Google尚未对此事发表官方评论。

　　在本周初，《*敏*感*词*日报》指出，谷歌将开始对其搜索系统进行史无前例的详细改造。这项革新将包括“语义搜索”，其中包括对搜索引擎优化，广告和页面排名结果的一些更改。

　　二：网站如何在优化中最大程度地减少对无效URL的爬网和索引编制

　　简而言之，该帖子指出了一个严重而现实的SEO问题：许多网站，尤其是B2C产品条件过滤系统（例如选择产品品牌，价格，尺寸，性能，参数等）将生成大量无效的URL之所以将其称为“无效”仅是从SEO的角度来看。这些URL不会产生SEO效果，但会产生负面影响。因此，这些URL并不是很好收录。原因包括：

　　大量过滤条件页面的内容重复或非常相似（大量复制内容会降低网站的整体质量）大量过滤条件页面没有相应的产品，并且该页面没有任何内容（例如选择“价格低于100元的42英寸LED电视”等）。大多数过滤器页面没有排名能力（排名能力远低于类别页面），但浪费了一定的重量。这些过滤器页面不是产品页面收录的必要通道（产品页面应具有其他内部链接来帮助抓取和收录）。对大量过滤条件页面进行抓取会极大地浪费蜘蛛的抓取时间，从而减少了有用页面的机会收录（过滤条件页面的组合非常多）。简而言之，该帖子指出了一个严重而现实的SEO问题：很多网站，尤其是对于B2C而言，产品条件过滤系统（例如作为选择产品品牌，公关冰块，大小，性能，参数等）将生成大量无效的网址。仅从SEO角度来看，将它们称为无效的原因就无法生成这些URL。相反，SEO产生负面影响，因此这些URL并不那么好收录。原因包括：

　　大量过滤条件页面的内容重复或非常相似（大量复制内容会降低网站的整体质量）大量过滤条件页面没有相应的产品，并且该页面没有内容（例如选择“ 100元以下的42英寸LED电视”），大多数过滤器页面没有排名能力（排名能力远低于类别页面），但浪费了一定的重量。并不是产品页面收录的必要渠道（产品页面应该具有其他内部链接来帮助抓取和收录）。抓取大量过滤条件页面会极大地浪费蜘蛛抓取时间，从而降低了抓取抓取工具的机会有用的页面收录（过滤条件页面的组合非常庞大），那么如何尝试防止这些URL被爬网和建立索引，收录什么呢？我提出了两种方法，但我没有认为它们可以完美解决。

　　第一种方法是将不希望使用的收录 URL保持为动态URL，甚至故意将其保持为动态以防止抓取和收录。但是，搜索引擎现在能够抓取收录动态网址，并且从技术上讲，它越来越少。尽管在一定程度上有太多参数，但这实际上不利于收录，但是4、 5个参数通常是可以的收录。我们无法确定需要多少参数来防止收录，因此不能用作可靠的方法。而且，这些URL接收内部链接并且没有排名能力，这仍然浪费了一定的重量。

　　第二种方法，机器人禁止收录。同样，URL接收内部链接，也接收权重。漫游器文件禁止抓取这些URL，因此无法传递接收到的权重（如果搜索引擎不抓取，搜索引擎将不知道是否存在任何导出链接），并且该页面会变成一个黑洞，只能限制权重输入。

　　使用nofollow到这些URL的链接并不完美。与禁止漫游器类似，nofollow对Google的影响是这些URL不会接收权重，但是权重并未分配给其他链接，因此权重也被浪费了。据称百度支持nofollow，但如何处理权重尚不清楚。

　　将这些URL链接放在Flash和JS中是没有用的。搜索引擎已经可以对Flash和JS中的链接进行爬网，并且据估计，它们将来会越来越擅长于爬网。许多SEO忽略的一点是JS中的链接不仅可以被爬网，而且可以像常规连接一样传输权重。

　　过滤条件链接也可以设为AJAX格式。用户单击它后，将不会访问新的URL，或者原创URL将在URL后面添加＃，并且不会被视为其他URL。像JS问题一样，搜索引擎正在积极尝试对AJAX中的内容进行爬网和爬网。这种方法不安全。

　　另一种方法是在页面的开头添加noindex + follow标记，这意味着该页面未编制索引，但是会跟踪页面上的链接。这可以解决复制内容的问题，也可以解决权重黑洞问题（权重可以与导出链接一起传输到其他页面）。无法解决的是浪费蜘蛛爬行时间的问题。这些页面仍将通过蜘蛛爬网（然后为了在页面的html中查看noindex + follow标记）进行爬网，对于某些网站，已过滤页面的数量非常大。搜寻这些页面后，蜘蛛程序没有足够的时间来搜寻有用的页面。

　　可以考虑的另一种方法是隐藏页面（隐藏），即使用程序检测访问者。如果它是搜索引擎蜘蛛，返回的页面将删除这些过滤器链接。如果是用户，它将返回到正常的过滤条件。页。这是一个理想的解决方案。唯一的问题是它可能被视为作弊。搜索引擎经常告诉SEO判断是否作弊的最高原则是：如果没有搜索引擎，您会这样做吗？换句话说，某种方法仅用于搜索引擎吗？显然，对搜索引擎（而不是用户）使用伪装来隐藏不希望被爬网的URL。尽管在这种情况下进行伪装的目的是美丽而不是恶意的，但存在风险，可以尝试大胆尝试。

　　另一种方法是使用规范标签。最大的问题是百度是否支持未知，规范标签是对搜索引擎的建议，而不是指令，这意味着标签搜索引擎可能不遵守它，这是没有用的。另外，规范标签的初衷是指定标准化的URL。筛选条件页面是否适用令人怀疑。毕竟，这些页面上的内容通常是不同的。

　　当前更好的方法之一是禁止iframe + robot。将代码的过滤部分放入iframe等效于调用其他文件的内容。对于搜索引擎，这部分内容不属于当前页面，也就是说，该内容是隐藏的。但是不属于当前页面并不意味着它不存在。搜索引擎可以在iframe中找到内容和链接，或对这些URL进行爬网，因此请添加漫游器以禁止爬网。 iframe中的内容仍然会有所减轻，但是由于iframe中的链接不会从当前页面转移，而仅从被调用文件转移，因此重量损失相对较小。除了诸如排版和浏览器兼容性之类的令人头疼的问题之外，iframe方法的潜在问题还包括被视为作弊的风险。现在，搜索引擎通常不认为iframe作弊。许多广告都放置在iframe中，但是隐藏一堆链接和隐藏广告之间存在细微的区别。回到搜索引擎作弊的一般原理，很难说这不是专门针对搜索引擎的。请记住，马特·卡茨（Matt Cutts）说过，Google将来可能会改变其处理iframe的方式，他们仍然希望在同一页面上看到普通用户可以看到的所有内容。

　　简而言之，对于这个现实而严重的问题，我目前还没有一个完美的答案。当然，如果不能完美解决问题，就无法生存。不同的网站 SEO重点不同，并且会详细分析特定的问题。使用上述一种或多种方法应该可以解决主要问题。

　　最大的问题不是上面的问题，但是有时候您希望这些筛选的页面被爬网，收录，这是杯赛的开始。以后再讨论。

　　一种方法是将不希望使用的收录 URL保留为动态URL，甚至故意将其保留为动态URL以防止抓取和收录。但是，搜索引擎现在能够抓取收录动态网址，并且从技术上讲，它越来越少。尽管在一定程度上有太多参数，但这实际上不利于收录，但是4、 5个参数通常是可以的收录。我们无法确定需要多少参数来防止收录，因此不能用作可靠的方法。而且，这些URL接收内部链接并且没有排名能力，这仍然浪费了一定的重量。

　　第二种方法，机器人禁止收录。同样，URL接收内部链接，也接收权重。漫游器文件禁止抓取这些URL，因此无法传递接收到的权重（如果搜索引擎不抓取，搜索引擎将不知道是否存在任何导出链接），并且该页面会变成一个黑洞，只能限制权重输入。

　　使用nofollow到这些URL的链接并不完美。与禁止漫游器类似，nofollow对Google的影响是这些URL不会接收权重，但是权重并未分配给其他链接，因此权重也被浪费了。据称百度支持nofollow，但如何处理权重尚不清楚。

　　将这些URL链接放在Flash和JS中是没有用的。搜索引擎已经可以对Flash和JS中的链接进行爬网，并且估计它们将来会变得更好。许多SEO忽略的一点是JS中的链接不仅可以被爬网，而且可以像常规连接一样传输权重。

　　过滤条件链接也可以设为AJAX格式。用户单击它后，将无法访问新的URL，或者原创URL将在URL后面添加＃，并且不会被视为其他URL。像JS问题一样，搜索引擎正在积极尝试对AJAX中的内容进行爬网和爬网。这种方法不安全。

　　另一种方法是在页面的开头添加noindex + follow标记，这意味着该页面未编制索引，但是会跟踪页面上的链接。这可以解决复制内容的问题，也可以解决权重黑洞问题（权重可以与导出链接一起传输到其他页面）。无法解决的是浪费蜘蛛爬行时间的问题。这些页面仍将通过蜘蛛爬网（然后为了在页面的html中查看noindex + follow标记）进行爬网，对于某些网站，已过滤页面的数量非常大。搜寻这些页面后，蜘蛛程序没有足够的时间来搜寻有用的页面。

　　可以考虑的另一种方法是隐藏页面（隐藏），即使用程序检测访问者。如果它是搜索引擎蜘蛛，返回的页面将删除这些过滤器链接。如果是用户，它将返回到正常的过滤条件。页。这是一个理想的解决方案。唯一的问题是它可能被视为作弊。搜索引擎经常告诉SEO判断是否作弊的最高原则是：如果没有搜索引擎，您会这样做吗？换句话说，某种方法仅用于搜索引擎吗？显然，对搜索引擎（而不是用户）使用伪装来隐藏不希望被爬网的URL。尽管在这种情况下进行伪装的目的是美丽而不是恶意的，但存在风险，可以尝试大胆尝试。

　　另一种方法是使用规范标签。最大的问题是百度是否支持未知，规范标签是对搜索引擎的建议，而不是指令，这意味着标签搜索引擎可能不遵守它，这是没有用的。另外，规范标签的初衷是指定标准化的URL。筛选条件页面是否适用令人怀疑。毕竟，这些页面上的内容通常是不同的。

　　当前更好的方法之一是禁止iframe + robot。将代码的过滤部分放入iframe等效于调用其他文件的内容。对于搜索引擎，这部分内容不属于当前页面，也就是说，该内容是隐藏的。但是不属于当前页面并不意味着它不存在。搜索引擎可以在iframe中找到内容和链接，或对这些URL进行爬网，因此请添加漫游器以禁止爬网。 iframe中的内容仍然会有所减轻，但是由于iframe中的链接不会从当前页面转移，而仅从被调用文件转移，因此重量损失相对较小。除了诸如排版和浏览器兼容性之类的令人头疼的问题之外，iframe方法的潜在问题还包括被视为作弊的风险。现在，搜索引擎通常不认为iframe作弊。许多广告都放置在iframe中，但是隐藏一堆链接和隐藏广告之间存在细微的区别。回到搜索引擎作弊的一般原理，很难说这不是专门针对搜索引擎的。请记住，马特·卡茨（Matt Cutts）说过，Google将来可能会改变其处理iframe的方式，他们仍然希望在同一页面上看到普通用户可以看到的所有内容。

　　简而言之，对于这个现实而严重的问题，我目前还没有一个完美的答案。当然，如果不能完美解决问题，就无法生存。不同的网站 SEO重点不同，并且将对具体问题进行详细分析。使用上述一种或多种方法应该可以解决主要问题。

　　最大的问题不是上面的问题，但是有时候您希望这些筛选的页面被爬网，收录，这是杯赛的开始。以后再讨论。

　　三：网站优化搜索引擎收录网页的四个阶段

　　作为SEO练习者，您不仅必须被搜索引擎抓取，还必须是收录。最重要的是在收录之后获得良好的排名。本文将简要分析搜索引擎收录的四个页面。阶段。每个网站和每个页面的排名都不同。看看您的网站处于哪个阶段？

　　网页收录的第一阶段：大小不一而足

　　搜索引擎的网络爬虫采用“大小取全”的策略，即将在网页中找到的链接添加到要逐个爬网的URL中，并将新的URL添加到要爬网的URL中。爬网的网页是通过机械方式添加的提取出来，虽然这种方法比较旧，但是效果非常好，这就是为什么许多网站管理员响应蜘蛛来访问的原因，但是没有收录原因，这只是第一步

　　网页第二阶段收录：网页评级

　　第二阶段是评估网页的重要性。 PageRank是一种众所周知的链接分析算法，可用于衡量网页的重要性。网站管理员自然可以使用PageRank来评估URL。为了排序，这是您热衷的“失败链”。一位朋友说，中国“失败连锁”市场的规模每年达数亿元*敏*感*词*。

　　采集器的目的是下载网页，但是PageRank是全局算法，也就是说，当所有网页都下载完后，计算结果是可靠的。对于中小型网站，如果服务器的质量不佳，并且在爬网过程中仅看到部分内容，则在爬网阶段无法获得可靠的PageRank分数。

　　网页收录第三阶段：OCIP策略

　　OCIP策略更像是对PageRank算法的改进。在算法开始之前，每个网页都被赋予相同的“*敏*感*词*”。每当下载页面A时，A都会将其“*敏*感*词*”平均分配到该页面中收录的链接页面，并清除其“*敏*感*词*”。这是链接输出越少，权重越高的原因之一。

　　对于要爬网的网页，将根据手头*敏*感*词*量对*敏*感*词*最多的网页进行排序，然后首先下载*敏*感*词*最多的网页。 OCIP与PageRank大致相同。区别在于：PageRank每次都需要迭代计算，而OCIP则不需要，因此计算速度比PageRank快得多，适合实时计算。这可能就是许多网页具有“第二次采集”的原因。

　　网页收录第四阶段：大网站优先策略

　　优先考虑大型网站的想法非常简单。它以网站为单位来衡量网页的重要性。对于要爬网的URL队列中的网页，如果网站等待等待，它们将根据网站进行分类。下载最多的页面将优先下载这些链接。基本思想是“倾向于先下载大的网站 URL”。因为大网站倾向于收录更多页面。鉴于大型网站通常是著名的网站，并且它们的网页通常质量较高，因此这个想法很简单，但是有一定的基础。

　　实验表明，尽管该算法简单，粗鲁，但它可以收录个高质量的网页，并且非常有效。这也是重印网站的很多内容，但可以将大电台放到您前面的最重要原因之一。

0

2021-05-22

google搜索引擎优化

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

谷歌计划处罚过度使用搜索引擎优化技术网站(图)

0 个评论

发起人

AI时代内容工厂

谷歌计划处罚过度使用搜索引擎优化技术网站(图)

0 个评论

发起人

相关问题