谷歌计划处罚过度使用搜索引擎优化技术网站(图)

优采云 发布时间: 2021-05-22 21:31

  谷歌计划处罚过度使用搜索引擎优化技术网站(图)

  1:Google计划惩罚过度使用搜索引擎优化技术网站

  3月19日消息,据国外媒体报道,一名Google工程师表示,Google目前正在准备重新组装其搜索引擎设备,因此,网站未经完全同意将难以过度使用搜索优化技术。赢。

  根据报道,Google目前计划对网站过度使用搜索引擎优化技术进行处罚。 Google搜索引擎领域的Barry Schwartz发布了最近的西南西南会议小组讨论的视频片段,马特·卡茨(Matt Cutts)在其中讨论了该计划。

  据了解,谷歌认为,为了确保“过度使用搜索引擎优化(SEO)网站和高满意度的用户网站”之间的公平性,施瓦茨(Schwartz)只是在准备采用这种措施。引用卡茨是这样说的。

  “我们正在努力使GoogleBot变得更智能,以便我们能够提供更好的相关信息。与此同时,我们还试图找出滥用它的人,例如网页上有很多关键字,或者交换了太多链接和其他不遵循常规做法的网站。”

  据报道,施瓦茨表示,这些变化将“在未来几个月或几周内”开始影响搜索结果,尽管Google尚未对此事发表官方评论。

  在本周初,《*敏*感*词*日报》指出,谷歌将开始对其搜索系统进行史无前例的详细改造。这项革新将包括“语义搜索”,其中包括对搜索引擎优化,广告和页面排名结果的一些更改。

  二:网站如何在优化中最大程度地减少对无效URL的爬网和索引编制

  简而言之,该帖子指出了一个严重而现实的SEO问题:许多网站,尤其是B2C产品条件过滤系统(例如选择产品品牌,价格,尺寸,性能,参数等)将生成大量无效的URL之所以将其称为“无效”仅是从SEO的角度来看。这些URL不会产生SEO效果,但会产生负面影响。因此,这些URL并不是很好收录。原因包括:

  大量过滤条件页面的内容重复或非常相似(大量复制内容会降低网站的整体质量)大量过滤条件页面没有相应的产品,并且该页面没有任何内容(例如选择“价格低于100元的42英寸LED电视”等)。大多数过滤器页面没有排名能力(排名能力远低于类别页面),但浪费了一定的重量。这些过滤器页面不是产品页面收录的必要通道(产品页面应具有其他内部链接来帮助抓取和收录)。对大量过滤条件页面进行抓取会极大地浪费蜘蛛的抓取时间,从而减少了有用页面的机会收录(过滤条件页面的组合非常多)。简而言之,该帖子指出了一个严重而现实的SEO问题:很多网站,尤其是对于B2C而言,产品条件过滤系统(例如作为选择产品品牌,公关冰块,大小,性能,参数等)将生成大量无效的网址。仅从SEO角度来看,将它们称为无效的原因就无法生成这些URL。相反,SEO产生负面影响,因此这些URL并不那么好收录。原因包括:

  大量过滤条件页面的内容重复或非常相似(大量复制内容会降低网站的整体质量)大量过滤条件页面没有相应的产品,并且该页面没有内容(例如选择“ 100元以下的42英寸LED电视”),大多数过滤器页面没有排名能力(排名能力远低于类别页面),但浪费了一定的重量。并不是产品页面收录的必要渠道(产品页面应该具有其他内部链接来帮助抓取和收录)。抓取大量过滤条件页面会极大地浪费蜘蛛抓取时间,从而降低了抓取抓取工具的机会有用的页面收录(过滤条件页面的组合非常庞大),那么如何尝试防止这些URL被爬网和建立索引,收录什么呢?我提出了两种方法,但我没有认为它们可以完美解决。

  第一种方法是将不希望使用的收录 URL保持为动态URL,甚至故意将其保持为动态以防止抓取和收录。但是,搜索引擎现在能够抓取收录动态网址,并且从技术上讲,它越来越少。尽管在一定程度上有太多参数,但这实际上不利于收录,但是4、 5个参数通常是可以的收录。我们无法确定需要多少参数来防止收录,因此不能用作可靠的方法。而且,这些URL接收内部链接并且没有排名能力,这仍然浪费了一定的重量。

  第二种方法,机器人禁止收录。同样,URL接收内部链接,也接收权重。漫游器文件禁止抓取这些URL,因此无法传递接收到的权重(如果搜索引擎不抓取,搜索引擎将不知道是否存在任何导出链接),并且该页面会变成一个黑洞,只能限制权重输入。

  使用nofollow到这些URL的链接并不完美。与禁止漫游器类似,nofollow对Google的影响是这些URL不会接收权重,但是权重并未分配给其他链接,因此权重也被浪费了。据称百度支持nofollow,但如何处理权重尚不清楚。

  将这些URL链接放在Flash和JS中是没有用的。搜索引擎已经可以对Flash和JS中的链接进行爬网,并且据估计,它们将来会越来越擅长于爬网。许多SEO忽略的一点是JS中的链接不仅可以被爬网,而且可以像常规连接一样传输权重。

  过滤条件链接也可以设为AJAX格式。用户单击它后,将不会访问新的URL,或者原创URL将在URL后面添加#,并且不会被视为其他URL。像JS问题一样,搜索引擎正在积极尝试对AJAX中的内容进行爬网和爬网。这种方法不安全。

  另一种方法是在页面的开头添加noindex + follow标记,这意味着该页面未编制索引,但是会跟踪页面上的链接。这可以解决复制内容的问题,也可以解决权重黑洞问题(权重可以与导出链接一起传输到其他页面)。无法解决的是浪费蜘蛛爬行时间的问题。这些页面仍将通过蜘蛛爬网(然后为了在页面的html中查看noindex + follow标记)进行爬网,对于某些网站,已过滤页面的数量非常大。搜寻这些页面后,蜘蛛程序没有足够的时间来搜寻有用的页面。

  可以考虑的另一种方法是隐藏页面(隐藏),即使用程序检测访问者。如果它是搜索引擎蜘蛛,返回的页面将删除这些过滤器链接。如果是用户,它将返回到正常的过滤条件。页。这是一个理想的解决方案。唯一的问题是它可能被视为作弊。搜索引擎经常告诉SEO判断是否作弊的最高原则是:如果没有搜索引擎,您会这样做吗?换句话说,某种方法仅用于搜索引擎吗?显然,对搜索引擎(而不是用户)使用伪装来隐藏不希望被爬网的URL。尽管在这种情况下进行伪装的目的是美丽而不是恶意的,但存在风险,可以尝试大胆尝试。

  另一种方法是使用规范标签。最大的问题是百度是否支持未知,规范标签是对搜索引擎的建议,而不是指令,这意味着标签搜索引擎可能不遵守它,这是没有用的。另外,规范标签的初衷是指定标准化的URL。筛选条件页面是否适用令人怀疑。毕竟,这些页面上的内容通常是不同的。

  当前更好的方法之一是禁止iframe + robot。将代码的过滤部分放入iframe等效于调用其他文件的内容。对于搜索引擎,这部分内容不属于当前页面,也就是说,该内容是隐藏的。但是不属于当前页面并不意味着它不存在。搜索引擎可以在iframe中找到内容和链接,或对这些URL进行爬网,因此请添加漫游器以禁止爬网。 iframe中的内容仍然会有所减轻,但是由于iframe中的链接不会从当前页面转移,而仅从被调用文件转移,因此重量损失相对较小。除了诸如排版和浏览器兼容性之类的令人头疼的问题之外,iframe方法的潜在问题还包括被视为作弊的风险。现在,搜索引擎通常不认为iframe作弊。许多广告都放置在iframe中,但是隐藏一堆链接和隐藏广告之间存在细微的区别。回到搜索引擎作弊的一般原理,很难说这不是专门针对搜索引擎的。请记住,马特·卡茨(Matt Cutts)说过,Google将来可能会改变其处理iframe的方式,他们仍然希望在同一页面上看到普通用户可以看到的所有内容。

  简而言之,对于这个现实而严重的问题,我目前还没有一个完美的答案。当然,如果不能完美解决问题,就无法生存。不同的网站 SEO重点不同,并且会详细分析特定的问题。使用上述一种或多种方法应该可以解决主要问题。

  最大的问题不是上面的问题,但是有时候您希望这些筛选的页面被爬网,收录,这是杯赛的开始。以后再讨论。

  一种方法是将不希望使用的收录 URL保留为动态URL,甚至故意将其保留为动态URL以防止抓取和收录。但是,搜索引擎现在能够抓取收录动态网址,并且从技术上讲,它越来越少。尽管在一定程度上有太多参数,但这实际上不利于收录,但是4、 5个参数通常是可以的收录。我们无法确定需要多少参数来防止收录,因此不能用作可靠的方法。而且,这些URL接收内部链接并且没有排名能力,这仍然浪费了一定的重量。

  第二种方法,机器人禁止收录。同样,URL接收内部链接,也接收权重。漫游器文件禁止抓取这些URL,因此无法传递接收到的权重(如果搜索引擎不抓取,搜索引擎将不知道是否存在任何导出链接),并且该页面会变成一个黑洞,只能限制权重输入。

  使用nofollow到这些URL的链接并不完美。与禁止漫游器类似,nofollow对Google的影响是这些URL不会接收权重,但是权重并未分配给其他链接,因此权重也被浪费了。据称百度支持nofollow,但如何处理权重尚不清楚。

  将这些URL链接放在Flash和JS中是没有用的。搜索引擎已经可以对Flash和JS中的链接进行爬网,并且估计它们将来会变得更好。许多SEO忽略的一点是JS中的链接不仅可以被爬网,而且可以像常规连接一样传输权重。

  过滤条件链接也可以设为AJAX格式。用户单击它后,将无法访问新的URL,或者原创URL将在URL后面添加#,并且不会被视为其他URL。像JS问题一样,搜索引擎正在积极尝试对AJAX中的内容进行爬网和爬网。这种方法不安全。

  另一种方法是在页面的开头添加noindex + follow标记,这意味着该页面未编制索引,但是会跟踪页面上的链接。这可以解决复制内容的问题,也可以解决权重黑洞问题(权重可以与导出链接一起传输到其他页面)。无法解决的是浪费蜘蛛爬行时间的问题。这些页面仍将通过蜘蛛爬网(然后为了在页面的html中查看noindex + follow标记)进行爬网,对于某些网站,已过滤页面的数量非常大。搜寻这些页面后,蜘蛛程序没有足够的时间来搜寻有用的页面。

  可以考虑的另一种方法是隐藏页面(隐藏),即使用程序检测访问者。如果它是搜索引擎蜘蛛,返回的页面将删除这些过滤器链接。如果是用户,它将返回到正常的过滤条件。页。这是一个理想的解决方案。唯一的问题是它可能被视为作弊。搜索引擎经常告诉SEO判断是否作弊的最高原则是:如果没有搜索引擎,您会这样做吗?换句话说,某种方法仅用于搜索引擎吗?显然,对搜索引擎(而不是用户)使用伪装来隐藏不希望被爬网的URL。尽管在这种情况下进行伪装的目的是美丽而不是恶意的,但存在风险,可以尝试大胆尝试。

  另一种方法是使用规范标签。最大的问题是百度是否支持未知,规范标签是对搜索引擎的建议,而不是指令,这意味着标签搜索引擎可能不遵守它,这是没有用的。另外,规范标签的初衷是指定标准化的URL。筛选条件页面是否适用令人怀疑。毕竟,这些页面上的内容通常是不同的。

  当前更好的方法之一是禁止iframe + robot。将代码的过滤部分放入iframe等效于调用其他文件的内容。对于搜索引擎,这部分内容不属于当前页面,也就是说,该内容是隐藏的。但是不属于当前页面并不意味着它不存在。搜索引擎可以在iframe中找到内容和链接,或对这些URL进行爬网,因此请添加漫游器以禁止爬网。 iframe中的内容仍然会有所减轻,但是由于iframe中的链接不会从当前页面转移,而仅从被调用文件转移,因此重量损失相对较小。除了诸如排版和浏览器兼容性之类的令人头疼的问题之外,iframe方法的潜在问题还包括被视为作弊的风险。现在,搜索引擎通常不认为iframe作弊。许多广告都放置在iframe中,但是隐藏一堆链接和隐藏广告之间存在细微的区别。回到搜索引擎作弊的一般原理,很难说这不是专门针对搜索引擎的。请记住,马特·卡茨(Matt Cutts)说过,Google将来可能会改变其处理iframe的方式,他们仍然希望在同一页面上看到普通用户可以看到的所有内容。

  简而言之,对于这个现实而严重的问题,我目前还没有一个完美的答案。当然,如果不能完美解决问题,就无法生存。不同的网站 SEO重点不同,并且将对具体问题进行详细分析。使用上述一种或多种方法应该可以解决主要问题。

  最大的问题不是上面的问题,但是有时候您希望这些筛选的页面被爬网,收录,这是杯赛的开始。以后再讨论。

  三:网站优化搜索引擎收录网页的四个阶段

  作为SEO练习者,您不仅必须被搜索引擎抓取,还必须是收录。最重要的是在收录之后获得良好的排名。本文将简要分析搜索引擎收录的四个页面。阶段。每个网站和每个页面的排名都不同。看看您的网站处于哪个阶段?

  

  网页收录的第一阶段:大小不一而足

  搜索引擎的网络爬虫采用“大小取全”的策略,即将在网页中找到的链接添加到要逐个爬网的URL中,并将新的URL添加到要爬网的URL中。爬网的网页是通过机械方式添加的提取出来,虽然这种方法比较旧,但是效果非常好,这就是为什么许多网站管理员响应蜘蛛来访问的原因,但是没有收录原因,这只是第一步

  网页第二阶段收录:网页评级

  第二阶段是评估网页的重要性。 PageRank是一种众所周知的链接分析算法,可用于衡量网页的重要性。网站管理员自然可以使用PageRank来评估URL。为了排序,这是您热衷的“失败链”。一位朋友说,中国“失败连锁”市场的规模每年达数亿元*敏*感*词*。

  采集器的目的是下载网页,但是PageRank是全局算法,也就是说,当所有网页都下载完后,计算结果是可靠的。对于中小型网站,如果服务器的质量不佳,并且在爬网过程中仅看到部分内容,则在爬网阶段无法获得可靠的PageRank分数。

  网页收录第三阶段:OCIP策略

  OCIP策略更像是对PageRank算法的改进。在算法开始之前,每个网页都被赋予相同的“*敏*感*词*”。每当下载页面A时,A都会将其“*敏*感*词*”平均分配到该页面中收录的链接页面,并清除其“*敏*感*词*”。这是链接输出越少,权重越高的原因之一。

  对于要爬网的网页,将根据手头*敏*感*词*量对*敏*感*词*最多的网页进行排序,然后首先下载*敏*感*词*最多的网页。 OCIP与PageRank大致相同。区别在于:PageRank每次都需要迭代计算,而OCIP则不需要,因此计算速度比PageRank快得多,适合实时计算。这可能就是许多网页具有“第二次采集”的原因。

  网页收录第四阶段:大网站优先策略

  优先考虑大型网站的想法非常简单。它以网站为单位来衡量网页的重要性。对于要爬网的URL队列中的网页,如果网站等待等待,它们将根据网站进行分类。下载最多的页面将优先下载这些链接。基本思想是“倾向于先下载大的网站 URL”。因为大网站倾向于收录更多页面。鉴于大型网站通常是著名的网站,并且它们的网页通常质量较高,因此这个想法很简单,但是有一定的基础。

  实验表明,尽管该算法简单,粗鲁,但它可以收录个高质量的网页,并且非常有效。这也是重印网站的很多内容,但可以将大电台放到您前面的最重要原因之一。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线