网站内容复制(复制内容也可以称为重复内容吗?(二)(图))
优采云 发布时间: 2022-01-06 23:08网站内容复制(复制内容也可以称为重复内容吗?(二)(图))
重复内容也可以称为重复内容。重复内容意味着两个或多个 URL 具有相同或非常相似的内容。复制内容可能发生在同一个网站 或不同的网站 中。
1、复制内容的原因
以下原因可能会导致复制内容。前面讨论的 URL 规范化问题会产生重复的内容。
代理商和零售商转载产品制造商的产品信息。这没有任何问题,大多数制造商都同意不存在版权问题。但是,大多数代理商、零售商和批发商直接复制而不做任何更改。每个人都使用完全相同的产品描述,因此这些电子商务网站充斥着大量复制内容。
印刷版。很多网站除了提供普通的浏览页面外,还提供了更适合打印的页面版本。如果没有正确禁止爬行,这些网页的印刷版本将成为复制内容。网站 结构导致的各种页面版本。比如商品列表按价格、评论、发售时间等排序,博客分类存档、时间存档等。
网页内容由RSS生成。有很多网站,尤其是新闻网站,使用其他网站 RSS feeds 生成网站内容,在原创来源和许多其他类似的网站 上面已经出现过很多次了。
使用会话 ID。当搜索引擎蜘蛛在不同时间访问网页时,它们被赋予不同的会话 ID。事实上,网页的内容是一样的。由于Session 1D的参数不同,被视为不同的网页。
页面上的内容太少。每个网页都难免有共同的部分,如导航栏、版权声明、广告等。如果网页的正文部分太短,内容量与一般部分不符,则可能被视为抄袭内容页。
转载和抄袭。有时是别人抄袭你的网站内容,有时是善意转载,有时是作者自己将文章发表在不同的网站,这些都会造成内容的抄袭。
镜像 网站。Mirror 网站 曾经非常流行。当一个网站太忙太慢时,用户可以通过备用镜像查看或下载内容,这也造成了复制内容的风险。
产品或服务的类型之间的差异相对较小。比如有的网站把自己的服务按地区分类,但实际上每个地区提供的产品或服务都是一样的。这些按地区分类的页面只是改变了地名,其他服务的描述都是一样的。
向 URL 添加任何字符仍会返回 200 状态代码。一些网站由于技术原因,用户在URL后添加任意字符或参数,服务器可以正常返回200状态码,返回相同的重复内容页面,不带任何字符。
检查页面是否有副本相对简单。取出页面正文中的一句话,加双引号,在搜索引擎中搜索。从结果中可以看出是否有多个页面收录这句话。一般来说,一个随机选择的句子不太可能完全出现在另一个不相关的文章中。
2、复制内容的危害
很多SEO对抄袭内容有一个误区,认为如果网站上有抄袭内容,搜索引擎会惩罚他们。事实上,搜索引擎不会因为复制少量网站而惩罚或降权。搜索引擎所做的只是尝试从多个页面中选择真实的原创 版本进行适当的排名,而其他复制的版本不会在搜索结果中返回或排名较低。
但是,由于是留给搜索引擎来判断,很可能会出现判断错误,将原本原创的页面视为转载或抄袭复制内容,所以排名不好。这确实是对原创页面的惩罚,但不是因为内容本身的复制,而是因为搜索引擎没有判断原创。
同一个网站的复制内容好像没那么严重。不管搜索引擎判断的是哪个版本原创,都是自己的页面网站。问题在于,搜索引擎考虑的最合适的 URL 可能与 SEO 站长考虑的最合适的 URL 不同。SEO站长在优化和链接时关注页面A,但搜索引擎认为页面B是最好的。(A的内容和B的内容一样),SEO站长在A页上花了很多功夫。
同一网站内复制的内容会分散权重。由于页面出现在网站 上,因此必须有到这些页面的链接。如果一段独特的内容只出现在一个网址上,可以将网站上的链接集中在这个网址上,从而提高其排名能力。链接分散到多个网址,这样会使每个网址的排名能力不那么突出。外链也是一样,很可能会分散到不同的网址。
同样的网站副本也造成了太多无意义的页面。在域名权重较低的情况下,可能会挤压其他独特内容的机会。如果网站上存在大量抄袭内容,可能会导致搜索引擎怀疑网站的质量而导致处罚。
3、消除重复内容
上面已经讨论了URL归一化导致的复制内容。最好的解决办法是保证一篇文章文章只对应一个URL,不应该有多个版本,网站的所有内部链接都统一到这个URL。有时您需要使用 301 重定向。
不是URL标准化造成的在同一个站点复制内容。最好的解决办法是选择一个版本允许收录,其他版本禁止搜索引擎爬取或收录。您可以使用 robots 文件禁止抓取,也可以使用 noindex 元机器人标签禁止索引。连翔不希望收录的链接使用nofollow标签、JavaScript等来防止蜘蛛爬行。
复制内容的另一种解决方案是使用规范标签。canonical标签可以用于URL规范化导致的复制内容,也可以用于其他情况。比如网站上同款的鞋子可能会分不同的型号,型号之间唯一的区别就是颜色。这些模型生成多个URL,产品描述几乎相同,只是颜色不同。这时候可以使用canonical标签,用户不会被重定向,也不会看到不同的页面,但是搜索引擎会将权重集中在其中一个模型上,避免复制内容。
带有Session ID的页面也可以使用canonical标签,比如页面:放代码:
这样,不管后面生成什么Session ID:
上述 URL 将被搜索引擎加权为:
在不同的网站之间复制内容比较麻烦,因为其他网站上的内容是无法控制的。只有两件事可以做。一种是在页面添加版权声明,需要转载的网站保留版权声明和原文链接。一些联合网站 会抓取提要并自动生成内容,因此版权声明和链接也应添加到提要中。