99%的网站都会遇到重复内容的问题,哪条你有中招?
优采云 发布时间: 2021-08-01 07:4299%的网站都会遇到重复内容的问题,哪条你有中招?
网站在SEO优化方面总是从网站技术问题的整改开始。其中,解决“重复内容”是一个特别重要和共同点。可以毫不夸张的说,99%的网站都会遇到内容重复的问题,但是很多人并没有意识到它的出现。作为清单,本文希望能帮助您诊断和解决过多重复内容页面,完成SEO优化之路上的一个重要里程碑。
1、重复内容的后果
首先了解什么是重复内容?重复内容通常是指在网站内或跨域完全匹配或大致相似的一定数量的内容。大多数情况下,原因不是欺骗性的,因此网站不会受到惩罚。只有在极少数情况下,谷歌才会认为重复内容的目的是操纵页面排名,欺骗用户。出现此类情况时,谷歌会对对应网站的索引和排名进行适当调整。
网站有大量重复内容,会对网站造成负面影响:
2、重复内容的类型
也许你的网站只是一个简单的cms模板搭建,页数少,问题不多;也许你的网站有数百万页和多个目标国家和市场,这很复杂;也许你的cms功能有限,定制化程度高。不管网站的规模和特征如何,出现的重复内容问题都是相似的,可以归类分析。下面将为您详细介绍。你能想一想你击中了哪一个吗?
1)站内技术问题导致
由于网站内部技术问题,重复内容较多。最常见的一种是网站上有多个不同的网址,但显示的内容相同。
重复内容的类型:
2)内容策略不当造成的
除了网站技术造成的重复,网站不恰当的内容策略也会造成这样的问题。毕竟在信息爆炸的时代,内容生产和到期的速度非常快。
⭐对于几百万页的大型信息网站,内容输出频率高,重复内容和内部竞争的问题非常高。
重复内容的类型:
[互动问答环节]
问:如果其他网站抄袭我们的内容并被动生成重复内容怎么办? "
回答:谷歌算法已经可以很好的识别原创内容的网站,不用担心影响排名。您可以联系网站的站长,要求他们删除相关内容。此外,您还可以根据《数字千年版权法案》提交请求,要求 Google 从搜索结果中删除涉嫌侵权的网页。
⭐如果您有零售电子商务网站怎么办? 网站关注产品页面,博客文章只是少数,不能掉以轻心。
重复内容的类型:
3)服务器配置问题导致
如果出现网站服务器端配置错误,重复内容问题的概率很高,但大多数网站运营商都难以实现。
重复内容的类型:
4)国际化/多域导致网站
如果您的网站面向国际市场,可能运营不同国家的顶级域或二级域,那么您需要将您网页的本地化版本告知谷歌。
重复内容的类型:
如何诊断?
使用搜索引擎查询命令或相关检查工具查找并准确查找问题原因。对我来说,这是SEO需要掌握的核心内容。为了帮助大家快速诊断网站,这里提供三种方式:
1)Google Search Console 索引报告
最直接的方法是在 Google Search Console 后端的“覆盖率”报告中查看索引错误或索引问题链接列表。它会清楚地表明您的网站 没有因任何原因被编入索引。如下图所示:
2)搜索引擎查询命令
另一种查找重复内容的简单方法是使用 Google 查询命令。只需从您的 网站 复制一段文字并将其括在双引号中即可在 Google 上进行搜索。
如果想知道网站已经有多少页收录,除了Google Search Console中Valid URL的数量,还可以使用查询命令site:来获取网站的索引号@pages(取决于网站的比例,仅供参考)
或者结合以下查询命令,快速检测重复内容的页面,事半功倍。
站点:#Query网站index 页面
site: intitle:keyword #Query 网站所有收录关键字的页面
site: inurl:keyword #Query 网站所有收录关键字页面的 URL
site: filetype:xml/txt/pdf #查询网站收录此类资源格式的页面
3)模拟爬虫
有需求就有市场,检测网站repetitive内容的工具越来越多,功能也越来越多。找到适合自己的才是最重要的。我主要推荐模拟爬虫爬虫工具。尖叫青蛙是市场上非常流行的模拟爬行工具。可以帮您快速找到网站repetitive title、deion、h tag、url等信息,批量导出报表。易于分析。当然,如果你使用的是Deepcrawl、Sitebulb等同类型的爬虫工具,以及Ahrefs、SEMRush等综合性SEO工具,同样是可行的。
如何优化?
了解什么是重复内容并通过诊断准确定位问题页面后,最重要的是如何优化和解决重复内容,从而聚合页面权重,提高网站的抓取效率搜索引擎爬虫。增加有效页数收录。
1)设置301重定向
对于搜索引擎而言,301 重定向意味着地址的永久更改,可以传达大部分页面权重和排名。如果一个页面有多个URL条目,或者新旧版本文章等内容替换,建议整理出我们期望的规范化地址收录,设置其他页面做301重定向到规范化页面,并聚合页面权重。
2)Add rel="canonical"
网站 所有页面都应该添加一个 rel="canonical" 链接元素,以帮助 Google 选择一个 URL 作为规范版本并抓取该 URL,同时将所有其他 URL 视为重复 URL 并减少对这些 URL 的抓取频率,聚合页面的权重。
Canonical标签不像301重定向那样基本可以完全转移原有权重,但是大部分权重还是可以聚合到首选页面上的,前提是识别出的两个页面的内容需要相同或者高度相似。如果你想保留所有现有的可以正常访问的URL,又不容易设置301重定向,那么你可以使用这个折衷方案。
规范注释:
1)Canonical 标签只是一个建议,不是指令,所以搜索引擎会在很大程度上考虑这个标签,但不是 100% 遵守。搜索引擎也会考虑其他情况来确定规范化地址。
2) 标签需要使用绝对地址。 (即URL需要带http或https协议)
3)Canonical 指定的首选页面的内容必须与其他使用此标签的非标准化网址的内容完全相同或高度相似,否则可能无法正常工作。使用301时没有这样的限制,建议站长在使用canonical标签时仔细检查,确认两个页面完全一样。即使页面高度相似,也会降低遵循规范标签的可能性。
4)添加 Noindex 标签
如果301重定向和Canonical标签不方便设置,我只希望搜索引擎不要收录那些重复的页面。在这种情况下,您可以将 Noindex 标记添加到页面源代码中。禁止搜索引擎索引该页面,但允许蜘蛛继续抓取页面上的其他链接,也可以传递权重。如下:
Robots.txt 代表禁止抓取(但不影响索引),Noindex 代表禁止索引(但不影响抓取),抓取和索引是两个不同的过程,但经验较少的人可能会倾向于阻止使用机器人.txt 解决重复页面是一种症状,而不是根本原因。最好将这些页面设置为 noindex(或在不再需要它们时重定向它们)。比如网站有一些页面缺少内容,或者网站内部搜索页面不想成为收录,你可以给这样的页面添加Noindex标签,确认从谷歌索引中删除,然后将它们添加到robots.txt文件中,禁止爬取。
5)确保内链标准化
网站内链入口要保证是标准化地址,即提高爬虫爬取效率,减少重复页面的爬取入口。比如首页导航中的首页、网站Logo、面包屑导航中的首页级条目都应该统一为首选网址。
6) 最小化模板化内容
例如电商网站的每个产品页面不应显示重复的运费、保修等条款。建议只添加带有锚文本的内部链接,并链接到可以提供详细信息的单独网页。同时,也需要尽量减少类似的内容。比如网站定期发布版本更新文档。建议考虑添加文档的每个新版本的唯一内容,或将这些版本的网页合并为一个。
7)坚持发布原创content
如果公司同时运营多个平台,例如产品可能同时在eBay、亚马逊和官网销售,建议确保官网可以发布原创内容为尽可能多的,也就是网站product 和分类描述内容尽量做到个性化定制,可读性强,提高页面的长期竞争力。如果您的产品是从供应商处购买的,您需要优化供应商提供的产品详情信息,避免与其他网站信息重复。
PS:如果网站product SKU过多,内容更新工作会很长,很难推进。建议从GA等分析工具中过滤掉流量最高的产品页面,从重点分类入手。
8)保持网站URL 稳定
如果可能,尽量不要轻易更改网站页面的URL,因为保持URL稳定比在URL中不断填写新的关键词更重要。随着时间的推移,新旧网址的替换很容易出现404错误或其他重复问题。
9)避免网站内容被无条件引用
如果你经营的是咨询内容网站,网站拥有大量优质文档,很容易被竞争对手或其他平台采集、引用等。建议在别人复制我们网站内容时设置自动添加网站版权信息和原页面链接,保证我们内容的原创性质。
结论