如何抓取网页flash(可细想一下你有中招吗?一下哪条你中招了吗)

优采云 发布时间: 2021-12-22 02:05

  如何抓取网页flash(可细想一下你有中招吗?一下哪条你中招了吗)

  99%的网站都会遇到内容重复的问题,只是很多人都没有意识到。本文希望能帮助您诊断和解决过多重复内容页面。

  一、 重复内容的后果 什么是重复内容?

  重复内容通常是指在网站内或跨域具有一定数量的完全匹配或大致相似的内容。

  在大多数情况下,原因并不具有欺骗性,因此不会导致网站受到惩罚。只有在极少数情况下,谷歌才会认为重复内容的目的是操纵页面排名,欺骗用户。出现此类情况时,谷歌将对相应网站的索引和排名进行适当调整。

  网站 大量重复内容会对网站产生负面影响:

  垃圾爬虫爬取配额:前面文章提到过,搜索引擎爬虫在网站上爬取一个页面所花费的总时间是有限的。大量重复的页面只会占用爬虫的爬取配额,一些真正重要的页面可能不会被爬取。

  影响页面SERP的可见度:如果页面被搜索引擎识别为重复内容,搜索引擎会在SERP中显示尽可能多的搜索结果,以提高用户的搜索体验。它将过滤掉一些重复的内容并防止它出现在先前排名的结果中。

  稀释页面权重:如果一个页面可以通过多个URL访问,对于搜索引擎来说,页面权重是分散的,不利于聚合。

  二、重复内容的类型

  可能你的网站只是一个简单的cms模板搭建,页数少,问题不多;也许你的 网站 有数百万页和多个目标国家,这很复杂;或许你使用的cms功能有限,定制化程度高。不管网站的量级和特征如何,出现的重复内容问题都是相似的,可以归类分析。下面将为您详细介绍。你能想一想你击中了哪一个吗?

  1) 网站技术问题导致

  由于网站内部技术问题,造成大量重复内容。最常见的一种是网站上有多个不同的URL,但显示的内容相同。

  重复内容类型:

  2)由于内容策略不当

  除了网站技术造成的重复,网站不恰当的内容策略也会造成这样的问题。毕竟在信息爆炸的时代,内容生产和到期的速度非常快。

  对于数百万页的大型信息站点,内容输出频率高,重复内容和内部竞争的问题非常高。

  重复内容类型:

  发布很多类似的文章,或者版本更新迭代的内容,也就是文章之间的重复率高。

  已被新内容替换的过时内容,但两者不合并,保留旧的文章。

  内容过薄的页面,或内容空白的页面(文章内容为404找不到,但页面返回200状态码)。此类页面将在 Google Search Console 中报告为软 404 错误,并被判断为重复页面。

  如果您有零售电子商务网站怎么办?网站专注于产品页面,博客文章只是少数,所以不要掉以轻心。

  重复内容类型:

  3)服务器配置问题导致

  如果网站服务端配置出现错误,出现重复内容问题的概率很高,但大多数网站运营商都难以意识到。

  重复内容类型:

  4)国际化/多域名网站

  如果您的网站是面向国际市场的,并且可能运营着不同国家的顶级域名或二级域名站点,那么您需要将您网页的本地化版本告知谷歌。

  重复内容类型:

  在不同目标市场的域名上发布相同或极其相似的内容。

  多语言 网站 标签未正确部署,或未翻译本地语言。如果网页的主要内容未翻译,则网页的本地化版本将仅被视为重复网页。

  独立的移动终端(如二级域名)和PC站之前没有做过canonical和alternate的双向标注。

  三、如何诊断网站重复内容

  借助搜索引擎查询命令或相关检查工具,发现并准确查找问题原因。对我来说,这是SEO需要掌握的核心内容。为了帮助大家快速诊断网站,介绍如下三种方法:

  1)Google Search Console 索引报告

  最直接的方法是在Google Search Console后台的“覆盖率”报告中查看索引错误或索引问题链接列表。会清晰的显示你的网站因为某种原因没有被索引,如下图:

  2)搜索引擎查询命令

  查找重复内容的另一种简单方法是使用 Google 查询命令。只需从您的 网站 复制一段文字并将其括在双引号中即可在 Google 上进行搜索。

  如果你想知道网站有多少页收录,除了Google Search Console中Valid URL的数量,使用查询命令site:得到网站的数量页面索引(取决于网站比例仅作为参考值)

  或者结合以下查询命令,快速检测内容重复的页面,事半功倍。

  站点:#Query 网站 索引页

  site: intitle:keyword #查询网站所有收录关键字的页面

  site: inurl:keyword #查询网站 URL 收录关键字的所有页面

  site: filetype:xml/txt/pdf #Query 网站 收录此类资源格式的页面

  3)模拟爬虫

  哪里有需求,哪里就有市场。检测网站重复内容的工具越来越多,功能也越来越丰富。找到适合自己的才是最重要的。我主要推荐一个模拟爬虫的爬虫工具。Screaming Frog是市场上非常流行的模拟爬行工具。可以帮你快速找到网站重复的标题、描述、h标签、url等信息,并批量导出Report,方便分析。当然,如果你使用的是Deepcrawl、Sitebulb等同类型爬虫工具,以及Ahrefs、SEMRush等综合性SEO工具,同样是可行的。

  四、如何优化网站重复内容

  了解什么是重复内容,通过诊断准确定位问题页面后,最重要的就是如何优化和解决重复内容,从而聚合页面权重,提高搜索引擎爬虫对网站的抓取效率@>,并提高有效页数收录。

  1)设置301重定向

  对于搜索引擎而言,301 重定向意味着地址的永久更改,可以传达大部分页面权重和排名。如果一个页面有多个URL条目,或者新旧版本文章的内容替换等,建议整理出我们期望的归一化地址收录,设置其他页面做301重定向到规范化页面,并聚合页面权重。

  2)添加rel="canonical"

  网站所有页面都应该添加rel=”canonical”链接元素,帮助谷歌选择一个URL作为规范版本并抓取该URL,并将所有其他URL视为重复URL并减少抓取这些URL的频率,聚合页面重量。

  Canonical标签基本上不会像301重定向那样传递原创权重,但大部分权重仍然可以聚合在首选页面上,前提是识别出的两个页面的内容需要相同或高度相似。如果你想保留现有的所有可以正常访问的URL,又不容易设置301重定向,那么可以使用这个折衷方案。

  规范注释:

  1) Canonical标签只是一个建议,不是指令,所以搜索引擎会在很大程度上考虑这个标签,但不是100%合规,搜索引擎也会考虑其他情况来确定规范化地址。

  2) 标签需要使用绝对地址。(即URL需要附带http或https协议)

  3) Canonical 指定的首选页面的内容必须与其他使用此标签的非标准化 URL 的内容完全相同或高度相似,否则可能无法正常工作。使用301的时候没有这个限制,建议站长在使用canonical标签的时候仔细检查一下,确认两个页面完全一样。即使页面高度相似,也会降低遵循规范标签的可能性。

  4)添加Noindex标签

  如果301重定向和Canonical标签设置不方便,只希望搜索引擎不要收录那些重复的页面。在这种情况下,您可以将 Noindex 标记添加到页面源代码中。禁止搜索引擎索引该页面,但允许蜘蛛继续抓取页面上的其他链接,也可以传递权重。如下:

  Robots.txt代表禁止抓取(但不影响索引),Noindex代表禁止索引(但不影响抓取),抓取和索引是两个不同的过程,但经验较少的人可能倾向于阻止使用机器人。解决重复页面的文本是一种症状,而不是根本原因。最好将这些页面设置为 noindex(或在不再需要它们时重定向它们)。比如网站中有​​些页面缺少内容,或者网站内部搜索页面不想成为收录。您可以向此类页面添加 Noindex 标签并确认它们已从 Google 索引中删除。将其添加到robots.txt 文件中以禁止爬虫抓取。

  5)确保内链标准化

  网站 确保所有内链入口都是标准化地址,即提高爬虫爬取效率,减少重复页面的爬取入口。比如首页,首页导航中的网站Logo,面包屑中的首页层次入口,都应该统一为首选URL。

  6) 最小化模板化内容

  例如,电子商务网站的每个产品页面不应显示重复的运费、保修等条款。建议只添加带有锚文本的内部链接,并链接到可以提供详细信息的单独网页。同时,也需要尽量减少类似的内容。例如,网站 定期发布版本更新文档。建议考虑增加每个新版本文档的唯一内容,或者将这些版本的网页合并为一个。

  7)坚持发布原创内容

  如果公司同时运营多个平台,比如产品可能同时在eBay、亚马逊和官网销售,建议保证官网可以发布尽可能多的原创内容尽可能的,即网站产品和品类描述内容,可以实现个性化定制,可读性强,提高页面的长期竞争力。如果您的产品是从供应商处采购的,您需要优化供应商提供的产品详情信息,避免与其他网站信息重复。

  PS:如果网站产品SKU过多,内容更新工作会很长,很难推进。建议从GA等分析工具中过滤掉流量最高的产品页面,从重点分类入手。

  8)保持 网站URL 稳定

  如果可能,尽量不要轻易更改网站页面的URL,因为保持URL稳定比在URL中不断填写新的关键词更重要。随着时间的推移,新旧 URL 的替换很容易出现 404 错误或其他重复性问题。

  9)避免网站内容被无条件引用

  如果你经营的是咨询内容网站,网站拥有大量优质文档,很容易被竞争对手或其他平台采集、引用等。建议将我们的网站内容复制到他人时,设置自动添加网站版权信息和原页面链接,保证我们内容的原创性质。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线