复制网页(或者叫重复内容网页)有两点值得注意
优采云 发布时间: 2021-03-28 22:03复制网页(或者叫重复内容网页)有两点值得注意
重复的网页(或重复的内容网页)是指两个或多个内容相同或非常相似的网页。
通常来说,搜索引擎不喜欢复制内容页面。他们将尝试确定哪个是原创版本,然后忽略其他复制的页面。
有两点值得注意:
1)在复制网页的判断中没有比例。例如,如果某个网页上60%或80%的内容与其他网页相同,则将其分类为重复网页。如果有一个比率,那就简单得多。
2)复制网页不会受到任何惩罚。搜索引擎将丢弃其他复制的页面,但不会惩罚搜索引擎认为的原创来源。
但是,这可能会惩罚真正的原创来源。例如,搜索引擎犯了一个错误,将原创来源视为副本,并将复制的内容视为原创来源。
复制的内容页面的外观通常具有以下可能性:
1)是由URL标准化问题引起的。
代理商和零售商的2) 网站通常会复制产品制造商网站的产品信息。这没有错,大多数产品制造商都同意,但是大多数代理商,零售商和批发商将直接进行复制而不做任何更改。因此,这些电子商务网站被大量复制的内容网页所淹没。
3)可打印的版本。许多网站提供了更适合打印的版本。如果未使用robots.txt文件,则这些印刷版本的网页可能会成为重复的网页。
4) Web内容由RSS生成。许多网站,尤其是新闻网站,都使用其他网站的RSS提要来生成网站内容,该内容已出现在原创来源和许多其他网站中。
5)电子商务网站使用会话ID。搜索引擎蜘蛛在不同时间访问网页时会获得不同的会话ID,但是网页的内容实际上是相同的。但是,由于会话ID的参数不同,它们被视为不同的网页。
6)页面上的内容太少。每个网页都不可避免地具有公共部分,例如导航栏,版权声明等。如果网页的主体部分太小,并且数量不足以容纳这些公共部分,则可以将其视为内容网页的副本。
7) 文章 and窃和重印等。有时其他人your窃您的网站内容,有时以真诚的方式重印,有时作者自愿将文章发送给不同的网站,所有这些都可能导致内容页面被复制。
8)镜像网站。镜子网站曾经非常受欢迎。当网站太忙和太慢时,用户可以通过备用镜像查看或下载内容,这也存在复制内容网页的风险。
9)产品或服务类型之间的差异相对较小。例如,有些网站按地区对他们的产品或服务进行分类,但实际上提供给每个地区的产品或服务是相同的。在这些按地区分类的网页上,只有地名已更改,其他内容都相同。