seo教程 搜索引擎优化入门与进阶第三版(搜索引擎优化培训:搜索引擎网页去重算法的分析分享)
优采云 发布时间: 2022-03-31 09:22seo教程 搜索引擎优化入门与进阶第三版(搜索引擎优化培训:搜索引擎网页去重算法的分析分享)
SEO优化培训:搜索引擎网页去重算法解析
下面转载一个搜索引擎网页去重算法的内容,让大家了解一下百度的算法;
有关统计显示,互联网上几乎重复的网页数量占网页总数的比例高达29%,完全相同的网页约占网页总数的22%。研究表明,在一个大型信息 采集 系统中,30% 的网页与另外 70% 的网页完全或几乎重复。
即:互联网上相当高比例的网页大致相同或完全相同!
搜索爬虫爬取导致的网页重复类型:
1.多个URL指向同一个网页和镜像站点
例如:和
指向同一个站点。
2.网页内容重复或几乎重复
如抄袭、复制内容、垃圾邮件等。
网页内容的近似重复检测有两种应用:
一:在用户搜索阶段
目标是根据用户给出的查询词在现有索引列表中找到几乎重复的文档,并对输出进行排序。
二:爬虫发现阶段
对于一个新的网页,SEO爬虫使用网页去重算法最终决定是否对其进行索引。
搜索引擎网页去重算法分析好文章分享1
搜索引擎架构
大致重复的网页类型根据文章内容和网页布局格式的组合分为4种形式:
一:两个文档在内容和版面格式上没有区别,所以这种重复称为完全重复的页面。
二:两个文档的内容相同,但排版格式不同,那么这种重复称为内容重复页。
三:两个文档的重要内容相同,布局格式相同,这种重复称为布局重复页。
四:两个文档有一些相同的重要内容,但版面格式不同,那么这种重复称为页面的部分重复。
重复页面对搜索引擎的不利影响:
通常情况下,非常相似的网页内容不能或只能为用户提供少量的新信息,但爬虫、索引、用户搜索等会消耗大量的服务器资源。
搜索引擎重复页面的好处:
如果某个网页重复性高,往往是其内容比较热门的体现,也说明该网页比较重要。应优先考虑 收录。用户搜索时,对输出结果进行排序时也应该给予较高的权重。
如何处理重复文件:
1.删除
2.对重复文档进行分组
近乎重复的网页示例:
搜索引擎网页去重算法分析好文章分享part 2
搜索引擎网页去重算法分析好文章分享第3期
近乎重复的页面示例
搜索引擎近似重复检测流程:
搜索引擎网页去重算法分析好文章分享第4期
搜索引擎近似重复检测过程
通用网页去重算法框架:
搜索引擎网页去重算法分析好文章分享第5期
常用网页去重框架
SimHash文档指纹计算方法
搜索引擎网页去重算法分析好文章分享第6期
SimHash文档指纹计算方法
阐明:
1)从文档中提取一个带有权重的特征集来表示文档。例如,假设特征由词组成,则词的权重由词频 TF 决定。
2)对于每个字,通过哈希算法生成一个N位(通常是64位或更多)二进制值,如上图所示,以生成一个8位二进制值为例。每个字对应于它自己独特的二进制值。
3)在N维(上图中为8维)向量V中,分别计算向量的每一维。如果字对应位的二进制值为1,则加特征权重;如果该位为0,则执行减法,并以这种方式更新向量。
4)如上处理完所有单词后,如果向量V中的第i维为正数,则将N位指纹中的第i位设置为1,否则为0。
Jacccard相似度计算方法:
搜索引擎网页去重算法分析好文章分享第7期
Jacccard相似度计算方法
如上图所示,A和B代表2个集合,集合C代表集合A和B的相同部分。集合A收录5个元素,集合B收录4个元素,两者之间有2个元素相同二、即集合C的大小为2.Jaccard计算两个集合中相同元素占总元素的比例。
如图,集合A和集合B一共有7个不同的元素,相同元素的个数是2,所以集合A和集合B的相似度为:2/7
在实际应用中,将集合 A 和集合 B 的特征进行哈希处理,转换为 N 位(64 位或更多)的二进制值,从而将集合 A 和 B 的相似度比较转换为二进制值的比较。一种称为“汉明距离”的比较。相同位置的不同二进制值具有相同两位数(例如都是64位)的个数称为“汉明距离”。
对于给定的文档A,假设特征提取-哈希指纹操作后的二进制值为:10000010
对于给定的文档B,假设特征提取-哈希指纹操作后的二进制值为:00100001
经过比较,文档A和B的第1、3、7、8位的值不同,即汉明距离为4.两个文档的二进制位数不同。数字越大,汉明距离越大。汉明距离越大,两个文档之间的差异越大,反之亦然。
不同的搜索引擎可能会使用不同的汉明距离值来判断两个网页的内容是否近似重复。相关分析认为,一般来说,对于一个 64 位二进制值,汉明距离