输入关键字 抓取所有网页(1.ー种搜索引擎的反馈网页与第一第一反馈信息处理方法)
优采云 发布时间: 2021-10-07 06:18输入关键字 抓取所有网页(1.ー种搜索引擎的反馈网页与第一第一反馈信息处理方法)
1.一种搜索引擎反馈信息的处理方法,其特征在于包括:抓取网页,保存网页,将网页中的关键词提取到数据库中;对数据库中的网页记录进行索引,生成索引文件;根据输入查询关键词,从收录查询关键词的所有网页的索引文件中获取搜索引擎反馈;根据所有网页的关键词,对网页进行相似度计算;将相似度计算结果满足预设阈值范围的相似网页合并为一个簇。
2.根据权利要求1所述的搜索引擎反馈信息处理方法,其特征在于,所述根据所有网页的关键词计算网页相似度的步骤包括: 在所有网页中,根据所有网页的关键词,计算任意两个网页的相似度。
3.根据权利要求2所述的搜索引擎反馈信息的处理方法,其特征在于:相似度=(与第一反馈网页相同的关键词-1关键词的数量-< @关键词 当前第二个反馈网页编号 I) + 关键词 第一个反馈网页编号;其中 关键词 编号相同的为第一个反馈网页 关键词 编号与第二个反馈网页相同。
4.根据权利要求3所述的搜索引擎反馈信息处理方法,其特征在于,所述将相似度计算结果满足预设阈值范围的相似网页合并为一个簇的步骤包括: 如果相似度大于第一阈值,当前的第二反馈网页和第一反馈网页合并为一个类别;或者,如果相似度大于第二阈值且小于或等于第一阈值,并且第二反馈网页与第一反馈网页的标题相同,则将当前第二反馈网页和第一反馈网页合并为一类;如果相似度大于第二阈值且小于或等于第一阈值并且第二反馈网页和第一反馈网页的标题不相同,则不合并当前第二反馈网页和第一反馈网页;或者,如果相似度小于等于第二阈值,则不合并当前第二反馈网页和第一反馈网页。
5.根据权利要求2所述的搜索引擎的反馈信息处理方法,其特征在于,通过以下步骤获得基于词的网页相似度: 两个网页字符串R和T的三个归一化的值对最长非连续公共子串S 1、S2 和S3 进行加权求和,得到两个反馈网页的相似度S: 其中,S=S1*W_S1+S2*W_S2+S3*W_S3;SI:考虑网页字符串R和网页字符串T的长度,将两个字符串中最长的非连续公共子串归一化;si=|R和τ的最长非连续公共子串| /|r| τ|,Ir和τ的最长非连续公共子串I表示R和T的最长非连续公共子串的长度,和Rl和ItI分别代表网页字符串r的长度和网页字符串τ的长度;S2:从两个字符串的第一个字符计算最长的非连续公共子串,并用两个字符串的长度进行归一化;S2=|R 和τ 从第一个字符开始 最长的非连续公共子串开始匹配|_/|r| Tl, IR 和τ 从第一个字符I 开始匹配的最长非连续公共子串表示R 和T 从第一个字符开始匹配的最长非连续公共子串的长度,IrI 和|τ| 分别表示网页串的长度R和网页串的长度τ;S3:最长的短串或与长串非连续匹配的短串的非连续部分,由两个字符串的长度归一化;S3=|R 和 τ 匹配来自任意字符的最长非连续公共子串|/|R||T|,IR 和 τ 来自任意 开始匹配字符 I 的最长非连续公共子串表示长度R 和 T 从任何字符 IrI 和 |τ| 匹配的最长非连续公共子串 分别表示网页字符串r的长度和网页字符串的长度τ;W_S1、ff_S2和W_S3的取值范围为(Tl;将相似度计算结果满足预设阈值范围的相似网页合并成簇的步骤包括:如果相似度S大于或等于某个阈值,然后将当前的第二反馈网页与第一反馈网页合并;
6.如权利要求2所述的搜索引擎反馈信息处理方法,其特征在于,基于常用词序的网页相似度通过以下步骤得到两个反馈网页的相似度S: 两个网页字符串R和T,计算它们的共同字符集C;分别从网页字符串R和T中提取公共字符集C的字符,按照原创网页字符串中的顺序,形成两个新的网页字符串向量R'和T';字符串向量R'和T'的每个字符由一个唯一的数字表示;计算网页字符串R和T的相似度:如果公共字符集C中的元素个数为奇数且为1,则网页字符串R与T的相似度为I;如果公共字符集C中的元素个数是奇数,而不是1,则网页字符串R和T的相似度为1-2*(网页字符串向量R'和T'的对应关系)之和分量之差的绝对值)/(ICl*IC|-1),Icl为共同字符集C中的元素个数;若共同字符集C中的元素个数为偶数,则网页字符串R和T的相似度为1-2*(网页字符串向量R'和T'对应分量差的绝对值之和)/1 c I * I c I), I c I 是通用字符集c的元素个数;将相似度计算结果满足预设阈值范围的相似网页合并为一个簇的步骤包括:如果相似度S大于或等于某个阈值,则合并当前第二反馈网页和第一反馈网页;或者,如果相似度小于某个阈值,则不合并当前第二反馈网页和第一反馈网页。
7.根据权利要求1所述的搜索引擎反馈信息处理方法,其特征在于,所述抓取网页的过程包括: 根据待抓取网页的html标签自定义模式集;模式集提取网页上的标题链接;根据标题链接获取网页内容;根据设置的模式提取网页内容中的新闻标题和/或文本,得到网页k4@的。
8.根据权利要求7所述的搜索引擎反馈信息处理方法,其特征在于,根据所述模式集,从新闻标题和/或网页内容中的文本中提取关键词,获取网页关键词的步骤包括:对新闻标题和/或文本进行分词和词性标注,去除部分词性词。计算剩余词的权重;根据剩余词的权重选择剩余词将权重最大的第一个预设数字关键词作为网页的关键词。
9.根据权利要求1所述的搜索引擎反馈信息处理方法,其特征在于,通过“相似网页”链接,控制相似网页显示所有相似网页,从第二个结果开始,第一个结果与前一个相比缩进了;或控制相似网页以“相似网页”链接的方式显示相似网页的第一结果。
10.一种搜索引擎,其特征在于包括:抓取网页的抓取单元,将网页保存并从网页中提取关键词存入数据库;生成单元,用于使用搜索引擎对数据库中的网页记录进行索引,生成索引文件;获取单元用于根据输入查询关键词从索引文件中获取搜索引擎反馈,包括所有查询关键词的所有网页;计算单元,用于根据所有网页的关键词计算网页的相似度;合并单元,用于将相似度计算结果与预设的阈值范围进行匹配,将相似的网页合并为一个簇。