搜索引擎进行信息检索的优化策略方法(Web信息搜索集中网站爬山算法相似度)
优采云 发布时间: 2021-12-04 15:02搜索引擎进行信息检索的优化策略方法(Web信息搜索集中网站爬山算法相似度)
利用集中式网站进行WEB搜索的优化策略 [摘要] 提高Web信息搜索效率和搜索性能是信息检索领域的一个重要研究课题。本文采用爬山算法获取特定类别的最小集中网站集合,然后通过网页聚类,找到能够获得最完整、最准确信息的网页序列,从而提高网络搜索的速度和准确性。[关键词] 网络信息搜索中心网站 爬山算法聚类相似度搜索引擎(Search engine)是目前网络信息检索的主要工具,它提供的导航服务在互联网上变得非常重要网络服务,但在查询速度、准确率、召回率等方面仍有较大的局限性。研究发现,网站集合的一部分网站已经收录了几乎所有的网页信息。这样一个最小覆盖网站的子集称为集中网站[1],因此,找到这样一个集中的网站可以提高搜索引擎的搜索效率。此外,分析网页之间的超链接结构并充分利用它可以提高检索质量。基于这种超链接分析的思想,1998年,Serger Brin和Lawrence Page提出了PageRank[2]算法。同年,J. Kleinberg 提出了 HITS[3] 算法,其他一些研究者先后提出了一些改进算法,如 SALSA、PHITS 等,在实际应用中取得了良好的效果。由于最小浓度网站是针对特定类别的,下面的工作是基于已经获得特定类别网站集合的假设。
求集中度网站的问题可以看成是求图的最小顶点覆盖的问题。已被证明是一个NP完全问题。考虑使用启发式搜索算法——爬山算法来寻找集中度网站。爬山算法是一种基于邻域搜索技术的搜索方法,沿可能提高解质量的方向进行单向搜索(爬山)。它在解空间中进行逐步搜索,扩展当前节点并评估其子节点,选择最优子节点并进一步扩展。使用爬山算法求浓度网站,先选择网站中收录网页最多的网站,放入浓度网站 @网站,并将网站收录的网页在其他网站网页集合中删除,然后在剩余的网站集合中重复上述操作,直到集合中收录的网页网站 几乎覆盖了所有到页面。接下来需要对网站的最小集合中收录的网页进行预检索聚类,综合考虑利用网页之间的内容和链接结构的相似性对网页进行聚类。网页内容的相似度可以用文本相似度来表示。文本以词为单位描述为一组元组,主要是二字词,主要是单字词,与助词、感叹词等语义信息无关。省略,这样,网页的内容相似度可以通过比较网页中的词频和词频来表达。下面应用HITS算法和相应的改进算法计算任意两个网页之间的力,进而得到力的相似度,即链接相似度。如果网页p和q上的p和q之间存在直接(或间接)直接(或间接)方向,则称p和q之间存在相互作用力,p对q的作用力为FA (p),q对p的反作用力为FH(q);如果网页p和q中没有直接(或间接)指向q,则说p和q之间没有相互作用力,或者相互作用力为0。下面应用HITS算法和相应的改进算法计算任意两个网页之间的力,进而得到力的相似度,即链接相似度。如果网页p和q上的p和q之间存在直接(或间接)直接(或间接)方向,则称p和q之间存在相互作用力,p对q的作用力为FA (p),q对p的反作用力为FH(q);如果网页p和q中没有直接(或间接)指向q,则说p和q之间没有相互作用力,或者相互作用力为0。下面应用HITS算法和相应的改进算法计算任意两个网页之间的力,进而得到力的相似度,即链接相似度。如果网页p和q上的p和q之间存在直接(或间接)直接(或间接)方向,则称p和q之间存在相互作用力,p对q的作用力为FA (p),q对p的反作用力为FH(q);如果网页p和q中没有直接(或间接)指向q,则说p和q之间没有相互作用力,或者相互作用力为0。如果网页p和q上的p和q之间存在直接(或间接)直接(或间接)方向,则称p和q之间存在相互作用力,p对q的作用力为FA (p),q对p的反作用力为FH(q);如果网页p和q中没有直接(或间接)指向q,则说p和q之间没有相互作用力,或者相互作用力为0。如果网页p和q上的p和q之间存在直接(或间接)直接(或间接)方向,则称p和q之间存在相互作用力,p对q的作用力为FA (p),q对p的反作用力为FH(q);如果网页p和q中没有直接(或间接)指向q,则说p和q之间没有相互作用力,或者相互作用力为0。
其中FA(p)、KHHub(p)、Hub(p)为HITS算法计算得到的p的Hub值向量;FH(q)、KAAuthority(q)、Authority(q)是HITS算法计算得到的q的值Authority值向量;KH 和KA 是衰减系数。当p直接指向q时,KH 1,KA 1;当p不直接指向q时,KA和KH随着两者之间最短路径长度KH、KA 1的增加而减小;假设有m个网页,其中每个网页都会受到其他m-1个网页各自施加的力,每个力又分为FA和FH两部分。假设网页 p 和 q 之间的作用力是 FA 和 FH。根据欧氏距离公式,可以得到FA和FH的相似度为:SFA(p,q)1-SFH(p,q)1-其中,SFA,SFH。假设网页组Slink中任意两个网页p和q的链接相似度包括Sd、SFA、SFH三部分,即Slink Wd×Sd(p,q)+Wa×SFA(p,q)+Wh×SFH (P, q) 其中,Wd、Wa、Wh分别是各自的权重,Wd+Wa+Wh 1. Sd(p,q)是网页p和q之间距离的特征,随着距离的增加而增加两者减少。SFA (p, q) 是网页 p 和 q 的力 FA 的相似度。
SFH (p, q) 是页面 p 和 q 上的力 FH 的相似度。Sd、SFA、SFH。根据网页的内容和超链接结构的相似度,我们可以将两者结合起来得到网页之间的混合相似度:假设两个网页的混合相似度表示为:S Wl×Slink+Wt×Sterm 其中, Wl和Wt是各自的权重,Wl+Wt 1,S。 常用的聚类算法有层次聚类、平面划分(k-means算法)、简单贝叶斯聚类、K-最近邻参考聚类、层次聚类、基于概念的文本聚类等。通过上述网页聚类,得到了某类最小集合网站中收录的网页类别。网页的权威值可以作为衡量其重要性的指标。同时,在聚类过程中,还使用了网页p对类Ci的隶属度M(Ci,p),表示网页p与该类信息的相关性,因此也可以反映网页在其类别中的重要性。程度。定义如下: 假设任何网页p在类Ci中对类Ci的隶属度为M(Ci,p),p的Authority值为Authority(p),则网页p在类Ci中的重要性为:Importance(p) M(Ci,p)Authority(p) 在每个类别中,选择Importance值一、最大的两个网页,这样查询结果中只出现有代表性的内容,从而使查询效率得到改善。表示网页p与此类信息的相关性,因此也可以反映网页在其类别中的重要性。程度。定义如下: 假设任何网页p在类Ci中对类Ci的隶属度为M(Ci,p),p的Authority值为Authority(p),则网页p在类Ci中的重要性为:Importance(p) M(Ci,p)Authority(p) 在每个类别中,选择Importance值一、最大的两个网页,这样查询结果中只出现有代表性的内容,从而使查询效率得到改善。表示网页p与此类信息的相关性,因此也可以反映网页在其类别中的重要性。程度。定义如下: 假设任何网页p在类Ci中对类Ci的隶属度为M(Ci,p),p的Authority值为Authority(p),则网页p在类Ci中的重要性为:Importance(p) M(Ci,p)Authority(p) 在每个类别中,选择Importance值一、最大的两个网页,这样查询结果中只出现有代表性的内容,从而使查询效率得到改善。
本文提出的对收录在最小集合网站中的网页进行聚类,并选择每个类别中的重要网页进行网页搜索优化的方法具有以下优点:(1)通过搜索最小集中度网站,可以减少搜索面,提高搜索效率;(2)利用内容的相似性和超链接结构进行网页聚类,可以获得更好的聚类效果。参考文献: [1] 赵云,刘伟一.一种基于遗传算法的寻找浓度的方法网站.云南大学学报,2003,25(6)。[2]陈小平, 徐卓明. 基于超链接结构的WWW模糊聚类算法[J]. 常州师范大学学报, 2002, 8 (2):47-52.6