搜索引擎主题模型优化(基于用户兴趣模型的元搜索引擎算法研究要:为了解决当前人们在使用搜索引擎时遇到的搜索结果)
优采云 发布时间: 2022-01-02 02:09搜索引擎主题模型优化(基于用户兴趣模型的元搜索引擎算法研究要:为了解决当前人们在使用搜索引擎时遇到的搜索结果)
基于用户兴趣模型的元搜索引擎调度算法研究 针对很多问题,提出了一种结合用户兴趣建模技术和元搜索引擎算法的搜索引擎工作方法。首先采集用户的个人信息和共同浏览用于构建用户兴趣模型,然后创建映射算法,可以更好地将用户查询映射到创建的用户兴趣模型,计算与各个成员引擎的相关性。在元搜索引擎成员引擎的特征表示中,提出以兴趣分类抽样为基础,并对成员引擎调度算法进行改进。选择与当前用户查询最相关的成员引擎来完成搜索工作。分析表明,该算法能够有效提高查询速度和准确率。 关键词:信息检索、元搜索引擎、用户兴趣建模、查询映射算法、引擎调度算法中文图书馆分类号:TP393.0 文档识别码:A Algorithm Research MetaSearch Engine Based Userinterest model 王倩黄河科学技术学院,现代教育技术中心,郑州,450063 摘要:目前人们在使用搜索引擎获取信息的时候,搜索到的信息不相关的结果太多了。问题,我们提出了新的搜索引擎工作方法结合用户兴趣建模技术元搜索引擎算法。首先,我们构建了基于用户信息浏览行为的用户兴趣模型。其次,我们提出映射算法userquery用户兴趣类,使用成员引擎。我们构建了基于兴趣分类采样的成员引擎特征表示元搜索引擎,改进了成员引擎调度算法,使得元搜索引擎可以选择多个成员引擎关联当前用户查询完整搜索。分析表明算法可以有效提高搜索速度精度。关键词:信息检索、元搜索引擎、用户兴趣建模、查询映射算法、引擎调度算法。引言 搜索引擎是获取信息的重要手段[1]。使用普通搜索引擎搜索信息时,总会存在这样的问题[2,3]:返回结果数量巨大,很多结果与查询无关。找到有用的信息仍然需要很多时间。
为了帮助用户获取自己需要的信息,同时避免无用信息的干扰,提高查询效率,本文研究了基于用户兴趣模型的元搜索引擎的实现技术,利用元搜索引擎对搜索进行修改范围广泛的普通搜索引擎。窄搜索结果不够全面的缺点;利用用户兴趣模型的构建来消除歧义,缩小用户查询的范围,纠正元搜索引擎在处理不同用户需求方面的不足。构建用户兴趣模型用户兴趣建模的过程是对用户的个人信息和偏好的浏览内容进行汇总和量化,设计一个可以数学表达的用户兴趣模型[4]。 1.1 用户兴趣模型的整体结构模型的结构和创建步骤如图1所示。用户的访问历史集合存储在页面集合库中,长期兴趣库和短期兴趣库-term兴趣库根据时间长短存储兴趣分析和兴趣特征优化后得到的兴趣信息。 1.2 用户兴趣类别表示模型中的兴趣生成模块需要构建兴趣类别。我们通过定义兴趣特征的层次特征生成开放目录,并使用层次结构模型来表示用户可能具有的兴趣特征。这是一种类似于对象继承的关系结构。兴趣特征基类收录兴趣特征派生类的所有共同特征,兴趣特征派生类与兴趣特征基类具有不同的特征。结构如图2所示,图中兴趣类别用方框表示,特征词和扩展特征词用椭圆表示。
根据这个参考模型,我们可以构建用户兴趣的树状结构。考虑到用户兴趣的动态变化和局部性,可以为兴趣类别和特征词分配不同的权重。代表用户兴趣集,收录元素(c1,c2,...,cm),m代表用户兴趣类别总数,ci(1im)是集合的一个元素,代表一个兴趣类别。设T(ci)表示用户兴趣特征词集合,收录元素(t1,t2,...,tk),k表示用户兴趣特征词总数,ti(1ik)表示特征词慈。因此,用户所有特征词集的并集就是兴趣特征词集,记为T(C)。即:用户兴趣节点Node(c),cC,w的权重用二元组(c,w)表示。用两个元组(t, w)表示c的特征词节点,Leaf(c,t), tTc,w Node(c1),Node(c2),...,Node(cm )) .1.3 用户查询到用户兴趣类别的映射算法设计 本节提出了一种生成用户兴趣类别的方法,通过该方法可以从用户的查询信息中确定用户兴趣类别[5,6]。这个过程的主要步骤是计算用户的查询信息与建模的用户兴趣类别之间的相似度,并将用户的查询结果限制在相似度最高的用户兴趣类别中。将用户查询q表示为向量(t1 ,t2,...,tm),其中每个分量代表查询q的一个查询特征词,查询特征词总数为m。
查询的意思。有两种情况:(1)假设中的查询特征词在用户兴趣树中所属的所有兴趣类别的集合用C(q)表示,c(cC)表示用户兴趣类别,其特征词表示为集合(w1,w2,...,wn),记为pc,其中wi为其对应的特征词ti在用户兴趣类别c中的权重,即重要性比率,并且有。(2)如果用户兴趣类别中不存在用户查询对应的兴趣类别,即TCQΦ,可以定义如下:用Cr表示所有兴趣类别的集合兴趣分类参考模型,用户兴趣类别的查询特征词权重 c (c Cr) 向量 pc 中的 wi 定义为: 根据以上两种情况,计算用户查询条件之间的相似度的算法并且用户兴趣类别可以从用户兴趣vec中获得tor U(C) 和用户查询条件q,然后可以得到与用户查询条件相似的算法。用户兴趣类别。基于兴趣分类采样的成员引擎特征表示。常用的成员引擎特征表示方法包括:基于Query-Based Sampling(QBS)[7]的近似内容摘要表示和Focused Probing(FP))[8]的近似内容摘要构建算法。我们将用户兴趣模型与近似内容摘要方法相结合,提出了一种新的算法:基于用户兴趣分类的近似内容摘要表示。为便于算法的构建,大致内容摘要给出相关说明如下。
首先规定数据库D的内容摘要SD由两部分组成:第一部分为D中实际文档总数,表示为|D|;第二部分是D中收录的所有词条t及其权重,在数据库的特征表示之前,定义TDci来表示兴趣类别ci的分类字典,还有就是表示所有兴趣类别的分类字典如 TDCqTDc1, TDc2,..., TDcn, n 是兴趣类别的总数。也就是说,TD来自两个方面。一方面,它代表了ci的类别名;另一方面,它是类别的特征词。我们假设集合是由 D 数据库创建的内容摘要组成的,则 S(D) 是数据库 D [9] 的近似内容摘要。根据数据库D的用户兴趣分类,我们可以得到DDc1,Dc2,,Dcn,近似的内容摘要SD也细分为SD Sc1,Scn,D,其中Dci表示在数据库D中采样得到的文档集合根据兴趣类别ci。数据库的组成。 Sci,是指对上述数据所创造的近似内容的总结。数据库D是一个基于用户兴趣类别ci的近似内容摘要Sci,它由两个基本部分组成:第一部分是Dci|Dci|中的实际文档总数;第二部分是数据库Dci中收录的所有词条t及其权重,其中,利用上面的描述可以更好的表示对应数据库根据不同兴趣类别的大致内容概要,可以表达不同的文档信息基于用户兴趣类别的搜索引擎数据库。
基于用户兴趣模型的元搜索引擎调度算法 本节提出的算法可以根据用户的兴趣爱好选择和调度最接近用户偏好文档的搜索引擎。使用基于用户兴趣分类和采样的特征表示算法来表示数据库的特征。当用户向搜索引擎提交查询信息时,将其与用户的兴趣类别进行映射,得到对应的兴趣类别。元搜索引擎调度模块首先根据用户兴趣类别计算成员引擎数据库与用户查询信息的相似度,然后将成员搜索引擎在用户兴趣类别中的权重与搜索引擎用户的平均值相结合根据计算出的相似度进行查询。计算响应时间,得到会员搜索引擎与用户查询信息的相关性。算法原理及实现描述如下: 3.1 数据库与用户查询的相关性计算假设D为数据库,M元组(D1,D2,...,Dm)是元搜索引擎中所有成员搜索引擎的数据库集,记为DS[10]。根据上一节,可以总结出各个数据库的大致内容。第一个数据库Di的近似内容概要记为SD, SD Sc1, Di, Sc2, Di,, Scj, Di (1im为用户兴趣类别数,Scj, Di为数据库Di在用户兴趣类别ci.t代表用户查询词,q代表用户查询,即qt1,t2,,th.其中h为查询词个数.还需要计算查询q与每个的相关性收录在数据库集 DS [11] 中的数据库。
假设查询与数据库Di的相似度记为relq,Di,计算它的前提是完成三个值的计算[12,13],下面分别介绍。查询q与数据库的近似内容摘要之间的相似度计算在前面的算法中,我们已经得到了与查询最相关的用户兴趣类别的集合。一般我们取前2~3个,用CS表示。假设第i个数据库中有一个用户查询tj,其在每个兴趣类别表tpij中的权重之和,数据库Di中分类为兴趣类别的样本文档组成的数据库表示为。然后有一个计算公式,用于衡量第i个数据库中可能与tj相关的所有文档的重要性。使用trij表示tj数据库中的权重与所有数据库中的权重之比。 trij 集合中所有元素的平均值。 dtj 表示 tj 在所有数据库中的分布,即。可以看出,区分能力与dtj的值成正比。查询q与数据库的近似内容摘要SDi的相似度用simq、SDi表示,计算用户对会员引擎的偏好权重。引擎更好地搜索有用信息,在成员引擎返回的结果上点击更多。系统会记录最近用户对查询结果的点击,监控会员引擎对用户查询的帮助表现。
用户浏览某个数据库返回的结果越多,说明这个数据库越受用户部分查询的影响。从数据库中读取的查询结果被点击的次数假设为clickj,Di,那么用户代表会员引擎总次数就是用户对数据库Di的偏好权重。计算成员引擎对用户查询的平均响应时间。为了避免使用响应时间过长的成员引擎,系统会记录用户最近一次查询中成员引擎响应时间的平均值tr。系统预先指定th为响应时间阈值,to为响应超时时间[14]。如果某个成员引擎的Di和tr的值大于th,则该成员引擎对用户查询的权重降低为。用上述三个值计算查询q与数据库的相关性后,查询q与数据库Di的相关性可以通过以下公式计算: 计算成员引擎数据库的相关度; 3.3 调度算法的特征分析 根据上一篇调度算法的推导过程,可以做如下特征分析: 如果成员引擎的所有文档都与映射的兴趣类相关用户查询 如果有更多,则会员引擎与用户查询的相关性更高;如果用户查询具有较高的区分能力,则更容易为该查询选择合适的成员引擎。结语 随着信息技术的不断发展,互联网已经成为人们工作和生活不可或缺的工具。同时,人们对从互联网上获取信息的方式提出了更高的要求,用户迫切需要改进的搜索方式。
本文旨在响应用户需求,提高搜索效率和准确性。研究如何将个性化搜索技术融入元搜索引擎,从理论上确定可行的算法。本文基于用户描述信息设计用户兴趣模型,并进行量化表达;研究了将用户查询映射到用户兴趣模型的算法,便于推断用户兴趣范围,提高查询结果的准确性。同时,本文对元搜索引擎的成员引擎调度算法进行改进,选取最有可能对用户有用的成员引擎完成检索工作,从而显着提高查询质量和查询效率。参考文本信息检索实验方法研究[J].中国科技论文在线,2009,42:126-129.基于主题树的个性化元搜索引擎[J].计算机工程与设计,2011 , 321 :149-152. 个性化元搜索引擎的研究与设计[J].计算机与现代化,2009,9:52-55. [4]李正伟,夏世雄,牛强,等。研究用户兴趣建模个性化搜索引擎[J].武汉大学学报自然科学, 2007,125:893-896. ProFusion:多个分布式搜索引擎的智能融合[J].Journal UniversalComputer Science, 1996,29:637-649.元搜索引擎学习哪些搜索引擎查询[J].AI 杂志,1997,182: 19-25. Callan,JP;Connell,M.,Query-based Sampling textdatabases. ACM TOIS, 2001,192 Panagiotis,G.,Ipeirotis, Gravano,L.,总结使用聚焦探针分层搜索隐藏网络数据库。技术报告CUCS-015-01,哥伦比亚大学计算机系,2001 清华大学自然科学版,2005,45S1:1916-1919. [10]张伟峰,徐宝文,周晓宇,等调度元搜索引擎遗传算法[J].武汉大学学报自然科学, 2001,Z1:541-546. [11] Salton ModernInformation Retrieval NewYork: McGraw-Hill, 1983. 103-106. [12] 任红平,中文元搜索引擎成员 搜索引擎选择策略研究[J].图书馆学研究,200901:40-43. [13] 李存和,孟文杰.基于分类评价的元搜索引擎调度策略[J]. Computer Engineering And Design, 2008,295:1065-1066. [14] Dreilinger 使用元搜索选择搜索引擎 [J].ACM TOIS, 1997,153:195-222. [15] Callan Query-基于采样的文本数据库 [J].ACM TOIS, 2001,192: 102-108.