搜索引擎主题模型优化(郑州航空工业管理学院计算中心:对个性化搜索引擎中的用户兴趣模型进行了分析研究)

优采云 发布时间: 2022-01-20 11:07

  搜索引擎主题模型优化(郑州航空工业管理学院计算中心:对个性化搜索引擎中的用户兴趣模型进行了分析研究)

  郭李伟超(郑州航空工业管理学院计算中心,河南郑州450015):本文对个性化搜索引擎中的用户兴趣模型进行了分析研究。首先,分析了*敏*感*词*:河南省基础与前沿技术研究计划(4 作者简介:郭林(1976-),男,硕士,郑州航空工业管理学院计算中心工程师,研究方向为计算机应用;李伟超(1978-)- ),男,硕士,郑州航空工业管理学院计算中心实验工程师,研究方向为计算机信息安全。引言 用户兴趣模型是实现搜索引擎个性化服务的起点,也是搜索引擎个性化服务的基础和核心。用户兴趣模型的好坏直接关系到个性化服务的好坏。用户兴趣模型与用户检索需求相结合,更能逼近用户' s “真实”的信息需求。通过对检索结果进行过滤和过滤,可以提高搜索引擎的搜索准确率。.

  现有用户兴趣模型的信息过滤技术不足是对个体对象的信息进行筛选和过滤,信息过滤更关注用户的长期兴趣需求。早期的用户模型是信息过滤技术的核心问题,利用当时的用户模型构建个性化的人机界面。个性化人机界面是一个界面部分,它提供了用户与系统之间的交互界面。对用户即将采取的新行为或行动做出反应。目前一般的信息检索系统不太关注用户自身的个性化需求,大部分通过改进现有检索模型和优化信息处理过程来提高检索准确率。这种搜索引擎系统没有考虑到用户的检索行为和历史,用户无法轻易找到自己的最新兴趣和偏好点。用户兴趣模型是用来描述用户潜在兴趣需求的模型。其主要功能是捕捉用户的查询需求及其兴趣偏好,并记录和管理用户的兴趣偏好。将用户兴趣模型引入信息查询系统,有助于为用户提供个性化的信息查询服务,实现自适应信息搜索。由于用户兴趣模型可以定位用户的信息需求,它可以为用户提供主动的个性化信息服务。现有的个性化服务系统在服务个性化、智能化、适应性等方面取得了令人满意的效果,但还存在一些不足: 用户兴趣描述文件可以存储在服务器端、客户端或代理端;用户兴趣可分为近期兴趣和长期兴趣;用户模型中用户兴趣信息的学习效率低;个性化搜索引擎中的用户兴趣模型 2.1 用户兴趣模型的基本结构 不同知识结构的用户对文档的相关性和对检索结果的要求有不同的判断。即使是同一个用户,在不同时期也有不同的兴趣。现有的个性化服务系统在服务个性化、智能化、适应性等方面取得了令人满意的效果,但还存在一些不足: 用户兴趣描述文件可以存储在服务器端、客户端或代理端;用户兴趣可分为近期兴趣和长期兴趣;用户模型中用户兴趣信息的学习效率低;个性化搜索引擎中的用户兴趣模型 2.1 用户兴趣模型的基本结构 不同知识结构的用户对文档的相关性和对检索结果的要求有不同的判断。即使是同一个用户,在不同时期也有不同的兴趣。现有的个性化服务系统在服务个性化、智能化、适应性等方面取得了令人满意的效果,但还存在一些不足: 用户兴趣描述文件可以存储在服务器端、客户端或代理端;用户兴趣可分为近期兴趣和长期兴趣;用户模型中用户兴趣信息的学习效率低;个性化搜索引擎中的用户兴趣模型 2.1 用户兴趣模型的基本结构 不同知识结构的用户对文档的相关性和对检索结果的要求有不同的判断。即使是同一个用户,在不同时期也有不同的兴趣。但仍存在一些不足: 用户兴趣描述文件可以存储在服务器端、客户端或代理;用户兴趣可分为近期兴趣和长期兴趣;用户模型中用户兴趣信息的学习效率低;个性化搜索引擎中的用户兴趣模型 2.1 用户兴趣模型的基本结构 不同知识结构的用户对文档的相关性和对检索结果的要求有不同的判断。即使是同一个用户,在不同时期也有不同的兴趣。但仍存在一些不足: 用户兴趣描述文件可以存储在服务器端、客户端或代理;用户兴趣可分为近期兴趣和长期兴趣;用户模型中用户兴趣信息的学习效率低;个性化搜索引擎中的用户兴趣模型 2.1 用户兴趣模型的基本结构 不同知识结构的用户对文档的相关性和对检索结果的要求有不同的判断。即使是同一个用户,在不同时期也有不同的兴趣。1 用户兴趣模型的基本结构 不同知识结构的用户对文档的相关性和对检索结果的要求有不同的判断。即使是同一个用户,在不同时期也有不同的兴趣。1 用户兴趣模型的基本结构 不同知识结构的用户对文档的相关性和对检索结果的要求有不同的判断。即使是同一个用户,在不同时期也有不同的兴趣。

  用户兴趣模型是为用户提供个性化服务的信息检索或信息过滤系统的核心组成部分。它可以获取每个用户的不同信息需求,并跟踪用户的兴趣和行为。因此,需要为每个用户建立一个用户描述文件。,即个性化服务文件,用于保存用户的兴趣和喜好。目前,发现用户兴趣的方式主要有两种:显式获取和隐式获取。显式获取是指用户主动提供自己的兴趣爱好,进而获取用户的个性化向量;隐式获取是通过用户访问的相关信息来更新用户的个性化向量。一般的个性化系统采用显式和隐式相结合的方法建立用户兴趣模型,即在用户主动提供的显式个性化向量的基础上,通过用户浏览的网页和用户反馈的信息,建立用户兴趣模型。用户对搜索引擎检索结果的建立和更新用户的兴趣向量,通过观察用户的浏览行为来更新用户的兴趣模型。考虑到用户短期兴趣和长期兴趣的差异,在建立的用户兴趣模型中,要根据用户的短期兴趣和长期兴趣不断更新用户兴趣模型。用户兴趣模型的基本框架如图 1 所示。 用户兴趣模型框架 从图 1,可以看出用户兴趣模型的基本结构主要包括以下几个方面: )用户兴趣的量化。首先,要对用户对搜索引擎检索结果的反馈信息和用户的页面浏览行为进行量化,以供后续量化处理。

  ) 信息预处理和特征提取。对量化后的用户兴趣进行各种处理,如各种噪声点的处理,去除无用信息。) 建立短期用户兴趣模型。根据提取的用户特征建立用户兴趣模型,用户兴趣模型根据用户的短期兴趣信息建立相应的短期用户兴趣模型。) 建立一个长期的用户兴趣模型。对获得的用户兴趣和用户兴趣量进行更新和优化,利用Web数据挖掘中的各种挖掘方法挖掘用户更深层次的兴趣偏好。更新用户兴趣模型,得到用户最终的长期兴趣模型。2. 2 用户兴趣模型的特征提取 文档表示向量中词ti的选取及其权重Wi的评估称为特征提取。特征提取是使用向量空间模型进行信息检索的关键步骤。使用哪种策略算法进行特征提取以及策略算法的优劣将直接影响用户检索查询的效果。其权重的评估需要大量的样本文档,这些样本文档是根据特征项对文档内容的贡献度,通过多次统计完成的。不同自然语言文档中每个词条的频率分布不同,可以根据每个词条的频率特征通过统计方法进行特征提取。

  比较常用的一种方法是基于词频统计的TF-IDF算法。基于词频统计的TF-IDF算法是一种基于文本的Web内容挖掘方法。TF-IDF算法中规定一个文档条目的重要性与该条目的文档频率成正比,与该条目在训练文档集中的文档频率成反比,那么条目权重评估函数可以构造:term ti tfi 表示term ti 出现的频率,idfi 是倒置文档的频率(文档集中收录term ti 的文档的数量),其中: idfi = lg 是用于所有训练文本的文档特征提取总数,ni 是 ti 在样本文档集中至少出现一次的文档数量。在公式( )中,我们可以看到 tfi 值成反比。也就是说,该算法可以保证整个文档中的低频词也可能具有更高的权重。2.3 用户兴趣模型的建立 第一次使用系统时,检索系统中的用户模型非常简单,用户可以在分类信息中粗略选择自己的兴趣偏好,系统根据结果形成不同的用户个性化由用户选择。向量,并使用这些个性化的向量来表示用户的各种兴趣和偏好。用户兴趣模型可以由以代表用户兴趣的关键词为主题的对象组成,每个物体都有一个权重值。权重值越高,用户对关键词的信息越感兴趣。

  其中,每个关键词对象的权重值的计算方法在上一节已经详细介绍过。根据兴趣模型的基本框架,用户的兴趣可以分为随意兴趣和稳定兴趣或短期兴趣和长期兴趣。用户对关键词到关键词ti的兴趣度定义为关键字在文档中出现的频率,即Wi),即用户对关键词对象的偏好. 假设用户可能对某个关键词对象有偶然的兴趣或者稳定的兴趣,偶然的兴趣(短期的兴趣表示为Tshort),稳定的兴趣(长期的兴趣表示为Tlong ),然后是 Web 用户' s 兴趣可以表示为 常用表示为: 其中 T 表示 关键词 的集合,大小为 n,Tshort 表示 关键词 的集合,Tlong 表示 关键词的集合@> 的长期兴趣,则兴趣集为: T= Tshort Tlong 可以根据用户对单个关键词条目的偏好,定义某个条目ti在兴趣集中的兴趣程度: 其中, tiT 2.4 用户兴趣模型的更新优化是在用户使用系统时进行的。在此过程中,系统不断记录用户的使用情况,并对记录的使用情况进行分析,从而不断修改和完善用户兴趣模型。用户兴趣模型的更新方法可以分为两种:兴趣交叉消除方法和兴趣集合合并方法。两种方法都将用户反馈的当前兴趣向量作为当前兴趣向量,将兴趣模型中存储的兴趣向量作为历史兴趣向量,并将当前获取的用户兴趣向量与历史兴趣向量进行比较。

  在一般用户兴趣模型中,需要考虑临时兴趣(短期兴趣)和稳定兴趣(长期兴趣)。偶然兴趣一般是用户当前的兴趣。当用户的偶然兴趣信息积累到一定程度,就会转化为稳定的兴趣。因此,我们将稳定的利益视为用户的长期存储国度。李伟超:个性化搜索引擎用户兴趣模型研究历史兴趣,可以形象地描述用户的兴趣偏好特征。用户兴趣模型的更新和优化可按以下三个步骤完成: 2.4.1 获取用户的随意兴趣 将随意兴趣向量按规则添加到最新的用户兴趣向量中,并删除较旧的用户兴趣向量。2.4.2 偶然兴趣到稳定兴趣的转变 对于偶然兴趣向量中比较重要的关键词和兴趣度(权重值),将超过一定阈值的兴趣向量转化为用户的稳定兴趣向量,为式( )所示: Tlong TlongWt ThreshTlongWt 其中,阈值为 Thresh,阈值通常为均值和标准差之和,即 Thresh = 2.4.3 更新稳定的利益随着时间的推移,用户不感兴趣的兴趣逐渐被淘汰Vector(关键词)。通过用户兴趣模型的更新过程,可以得到更符合用户需求的用户兴趣模型,这也为系统的智能化支撑提供了更多帮助。此外,用户兴趣模型随时间不断变化。可以引入机器学习过程,学习用户的操作记录、反馈信息等,不断更新用户兴趣模型,从而得到更稳定、更适合的用户兴趣模型。兴趣偏好模型。

  基于用户兴趣模型的个性化搜索引擎个性化搜索引擎的关键技术在于用户兴趣模型的展示和个性化检索结果。首先从用户界面上的用户交互过程中不断获取用户的兴趣偏好,然后构建用户兴趣模型,不断更新优化用户兴趣模型,通过用户兴趣模型得到用户的注意力信息被传送到搜索引擎。这使得搜索引擎能够检索到用户感兴趣的信息。同时,搜索引擎将检索到的信息与用户的兴趣模型进行比较,得到用户感兴趣的页面的排名,然后对页面进行排序。到用户的程度' 对页面的兴趣,并单独显示页面。其工作原理如图2 个性化搜索引擎工作原理参考文献:鑫科学,2011 第三届全国信息检索与内容安全学术会议,2007。计算机研究与开发,2002。咸阳师范大学学报,2009,第四部分。在自然主义背景下测试两个信息检索设备的时序。文档排序和向量空间模型。计算机技术与发展,2006。电子设计工程,2010 计算机工程与应用,2008 术语频率逆向记录频率其次,与更新和优化分开。最后提出个性化搜索引擎的具体工作流程。关键词

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线