搜索引擎主题模型优化(文章目录Web图算法是A的入链)
优采云 发布时间: 2022-01-07 11:09搜索引擎主题模型优化(文章目录Web图算法是A的入链)
文章内容
网络地图
网络图是互联网的抽象。我们将每个网页视为一个点,将网页之间的超链接视为线。那么整个互联网形成的点线连接图就是一个Web图。其中 A->B 是 A 的输出链,D->A 是 A 的输入链。
链接模型随机游走模型
在网上冲浪的时候,浏览网页的时候,往往是沿着网页的链接浏览的。随机游走模型是为浏览网页的用户创建的抽象概念模型。
随机游走模型的假设是:在某一时刻1,用户正在浏览网页A,浏览完后,会以等概率选择网页A的外链点击跳转到浏览界面。这个过程直接称为跳转。之后,流程会继续迭代,界面会继续跳转。如果假设的Web图中没有用户感兴趣的界面,则用户将在浏览器中输入另一个URL直接到达该网页。这种行为称为远程跳转。随机游走模型是一个概念模型,它抽象了两种浏览行为,直接跳转和远程跳转。
子集传播模型
子集传播模型是从许多链路分析算法中抽象出来的概念模型。其基本思想是在设计算法时,将网页按照一定的规则划分为两个或多个子集合。某个子集具有特殊的属性,它会被赋予一个初始值。然后,根据这个特殊子集与其他网页的链接关系,将权重以某种方式传递给其他网页。
链接分析算法 PageRank 算法
PageRank 是 Google 提出的一种链接分析算法。在它被提出之前,许多研究人员提出利用网页中的链接数来进行链接分析和计算。他们假设网页的链接越多,网页就越重要。而PageRank除了链接数外,还指的是网页质量的因素。基于这两个因素,提出以下两个假设:
利用以上两个假设,PageRank算法刚开始给每个页面分配相同的重要性分数,通过迭代递归计算来更新每个页面的PageRank分数,直到分数稳定。
在每一轮更新计算中,每个页面都会将其当前的PageRank值平均分配给该页面所收录的外链,从而使每个链接得到相应的权重,然后与当前的PageRank值相加。能。
如果经过新一轮的PageRank计算,发现,一般情况下,页面节点的PageRank值存在基本问题,没有发生大的变化,则可以结束本次PageRank计算。
链接陷阱
但 PageRank 算法并不是万能的。对于一些特殊的链接结构,按照PageRank算法计算会出现问题,比如下面的网页图:
对于网页B和C,它只吸收了外部导入的PageRank分数,并不向外传递,最终导致网页B和C的权重非常高,这就是链接陷阱。
解决远程跳转中链接陷阱的一般方法是,网页转移积分时,不限于链接指向的网页,还可以有一定概率跳转到其他任何网页。
HITS算法Hub页面和Authority页面
HITS计算的目的是在大量网页中找到与用户查询主题相关的高质量Authority和Hub页面。
相互强化
HITS算法基于以下两个假设:
基于以上两个基本假设,可以推导出Hub页面和Authority页面之间的相互增强关系。网页的Hub质量越高,链接指向的页面的Authority质量就越好;事实正好相反。通过这种方式不断迭代计算相互增强关系,可以找出哪些页面是高质量的Hub页面,哪些是高质量的Authority页面。
HITS算法
HITS算法与用户输入的查询请求密切相关,其后续的计算步骤是在接收到用户的查询后进行的,即与查询相关的链接分析算法。
HITS算法收到用户的查询后,将查询提交给现有的搜索引擎,从返回的搜索结果中提取排名靠前的网页,得到一组与用户查询高度相关的初始网页。它被称为根集。
之后,基于根集,HITS 算法扩展网页集。它基于以下规则:所有与根集中网页有直接链接的网页都被展开,无论是链接到根集中页面的链接还是链接到根集中页面的页面根集,它被扩展以形成一个扩展。网页的集合。
为扩展网页集合的每个页面设置两个权重,分别指定其Hub值和Authority值。之后,利用上面提到的两个基本假设和相互增强关系的原则,进行多轮迭代计算。每轮迭代计算更新每个页面的两个权重,直到权重稳定,没有发生显着变化。
下图中,A(i)代表某个网页的Authority值,H(i)代表某个网页的Hub值。每次迭代中的Authority值是所有指向网页的Hub权重之和;Hub 值也是如此。直到每个网页都更新完毕,就意味着一轮迭代计算完成。
SALSA 算法
SALSA算法的初衷是结合两者的主要特点。可以利用HITS算法和查询的特点,也可以采用PageRank的随机游走模型。大致分为两个阶段:
确定对象集
SALSA 算法首先获得扩展网页的集合,然后将网页的关系转换成二部图的形式。接收到用户查询后,利用现有的搜索引擎或检索系统,获取一批内容与用户查询高度相关的网页,即根集。在此基础上,将与根集合中的网页有直接链接关系的网页收录进来,形成一个扩展的网络集合。
转换为无向二部图
SALAS 根据集合中网页的链接关系将网页集合转换为二部图。这个过程将网页分成两个子集合,一个子集合是Hub集合,另一个子集合是Authority集合。划分基于以下规则:
这样,一个网页就可以有多个身份。例如,网页 C 属于 Hub 集合和 Authority 集合。
链接传播
在链路传播模型中,假设某个用户从某个子集中随机选择一个节点。如果节点收录多条边,则以等概率随机选择一条边并从一组跳到另一组。或者从另一组跳回来,反复跳入该组。最终形成了SALSA自己的链接关系传播模式。
虽然看起来与 PageRank 传播模型不同,但关键点是相同的:当它从一个节点跳转到另一个节点时,如果它收录多个链接可供选择,则以等概率随机选择一条路径。
对于Hub-Authority模型,SALSA更关注Hub-Hub和Authority-Authority之间的节点关系,另外一个子集合节点只是作为中转桥。
下面是由上述二部图转换而来的Authority节点关系图,其中权重分布按照平均分布。以网页C为例。从上面二部图中的集合A出发,有四种方式可以走:CC、CC、CD、CE。每个的概率可以看作0.25。
建立权限节点关系图后,可以使用随机游走模型计算每个节点的权限权重。在实际计算过程中,SALSA进一步将搜索结果排序问题转化为求权威节点矩阵的主排序问题。矩阵的主要秩是每个节点对应的权威分数,按照权威分数从高到低排列。
下面是SALSA的权重计算公式和矩阵主秩的等价:
主题敏感的 PageRank
主题敏感 PageRank 是 PageRank 算法的改进版本,主要用于个性化搜索。它主要包括两个步骤:
离线分类主题PageRank数值计算在线使用算法的主题PageRank分数来评估网页与用户查询的相似度分类主题PageRank计算
主题敏感的 PageRank 将定义 16 个主要主题类别,涵盖技术、娱乐、商业等作为主题类型。它将依次计算类别的 PageRank 分数。在计算某个类别的 PageRank 分数时,会将所有网页分为两组。一组是人工选择的高质量网页,称为S组;其他网页与另一组类似,称为 Set T。
假设一个网页在集合S中,那么经过业务分类计算,该网页将得到0.5的PageRank分数,在技术和分别娱乐。积分。这样就得到了(0.5,0.1,0.05)这个PageRank分类向量。每个值代表这个网页属于这个类别的概率。
在线相似度计算
在这一步中,搜索系统首先会使用用户查询分类器对查询进行分类,并计算用户查询属于每个定义类别的概率。搜索系统在进行用户查询分类计算的同时,读取索引,找到所有收录用户查询的网页,获取上一步计算出的网页的PageRank值。这两者的乘积是某个网页与用户查询词的相似度。. 假设网页A属于(科技、商业、娱乐)类别的概率为(0.3,0.2,0.3),查询词CSDN属于(科技、商业)、娱乐)范畴的概率为(0.5,0.2,0.1),
山顶算法
Hilltop 算法结合了 HITS 和 PageRank 的基本思想。一方面,Hilltop 是一种与用户查询请求相关的链接分析算法。吸收了HITS算法的思想,根据用户查询获取高质量相关网页的子集,采用子集传播模型;另一方面,在权重传播的过程中,Hilltop算法也采用了PageRank的基本思想,会根据页面内链接的数量和质量来确定搜索结果的排名权重。
Hilltop 算法的两个重要定义是非附属组织页面和专家页面。Hilltop 算法将 Internet 页面划分为两种类型的子集合。最重要的子集是由专家页面组成的互联网页面子集。不在此集合中的页面称为目标页面集合。
笔记:
非附属组织页面:如果两个页面不是从属网站,则它们是非附属组织页面。如果主机的网络号或主域名相同,则视为从属网站。
专家页面:是一个与主题高度相关的高质量页面,还需要满足这些页面的链接指向的页面都是非附属组织的页面。
Hilltop算法首先通过一定的规则从大量的互联网页面中筛选出专家页面的子集,并分别为该页面建立索引。收到用户发送的某个查询请求后,首先根据用户查询的主题,从专家页面的子集合中找出一些最相关的专家页面,并计算出每个专家页面的相关度得分,然后根据目标页面与这些专家页面的链接关系,对目标页面进行排序。最后,返回排序结果的 TopK 返回给用户。
专家页面搜索
Hilltop算法筛选出超过100万个网页作为专家页面的集合,需要满足以下两个条件:
这两个条件只是基本条件,可以设置其他条件来控制专家页面采集的规模。
根据上述条件过滤掉专家页面后,可以对专家页面进行单独索引。此过程将索引三个网页的关键片段:网页标题、H1 标签文件和 URL 锚文本。
用户收到用户查询后,假设查询收录多个词,会根据以下三类信息进行评分:
关键段查询词的数量关键段本身的类型信息决定了它的权重。标题的权重,H1、锚文本从高到低,用户查询与关键段的不匹配率,是关键段中的查询词不匹配。按出现频率排序的目标页面
Hilltop 算法收录一个基本假设:认为如果目标页面是满足用户查询的高质量搜索结果,则充分必要条件是目标页*敏*感*词*有指向高质量专家页面的链接。
这个阶段的Hilltop是基于专家页面和目标页面之间的链接关系。在此基础上,专家页面的评分通过链接关系传递给目标页面。通过分数的前提是页面需要满足以下两个要求:
专家页面之一对目标页面的权重计算如下:
在专家页面中找到可以控制目标页面的关键片段集合S。统计 S 中收录用户查询词的关键片段 T 的数量。T 的值越大,权重越大。专家页面传递给目标页面的分数为:E*T,E是专家页面本身第一阶段计算的相关分数,b是2步参考中计算的分数
[1] 这是搜索引擎