搜索引擎主题模型优化(互联网时代人们检索信息的方式主要通过搜索引擎完成。。)
优采云 发布时间: 2022-01-10 14:00搜索引擎主题模型优化(互联网时代人们检索信息的方式主要通过搜索引擎完成。。)
摘要: 在互联网时代,人们获取信息的方式主要是通过搜索引擎来完成的。无论是通用全文搜索引擎还是分类垂直搜索引擎,需要面对的问题就是作弊。变化。搜索引擎需要通过不断优化和改进其内部排序算法来消除作弊行为。
关键词:搜索引擎;内容排序;作弊和反作弊
CLC 编号:TP391 *敏*感*词*识别码:A 文章 编号:1009-3044 (2016)15-0202-02
摘要: 在互联网时代,人们搜索信息的方式主要是通过搜索引擎。无论是一般的全文搜索引擎还是分类等垂直搜索引擎,在面临作弊问题时,站长都会通过各种作弊手段在搜索引擎中排名上升,以不同的方式进行作弊行为。搜索引擎需要不断优化和改进内部排序算法,以杜绝作弊。
关键词:搜索引擎;内容排名;作弊和反作弊
搜索引擎通过提取网页中的主要信息来构建索引。用户的检索请求提交给搜索引擎后,搜索引擎通过索引系统筛选出符合条件的候选集,然后根据内部排序算法对待选集进行排序输出。网站的盈利模式主要是通过流量。网站流量越大,越能将网站拉入广告,实现*敏*感*词*盈利。因此,也有一些网站站长为了增加网站的访问量而作弊,利用不正常的手段提升网站在搜索引擎的内部排名。搜索引擎是出于公平考虑。为保证排名的合理性,
搜索引擎排名的依据很大程度上取决于用户输入的字符串与网站内容的匹配程度,网站站长堆积了大量关键词因此期待提高网站的排名,其实关键词这样的堆叠没有实际意义,甚至与网站的内容无关,大大降低了网站@ > 本身的质量,搜索引擎需要识别在内容识别中是否有大量的关键词不相关的使用。对于这样的作弊行为,需要抑制查询字符串与网站本身的内容的相似性。另外还有作弊等链接,本文主要分析网站中常用的方法
1 搜索引擎排名策略
搜索引擎排名中常用的做法是 LTR(learning to rank)算法。LTR算法是一种机器学习算法。它在传统相似度算法的基础上,在排序中融合多种相关特征,进行排序学习。LTR算法如图所示。1 所示。LTR 是一种基于监督学习的排序方法。LTR已广泛应用于许多领域。以文本挖掘为例,搜索引擎返回结果的排名、IR中召回文档的排序、推荐系统中候选产品的选择、机器翻译中的单词顺序等。
在早期的信息检索系统中,排序方法比较简单,通常根据用户搜索字符串与网页内容的匹配程度来排序。这样,在很大程度上只能使用单一的相似度计算方法。影响排序的效果,比如经典的TF-IDF、DL等,VSM和布尔模型都可以完成这些功能。这些传统的分拣方法无法融合多种分拣因素。假设对象由向量空间模型表示。向量空间模型 TF-IDF中的每个维度都用于计算权重,其他附加信息不能再相应使用。如果模型参数过多,模型本身的参数调整也会是一个很大的挑战,而过多的参数也会导致过拟合。和现象。很自然地想到用机器学习来解决上述问题,于是LTR(learning to rank)就诞生了。机器学习易于拟合多种特征进行模型训练,具有非常丰富的理论基础,具有成熟的理论和技术来解决稀疏和过拟合的问题。
模型训练的过程实际上是一个参数学习的过程。选取合理的真实数据作为训练数据集。对于特定模型,选择适当的损失函数。通过优化损失函数,可以获得当前模型下的最优参数。这就是模型训练的过程。在预测过程中,将要预测的数据作为输入数据传入模型,得到模型预测得分,利用结果得分进行相关排名分析。
LTR一般有三种方法:单文档方法(Pointwise)、文档对方法(Pairwise)和文档列表方法(Listwise)。
2 网站作弊
网站网站管理员通过排序和作弊来提高他们的网站排名。作弊方式主要有以下几类:
・ 增加目标作弊词影响排名的频率;
・ 增加话题相关内容或热门查询以吸引流量;
・ 在关键位置插入目标作弊词影响排名;
具体可以分为以下几种方式:
2.1关键词重复
关键词重复是一种常见的作弊策略,通过在网站中设置大量的关键词。关键词的词频信息是排序时重要的排序因素。关键词重复的本质是通过关键词的词频影响网站在呈现中的顺序。
2.2个无关查询词作弊
为了增加网站在搜索中的展示次数,尽量增加关键词的次数以提高搜索时与用户的匹配度,并添加大量与当前无关的信息网站 作弊时的页面主题。关键词也是一种词频作弊,即将原词频为0的词频提高到大于等于1的词频,通过提高搜索时的匹配度来吸引流量。
有的网站站长会在网页末尾隐藏添加一些关键词表格,有的作弊者会在正文内容中插入一些热搜词。而且,一些网站页面的内容完全是机器生成的,完全没有可读性。
2.3 图片替代标签文字作弊
alt标签作为图片的描述信息。用户浏览网页时通常不会显示。只有当用户点击鼠标获得焦点时才会显示。搜索引擎将使用此信息进行分析,因此一些 网站 作弊者将使用此信息填充 关键词 以增加流量。
2.4页标题秘籍
网页本身的标题信息,作为网站内容的重要组成部分,对于判断一个网页的主题具有重要意义。搜索引擎在计算相似度时会增加这部分的比例。功能,在网站的标题上堆叠与网站无关的关键词来作弊。
3 反作弊研究
搜索引擎的作弊手段有很多种,但在分析了最基础的作弊手段之后,还是可以找到一些常见的内容。从基本思想来看,反作弊方法大致可以分为以下三种:“信任传播模型”、“不信任传播模型”和“异常发现模型”。前两种技术模型可以进一步抽象为“链路分析”中的“子集传播模型”。
“信任传播模型”就是在海量数据采集中,通过一定的技术手段和半人工的方法,筛选出可以完全信任的网页。可以理解,这些网页根本不会作弊,这些网页可以称为白名单网页。搜索算法从这些列入白名单的网页开始,并为指向白名单网页的链接分配更高的权重。在搜索过程中,其他网页是否存在作弊行为取决于其与白名单中网页的链接关系。白名单中的网页通过链接关系向外传播信任度。如果中间网页的信任度低于给定阈值,则认为该网页存在作弊行为。
“不信任传播模型”从整体技术层面与“信任传播模型”相似,不同之处在于“信任传播模型”的起点是信任节点,而“不信任传播模型”的起点是"是不信任节点,即被确定的作弊节点可以理解为黑名单网页的集合。黑名单的每个页面节点都被赋予一定的不信任度,不信任度通过页面之间的链接关系向外传播。如果最后链接的页面节点的不信任阈值大于给定值,则认为该页面节点存在作弊。一般来说,“信任传播模型”和“不信任传播模型”
“异常发现模型”是不同于“信任传播模型”和“不信任传播模型”的链接分析模型。它主要基于一个假设:作弊网页必须具有某些不同于正常网页的特征,而这些特征可能是内容,也可能是链接。通常,首先抓取一些作弊网页的集合,分析这些作弊网页的异常特征,然后利用这些异常特征来识别作弊网页。
4 总结
本文主要分析人们目前搜索信息的主要方式。搜索引擎通过提取网站信息进行索引分析,向用户推荐最合适的网页。网站站长为了提高自己的网站在搜索中的排名,会利用各种作弊行为干预排名,通过关键词堆放、链接作弊等方式恶意破坏公平性。本文试图从技术的角度来分析各种作弊行为的技术实现,从实践的角度来防范此类作弊行为。
参考:
[1] 李志超,于慧嘉,刘义群,马少平。网络作弊与反作弊技术综述[J]. 山东大学学报(科学版),2011(5):1-8.
[2] 肖卓雷. 搜索引擎作弊与反作弊技术研究[J].阜阳师范大学学报(自然科学版),2011(4):74-78.
[3] 王立刚,赵正文,赵欣欣。搜索引擎反SEO作弊研究[J]. 计算机应用研究, 2009 (6): 2035-2037.
[4] 赵静. 搜索引擎优化中的作弊与防范[J]. 办公自动化,2010 (22): 8+19.
[5] 沉华.一种对抗社交网络链接作弊的算法[J].计算机与现代化,2015 (7): 1-4.