搜索引擎主题模型优化(互联网时代人们检索信息的方式主要通过搜索引擎完成。。)

优采云 发布时间: 2022-01-03 12:19

  搜索引擎主题模型优化(互联网时代人们检索信息的方式主要通过搜索引擎完成。。)

  王庆福+王兴国

  

  摘要:互联网时代人们获取信息的方式主要是通过搜索引擎来完成的。无论是通用的全文搜索引擎,还是子类别的垂直搜索引擎,都需要面对的问题是作弊。 网站 站长会利用各种作弊行为来提高自己在搜索引擎上的排名。他们作弊的方式也存在巨大差异。搜索引擎需要不断优化和完善内部排序算法,防止作弊。

  关键词:搜索引擎;内容排名;作弊与反作弊

  中文图书馆分类号:TP391 文献识别码:A 文章 编号:1009-3044 (2016)15-0202-02

  摘要:在互联网时代,搜索信息的方式主要是通过搜索引擎。无论是一般全文搜索引擎还是分类其他垂直搜索引擎在面对作弊问题时,站长都会通过各种作弊手段在搜索引擎中排名上升,作弊行为的方式各不相同。搜索引擎需要不断优化和完善内部排序算法,杜绝作弊。

  关键词:搜索引擎;内容排名;作弊与反作弊

  搜索引擎通过提取网页中的主要信息来构建索引。用户的搜索请求提交给搜索引擎后,搜索引擎通过索引系统筛选出符合条件的候选集,然后根据内部排序算法对候选集进行排序输出。 网站的盈利模式主要是通过流量,网站流量越大意味着网站可以拉动更多的广告,实现规模化盈利。因此,也有一些网站站长为了增加网站流量,通过不正当手段提高自身在网站搜索引擎中的内部排名。搜索引擎出于公平考虑。为保证排名的合理性,需要对网站站长的作弊行为进行检测,大大减少因作弊行为造成的排名错误。

  搜索引擎排名的依据很大程度上取决于用户输入的字符串与网站内容的匹配程度。 网站站长自己堆了很多网站网站 @关键词所以希望能提高网站的排名。其实像这样的关键词的填充没有实际意义,甚至与网站的内容无关,大大降低了网站本身的质量,搜索引擎在识别内容时需要识别是否存在大量无关关键词的无关用途。对于这种作弊,需要抑制查询字符串与网站本身内容的差异。相似。另外还有链接作弊等,本文主要分析了网站作弊中的常用方法,并讲解了搜索引擎反作弊的常用方法。

  1 搜索引擎排名策略

  搜索引擎排名中常用的方法是LTR(学习排名)算法。 LTR算法是一种机器学习算法,在传统相似度算法的基础上,结合多个排序的相关特征进行排序学习,LTR算法如图1所示。LTR是一种基于规律性的基于监督学习的排序方法. LTR已广泛应用于许多领域。以文本挖掘为例,搜索引擎返回结果的排序,IR中召回文档的排序,推荐系统中候选产品的选择,机器翻译中文本的顺序等。

  在早期的信息检索系统中,排序方法比较单一,通常是根据用户搜索字符串与网页内容的匹配程度,所以在很大程度上只能采用单一的相似度计算方法。多种因素会影响排序的效果,比如经典的TF-IDF、DL等,VSM和布尔模型可以完成这些功能。这些传统的排序方法无法结合多种排序因素。假设使用向量空间模型来表示对象,向量空间模型中的每个维度都使用TF-IDF来计算权重,不能相应地使用其他附加信息。如果模型参数过多,对模型本身的参数调整也是一个很大的挑战。参数过多也会导致过拟合和现象。自然与使用机器学习来解决上述问题有关,因此产生了LTR(learning to rank)。机器学习易于拟合多种特征进行模型训练,具有非常丰富的理论基础,具有成熟的理论和技术来解决稀疏和过拟合问题。

  模型训练的过程其实就是一个参数学习的过程。选择合理的真实数据作为训练数据集。对于特定模型,选择合适的损失函数。通过优化损失函数,可以得到当前模型下的最好的。这就是模型训练的过程。在预测过程中,将需要预测的数据作为输入数据传递给模型,得到模型预测分数,用于进行相关排序分析。

  LTR一般有三种方法:单文档方法(Pointwise)、文档对方法(Pairwise)、文档列表方法(Listwise)。

  2 网站作弊行为

  网站站长通过排序和作弊提高了网站的排名。作弊主要有以下几种:

  ·增加目标作弊词的频率影响排名;

  ·增加无关内容或热门查询以吸引流量;

  ·在关键位置插入目标作弊词影响排名;

  具体可以分为以下几种方式:

  2.1关键词重复

  关键词 重复是一种常见的作弊方法,通过在网站中设置大量的关键词。 关键词的词频信息是排序时的重要排名因素。 关键词重复的本质是通过关键词的词频影响网站的显示顺序。

  2.2 个不相关的查询词作弊

  为了增加网站在搜索中的显示频率,尽可能通过添加关键词来提高搜索时与用户的匹配度,在当前网站的基础上增加很多@>页面作弊时 主题无关关键词也是一种词频作弊,即把原词频0的词频提高到大于等于1的词频,通过吸引流量提高搜索时的匹配度。

  部分网站站长会在页面末尾隐藏地添加一些关键词表单,还有一些作弊者会在正文内容中插入一些热搜词。更何况一些网站页面的内容完全是机器生成的,完全没有可读性。

  2.3 图片 alt 标签文字作弊

  alt 标签用作图片的描述信息。通常在用户浏览网页时不显示。只有当用户点击鼠标获得焦点时才会显示。搜索引擎会利用这些信息进行分析,所以一些网站作弊者会利用这些信息填写关键词,达到吸引流量的目的。

  2.4页标题作弊

  作为网站内容的重要组成部分,网页本身的标题信息对于判断一个网页的主题非常重要。搜索引擎在计算相似度时会增加这部分的比例,作弊的作者会利用这个特性,在网站的标题中堆积与网站无关的关键词来达到作弊。

  3 反作弊研究

  搜索引擎作弊方式多种多样,层出不穷,但从最基础的作弊技术分析中,可以发现一些常见的内容。从基本思路来看,反作弊方法大致可以分为以下三种:“信任传播模型”、“不信任传播模型”和“异常发现模型”。前两种技术模型可以进一步抽象概括为“链路分析”中的“子集传播模型”。

  “信任传播模型”是从海量数据中筛选出通过一定技术手段和半人工方式可以完全信任的网页。可以理解,这些网页根本就没有作弊,这些网页都可以称为白名单网页。搜索算法以这些列入白名单的网页为起点,并为白名单网页的链接分配更高的权重。在搜索过程中,判断其他网页是否存在作弊行为,取决于与白名单中网页的链接关系。确保;确定。白名单中的网页通过链接关系向外传播信任度。如果中间某个网页的信任度低于给定的阈值,则认为该网页存在作弊行为。

  “不信任传播模型”在整体技术层面上与“信任传播模型”类似。区别在于“信任传播模型”的出发点是信任节点,“不信任传播模型”的出发点是不信任A节点,即有一定作弊行为的节点,可以理解作为列入黑名单的网页的集合。黑名单中的每个网页节点都被赋予一定的不信任度,不信任度通过网页之间的链接关系向外传播。如果最后一个链接页面节点的不信任阈值大于给定值,则认为该页面节点存在作弊。一般来说,“信任传播模型”和“不信任传播模型”都可以认为是基于链接分析实现的,两者都是通过链接传播的传播来判断搜索页面是否存在作弊行为。

  “异常发现模型”是一种不同于“信任传播模型”和“不信任传播模型”的链接分析模型。它主要是基于作弊网页必须具有某些不同于正常网页的特征的假设。这些功能可能在内容或链接上。通常,首先抓取一些作弊网页的集合,分析这些作弊网页的异常特征,然后利用这些异常特征来识别作弊网页。

  4 总结

  本文主要分析人们目前搜索信息的主要方式。搜索引擎通过提取网站信息进行索引分析,向用户推荐最匹配用户的网页。 网站为了提高网站在搜索中的排名,站长会使用多种作弊行为来干预排序,并利用关键词堆叠和链接作弊来恶意破坏公平性。本文尝试从技术角度分析各种作弊行为的技术实现,从实际出发,遏制此类作弊行为。

  参考文献:

  [1] 李志超,于慧佳,刘义群,马绍平。网络作弊与反作弊技术综述[J].山东大学学报(科学版),2011 (5): 1-8.

  [2] 肖卓蕾。搜索引擎作弊与反作弊技术研究[J].阜阳师范学院学报(自然科学版),2011 (4): 74-78.

  [3] 王立刚,赵正文,赵欣欣。搜索引擎反SEO作弊研究[J].计算机应用研究, 2009 (6):2035-2037.

  [4] 赵静。搜索引擎优化作弊与防范[J].办公自动化, 2010 (22): 8+19.

  [5] 沉华。一种防止社交网络链接作弊的算法[J].计算机与现代化,2015 (7): 1-4.

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线