网页搜索引擎优化(垃圾网页搜索引擎优化技术研究()排名是什么)

优采云 发布时间: 2022-01-04 07:14

  网页搜索引擎优化(垃圾网页搜索引擎优化技术研究()排名是什么)

  垃圾网页搜索引擎优化技术研究 Abstract: 搜索引擎排名是垃圾网页自我宣传的主要方式之一。本文首先介绍了搜索引擎对搜索结果进行排序的基本策略,并具体提出了针对垃圾邮件网站的常用搜索引擎优化方法,为进一步研究检测垃圾邮件网站的相关技术和方法提供帮助. 关键词:搜索引擎排名策略搜索引擎优化中文图书馆分类号:TP393 文献识别码:A 文章 编号:1007-9416(2011)11-0124-02 1、@ >搜索引擎排名策略。在使用互联网搜索引擎的过程中,用户在使用搜索引擎查询信息时,有85%的几率只会看搜索引擎查询结果中的前10个结果。信息会出现在顶部 10个结果中,取决于搜索引擎使用的排名策略,搜索引擎使用的排名策略主要是根据用户使用搜索引擎查找信息的两个关键点互联网,即想要搜索的内容网站 搜索关键词(关键字)的相关性和重要性。1.1 Relevance 搜索引擎用于搜索关键词@ > 相关网站 该技术一般使用TFIDF(词频?逆文档fr equency)在信息检索中,即网页内容与搜索的相关程度关键词w.

  TFIDF 是一种常用的信息检索和信息挖掘加权技术。 TFIDF的主要思想是:如果一个词出现在一篇具有较高TF值的文章的文章中,而该词或词组在其他文章中出现的频率较低,则该词或词组为被认为具有良好的分类能力,适用于对信息进行分类。 TFIDF其实就是:TF表示w在网页总字数中出现次数的比例,即词频(Term Frequency); IDF(w)表示w在所有网页的集合中,收录w的网页数量为倒数,即逆文档频率(Inverse Document Frequency)。网页的 TFIDF 值越高,其在搜索结果中的排名就越高。 1.2 重要性 除了根据网页上出现的关键词词数进行排名之外,搜索引擎还提出了网页链接(推荐)作为计算网页重要性的排名技术,最其中广泛使用的算法分别是HIT和PageRank。 HIT算法计算每个网页的hub(具有hub性质的网页)和authority(权威网页)值,这意味着具有重要hub值的网页必须指向许多重要的权威网页;重要的权威网页被多个枢纽控制。页面指​​向。而PageRank(页面排名,谷歌搜索引擎排名算法一)的排名计算理论来源于:一个网页的重要性来自于其他重要网页的推荐,一个网页的重要性也会延伸到该网页它链接到。

  根据M.Bianchini、M.Gori等人的研究发现,PageRank算法的计算公式可能如下: 其中c表示阻尼系数c(0,1),通常设置to 0.85 ,代表py页面会点击px页面的概率,(1-c)/n代表随机跳转到其他页面的概率,所以px的PageRank就是链接到px的所有页面的PageRank概率。一般来说,这种情况下,PageRank值越高的网页排名越高。2、搜索引擎优化(SEO,Search Engine Optimization) 搜索引擎优化(SEO,Search Engine优化)实际上是为每个搜索引擎设计的排名算法,其主要功能是篡改一个网页在搜索引擎中的排名。对于围绕互联网虚拟市场开发营销服务的电子商务公司来说,搜索引擎营销已成为网络市场的重要领域应用程序。企业通常使用搜索引擎提高网站的访问率,通过搜索引擎将企业品牌信息和产品信息传递给在线消费者,从而提升品牌知名度和产品销售业绩。 2.1 搜索引擎营销的基本原理 电子商务企业开展搜索引擎营销,首先需要搭建企业产品信息或品牌信息等相关网页,形成信息源,然后将这些信息发布到通过各种方式上网。

  可以使用的方式包括:创建企业营销网站、利用行业信息平台或其他第三方信息发布平台、撰写博客文章、在知名网站发布在线广告和在论坛上发帖等方式。然后让搜索引擎使用搜索策略收录信息或支付搜索引擎收录信息,并将企业营销数据信息添加到搜索引擎索引数据库中,当用户在关键词搜索引擎@>查询时,公司的营销信息会作为搜索结果反馈给在线消费者。然而,一些垃圾网站为了提高网站的知名度,利用搜索引擎排名策略篡改了网站在搜索引擎中的排名。根据Z.Gyongui和H.Garcia-Molina的研究,可以分为Boosting技术和Hiding技术两大类。 2.2 Boosting 技术(Boosting technology) 该技术主要用于提高网页的排名。它是为上述搜索引擎排名方法设计的。根据技术的不同,可以分为: 2.2.1 Spamming 关键词 (Term spamming) 根据前面提到的TFIDF网页排名方法,次数关键词 @>出现在网页中(词频)会影响其排名位置。因此,搜索垃圾邮件发送者(web spammer,垃圾邮件发送者)利用此功能将关键词 放在网页的不同位置,例如:正文、标题、Meta 标签、HTML 头(网页)Header 标签)、URLs、锚文本(链接锚文本)等都是可以进行搜索引擎优化的地方。

  另外,插入关键词的方法也不同。最基本的就是插入大量重复的关键词来增加页面的主题;此外,复制其他弱主题或相关信息较少的网页被插入垃圾邮件词中并张贴在自己的垃圾邮件页面上(网络垃圾邮件)。这样,一方面可以在短时间内完成一个垃圾网页(web spam),另一方面可以稀释网页中垃圾网页的比例,避免搜索引擎的检查;或者在不同领域放入大量不相关的关键词,或者将不同主题网页的内容片段剪切粘贴,让用户即使不查询相关主题也会看到垃圾网站。 2.2.2 Link spmming 顾名思义,Link spmming是针对上述基于链接的搜索算法HITS或PageRank设计的一种搜索引擎排名的垃圾邮件技术,可以简单分为两种:(< @1)传出链接)。垃圾邮件制造者(Spammer)会在众所周知的网站链接上添加大量链接,以增加垃圾邮件网页的枢纽价值。由于很多目录网站对各个主题都有明确的分类,并且分类中列出了相关的链接,复制目录的内容网站是垃圾邮件发送者最常用的快速建立大量的方法导出链接。

  (2)Incoming links。Incoming links,也叫外链,主要是用来把其他网页链接到垃圾网页,以增加权威值或PageRank值。2.3 隐藏技术(隐藏技巧)隐藏技巧(Hiding technology)主要是隐藏boosting的技巧,主要是因为欺骗搜索引擎的伎俩很容易被肉眼发现,垃圾页面的制造者(Spammer)因此开发了一些隐藏方法。< @2.3.1 Content Hiding 内容隐藏的目的是隐藏关键词或者垃圾链接,最基本的方法就是将网页中垃圾文本的颜色设置为同色作为背景。例如:隐藏文字... var _userid ='';var _siteid =2230;var _istoken = 1;var _model ='Model03';WebPageSpeed =172; UrchinTrack(); 2.3.2 Cloaking Cloaking是一种黑帽SEO技术,垃圾邮件发送者设计了两个不同的网页,分别针对网络爬虫和一般用户。

  为网络爬虫设计的垃圾页面会尽可能多地放置大量垃圾文本和垃圾链接,以欺骗网络爬虫让搜索引擎提高其页面排名。遇到普通用户时,直接传送广告网页,达到广告效果。除了通过比较预先建立的搜索引擎IP列表来识别网络爬虫,还可以从用户HTTP请求消息中的user-agent字段中看出发出请求的浏览器类型。例如:GET/db pages/member.html HTTP/1.0 Host: User-Agent:Mozilla/关键词3@>0(compatible;MSIE关键词4@>0;Windows NT 关键词5@ > 1) 2.3.3 重定向(Redirection) 除了上面的隐身技术,还有一个更直接的方法是在用户连接垃圾邮件时直接将用户重定向到广告页面page 垃圾页面本身仍然是误导搜索引擎的罪魁祸首,实现重定向的方法有两种,第一种是使用meta标签的函数参数,语法如下: 上面的方法太简单了,所以比较, 第二种方法使用脚本程序,多被精通编程的垃圾邮件散播者使用,由于一般的网络爬虫不执行脚本程序,编写脚本程序不仅可以达到重定向的目的,而且其隐私性更高,更难检测。

  关键词9@>Spam网站检测方法概念spam网站篡改排名的方法分为spamming关键词(Term spamming)技术和垃圾链接(Link spmming)技术,因此,垃圾邮件检测的对策也可以分为:基于内容的垃圾邮件检测技术、基于链接的垃圾邮件检测技术和综合垃圾邮件检测技术三种方法的检测技术。使用垃圾邮件检测技术,减少垃圾邮件对网络用户的影响。参考文献 [1] 张玉芳,彭世明,吕嘉.基于文本分类的TFIDF方法的改进与应用[J].上海:计算机工程。 2006(10):76-78. [2]Mk Jon,超链接环境中的权威来源,J.ACM,46(1999),pp.604-63 [6] 张秀英. 搜索引擎产业发展与搜索引擎优化策略研究. 技术与产业, 2011, 6(1< @1): 16-19. [7]Z.Gyongui 和 H.Garcia-Molina,Web Spam Taxonomy,Firest International Workshop on Adversarial Information Retrieval on the Web(AIRWeb'05), 200关键词5@>

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线