垃圾网页的搜索引擎优化技术研究(组图)研
优采云 发布时间: 2021-07-25 21:41垃圾网页的搜索引擎优化技术研究(组图)研
垃圾网页搜索引擎优化技术研究。垃圾网页搜索引擎优化技术研究。研究1、搜索引擎排名策略。在使用互联网搜索引擎的过程中,用户在使用搜索引擎查询信息时,85%的几率只会看搜索引擎查询结果的前10名,前10名结果中会出现什么样的数据信息,取决于关于搜索引擎使用的排名策略。搜索引擎使用的排名策略主要基于用户使用搜索引擎在互联网上查找信息的两个关键点,即网站内容和搜索关键词(关键字)的相关性和重要性搜索。 (重要性)。 1.1 Relevance 搜索引擎用来搜索关键词相关网站的技术,一般在信息检索中使用TFIDF(词频-逆文档频率)的概念,即网页内容和搜索关键词 w 的相关程度。 TFIDF 是一种常用的信息检索和信息挖掘加权技术。 TFIDF的主要思想是:如果一个词出现在TF值高的文章文章中,而该词或词组在其他文章中出现的频率较低,则认为该词或词组非常好区分类别的能力适用于对信息进行分类。 TFIDF其实就是:TF表示w在网页总字数中出现次数的比例,即词频(Term Frequency); IDF(w)表示w在所有网页的集合中,收录w的网页数量是文档频率的倒数(Inverse Document Frequency)。
网页的 TFIDF 值越高,在搜索结果中的排名就越高。 1.2 重要性(importance) 除了根据网页关键词出现的词数进行排名之外,搜索引擎还提出了网页链接(推荐)作为计算网页重要性的排名技术,其中其中应用最广泛的算法是HIT和PageRank。 HIT算法计算每个网页的hub(具有hub性质的网页)和authority(权威网页)值,这意味着具有重要hub值的网页必须指向许多重要的权威网页;重要的权威网页被多个枢纽控制。页面指向。而PageRank(pagerank,谷歌搜索引擎排名算法一)的排名计算理论来自:一个网页的重要性来自于其他重要网页的推荐,一个网页的重要性也会延伸到哪个网页上根据M.Bianchini、M.Gori等人的研究发现,PageRank算法的计算公式可能如下:其c代表阻尼因子c(0,1),通常设置为0.85,即表示py网页会点击px网页(1-c)/n代表随机跳转到其他网页的概率,所以px的PageRank是所有链接到px的网页的PageRank概率之和。
一般情况下,PageRank值越高的网页排名越高。 2、搜索引擎优化技术(本文由论文联盟SEO,Search Engine Optimization采集整理) 搜索引擎优化技术(SEO,Search Engine Optimization)实际上是针对各个搜索引擎的排名算法而设计的,其主要功能是篡改网页在搜索引擎中的排名。对于围绕互联网虚拟市场提供营销服务的电子商务企业而言,搜索引擎营销已成为网络营销应用的重要领域。企业通常使用搜索引擎来提高网站的访问率,并使用搜索引擎整合企业品牌信息和产品。将信息传输给在线消费者,从而提高品牌知名度和产品销售业绩。 2.1 搜索引擎营销的基本原理 电子商务企业在开展搜索引擎营销时,首先需要搭建企业产品信息或品牌信息等相关网页,形成信息源,然后将这些信息发布到互联网上通过各种手段。可以采用的方法包括:创建企业营销网站、利用行业信息平台或其他第三方信息发布平台、撰写博客文章、在知名网站发布网络广告、在论坛发帖。然后让搜索引擎使用搜索策略收录信息或付费搜索引擎收录信息将企业营销数据信息添加到搜索引擎的索引库中。当用户在搜索引擎中输入关键词进行查看时,企业营销信息将作为搜索结果反馈给在线消费者。
然而,一些垃圾网站为了增加网站的知名度,利用搜索引擎排名策略篡改网站在搜索引擎中的排名。根据Z.Gyongui和H.Garcia-Molina的研究,可以分为Boosting技术和Hiding技术两大类。 2.2 Boosting 技术(Boosting technology) 该技术主要用于提高网页的排名。它是为上述搜索引擎排名方法设计的。根据技术不同,可以分为:2.2.1 Spamming 关键词(Term spamming) 根据前面提到的TFIDF页面排名方法,关键词在一个网页中出现的次数(term frequency) ) 会影响其排名位置。因此,搜索垃圾邮件发送者(web spammer,垃圾邮件发送者)利用此功能将关键词放在网页的不同位置,例如:正文、标题、Meta标签、HTML头(网页标题标签)、URL、锚文本(链接锚文本)等都是可以进行搜索引擎优化的地方。另外,关键词的放置方法也不同。最基本的就是添加大量重复的关键词,增加网页的主题性;此外,复制其他主题较弱或相关信息较少的网页内容。并插入垃圾邮件词(spam words)并将其粘贴到您自己的垃圾邮件网页(web spam)上。这样,一方面可以在短时间内完成一个垃圾网页(web spam),另一方面可以稀释垃圾网页(web spam)。 ) 出现在网页中的比例,以避免搜索引擎检查;或者在不同领域放入大量不相关的关键词,或者从不同主题的网页中剪切粘贴内容片段,这样用户甚至可以查询相关主题也会看到垃圾网站。
2.2.2 Link spmming 顾名思义,Link spmming是针对上述基于链接的搜索算法HITS或PageRank Spamming技术而设计的一种搜索引擎排名篡改技术,其技术可以简单分为两类: (1)export links (Outgoing links)。垃圾邮件散播者会在垃圾邮件页面上添加大量链接到知名网站链接。增加垃圾邮件页面的枢纽值。由于许多目录网站有明确的分类分类中的各种主题和列表相关链接,复制目录网站的内容是为垃圾邮件发送者快速创建大量导出链接最常用的方法。(2)import 链接(Incoming links)。传入)链接,也叫外链,主要用于将其他网页链接到垃圾页面以增加权限值或PageRank值2.3 隐藏技术(Hiding technology) 隐藏技术(Hiding technology)主要是隐藏提升的技术高分数(Boosting),主要是因为欺骗搜索引擎的伎俩很容易被肉眼发现,垃圾网页的制作因此Spammer开发了一些隐藏的方法。
2.3.1 内容隐藏 内容隐藏的目的是隐藏关键词 或垃圾链接。最基本的方法是将网页中垃圾文字的颜色设置为与背景相同的颜色。比如2.3.2 伪装技术(Cloaking)就是一种黑帽SEO技术。垃圾邮件发送者会为网络爬虫和一般用户设计两个不同的网页。为网络爬虫设计的垃圾页面会尽可能多地放置大量垃圾文本和垃圾链接,以欺骗网络爬虫让搜索引擎提高其页面排名。遇到普通用户时,直接传送广告网页,达到广告效果。除了通过比较预先建立的搜索引擎IP列表来识别网络爬虫,还可以从用户的HTTP请求消息user-agent字段中看出发出请求的浏览器类型。例如:GET/db pages/member.html HTTP/1.0 主机:User-Agent:Mozilla/4.0(compatible;MSIE6.0;Windows NT 5.1) 2.3.3 重定向 除了上述隐身技术,还有一种更直接的方法是在用户连接到垃圾网页时,直接将用户重定向到广告页面。
垃圾邮件本身仍然是误导搜索引擎的罪魁祸首。有两种方法可以实现重定向。首先是使用meta标签的函数参数。语法如下: 上面的方法太简单了,所以相比之下,第二种方法更擅长使用脚本程序编程。被垃圾邮件发送者使用。由于一般的网络爬虫不执行脚本程序,所以使用脚本程序不仅可以达到重定向的目的,而且隐私性更高,更难被发现。 3、废网站Detect 方法概念 Spam网站 篡改排名方法分为垃圾邮件关键词(Term spamming)技术和垃圾链接(Link spmming)技术,因此,垃圾网页检测的对策也可以分为三种方法:基于内容的垃圾邮件检测技术、基于链接的垃圾邮件检测技术和综合垃圾邮件检测技术。使用垃圾邮件检测技术,减少垃圾邮件对网络用户的影响