网页搜索引擎优化(搜索引擎排名是垃圾网页用来自我推广的主要方式之一。)
优采云 发布时间: 2022-01-03 15:10网页搜索引擎优化(搜索引擎排名是垃圾网页用来自我推广的主要方式之一。)
垃圾网页搜索引擎优化技术研究总结:搜索引擎排名是垃圾网页用来宣传自己的主要方式之一。本文首先介绍了搜索引擎对搜索结果进行排序的基本策略,并具体提出了针对垃圾邮件网站的常用搜索引擎优化方法,为进一步研究检测垃圾邮件网站的相关技术和方法提供帮助. 关键词: Search Engine Ranking Strategy Search Engine Optimization 中文图书馆分类号:tp393 文档识别码:a 文章 编号:1007-9416(2011)11-0124-02 in Internet search engine在使用搜索引擎的过程中,用户在使用搜索引擎查询信息时,有85%的几率只会查看搜索引擎查询结果中的前10个结果,会出现什么样的数据信息在前10个结果中,取决于搜索引擎使用的排名策略,搜索引擎使用的排名策略主要基于用户使用搜索引擎在互联网上查找信息的两个关键点,即,期望搜索的内容网站和搜索的关键词(关键字)的相关性和重要性。1.1 Relevance 搜索引擎用于搜索关键词相关的网站@ > 技术,并且通常使用信息检索技术 tfidf 的概念(术语频率-输入verse document frequency)是网页内容与搜索关键词w.
之间的相关程度
tfidf 是一种常用的信息检索和信息挖掘加权技术。 tfidf的主要思想是:如果某个词出现在tf值较高的文章的文章中,而该词或词组在其他文章中出现的频率较低,则认为该词或词组具有良好的分类能力,适用于对信息进行分类。 tfidf其实就是:tf表示w在网页总字数中出现的次数的比例,即词频; idf(w)代表所有网页集合中的w,收录w的网页数量是文档频率的倒数(逆文档频率)。网页的 tfidf 值越高,其在搜索结果中的排名就越高。 1.2importance 除了根据网页出现的关键词字数进行排名,搜索引擎还提出网页链接(推荐)作为计算网页重要性的排名技术,最广泛其中使用的算法分别是hit和pagerank。命中算法计算每个网页的hub(具有hub性质的网页)和authority(authority pages)值,这意味着具有重要hub值的网页必须指向许多重要的权威网页;重要的权威网页被多个枢纽控制。页面指向。而pagerank(pagerank,谷歌搜索引擎排名算法一)的排名计算理论来源于:一个网页的重要性来自于其他重要网页的推荐,一个网页的重要性也会延伸到该网页它链接到。
根据m.bianchini、m.gori等人的研究发现,pagerank算法的计算公式可能如下: 其中c表示阻尼系数c(0,1),通常设置为 0.85 ,代表py页面会点击px页面的概率,(1-c)/n代表随机跳转到其他页面的概率,所以px的pagerank值就是总和链接到px py的所有页面的pagerank概率。一般来说,这种情况下,pagerank值越高的网页排名越高。2、搜索引擎优化(seo,searchengine optimization) 搜索引擎优化(seo ,搜索引擎优化)实际上是针对各个搜索引擎设计的排名算法,其主要功能是篡改网页在搜索引擎中的排名。对于围绕互联网虚拟市场开展营销服务的电子商务公司而言,搜索引擎营销已成为网络营销的重要领域keting应用,企业通常使用搜索引擎来提高网站的访问率,通过搜索引擎将企业的品牌信息和产品信息传递给在线消费者,从而提升品牌知名度和产品销售业绩。 2.1 搜索引擎营销电子商务的基本原理 企业开展搜索引擎营销,首先需要搭建企业产品信息或品牌信息等相关网页,形成信息源,然后将这些信息发布到通过各种方式上网。
可以使用的方法包括:创建企业营销网站、利用行业信息平台或其他第三方信息发布平台、写博客文章、在知名网站发布在线广告、在论坛发帖然后让搜索引擎使用搜索策略收录信息或支付搜索引擎收录信息,将企业营销数据信息添加到搜索引擎索引数据库中,并检查用户何时在搜索引擎 当时,企业营销信息作为搜索结果反馈给在线消费者。然而,一些垃圾网站为了提高网站的知名度,利用搜索引擎排名策略篡改了网站在搜索引擎中的排名。根据z.gyongui h.garcia-molina的研究,可以将其分为两大类,助推术和隐藏术。 2.2 Boosting 技术(boosting technology) 该技术主要用于提高网页的排名。它是为上述搜索引擎排名方法设计的。根据技术不同,可以分为:2.2.1 spamming 关键词(term spamming) 根据前面提到的tfidf网页排名方法,关键词@的出现次数> 在一个网页中(词频)会影响它的排名位置。因此,搜索垃圾邮件发送者(web spammer,垃圾邮件发送者)利用这个特性,将关键词放在网页的不同位置,例如:body, title, meta tag, html head (web page Header tags), url,锚文本(链接锚文本)等都是可以进行搜索引擎优化的地方。
另外,插入关键词的方法也不同。最基本的就是插入大量重复的关键词来增加页面的主题;此外,复制其他弱主题或相关信息较少的网页被插入垃圾邮件词中并张贴在自己的垃圾邮件页面上(网络垃圾邮件)。这样一来,一方面可以在短时间内完成一个垃圾网页(web spam),另一方面,可以稀释网页中出现的垃圾网页率,避免搜索引擎检查;或者在不同领域放入大量不相关的关键词,或者剪切粘贴不同主题网页的内容片段,这样你就可以使用不搜索相关主题的人会看到垃圾网站。 2.2.2 链接spmming 顾名思义,链接spmming 是一种搜索引擎排名篡改,专为上述基于链接的搜索算法命中或pagerank 设计。垃圾邮件技术,其技术可以简单分为两类:(1)outgoinglinks。垃圾邮件发送者会向知名的网站垃圾邮件发送者添加大量链接。链接以增加垃圾邮件页面的hub值。由于很多目录网站对各个主题都有明确的分类,并且分类中列出了相关链接,所以复制目录网站的内容是垃圾邮件网页制作者最常用的快速建立大量导出链接。
(2)Incominglinks。Incoming links,也叫外链,主要用于将其他网页链接到垃圾网页,以增加权限值或pagerank 2. 3 隐藏技术(hiding technology) 隐藏技术(隐藏技术)主要是隐藏boosting的技术,主要是因为欺骗搜索引擎的伎俩很容易被肉眼发现,垃圾邮件发送者因此开发了一些隐藏方法。2.3. 1 内容隐藏(content hidden) 隐藏内容(content hidden)的目的是隐藏关键词或者垃圾链接,最基本的方式就是通过将网页中垃圾文本的颜色设置为同色例如:hiddentext 2.3.2 伪装技术(cloaking)是一种黑帽seo技术,垃圾网页制作者会为网络爬虫和一般用户设计两种不同的网页垃圾邮件页面设计网络爬虫将放置尽可能多的垃圾邮件文本和垃圾邮件链接到 dec eive 网络爬虫并改进搜索引擎。它的页面排名。
遇到普通用户时,直接发送广告网页,达到广告推广的效果。除了通过比较预先建立的搜索引擎ip列表来识别网络爬虫,还可以从用户http请求消息中的user-agent字段中看出发起请求的浏览器类型。例如:get/dbpages/member.html http/1.0 user-agent:mozilla/关键词2@>0(compatible;msie关键词3@>0;windowsnt 关键词4@>1) 2.3.3 重定向(redirection) 除了上面的隐身技术,还有一个更直接的方法就是当用户连接到垃圾网页时,直接将用户重定向到广告页面。垃圾网页他还是要为误导搜索引擎负责,实现重定向的方法有两种,第一种是使用meta,上面的方法太简单了,所以相比之下,第二种方法更擅长使用脚本程序。专为被垃圾邮件发送者利用,由于一般的网络爬虫不执行脚本程序,使用脚本程序不仅可以达到重定向的目的,而且隐私性更高,更难被发现。垃圾邮件网站篡改排名方法分为垃圾邮件关键词(termspamming)技术和垃圾链接(link spmming)技术。用于垃圾邮件检测的es又可分为:基于内容的垃圾邮件检测技术、基于链接的垃圾邮件检测技术和集成(集成)垃圾邮件检测技术。
使用垃圾邮件检测技术,减少垃圾邮件对互联网用户的影响。 [1] 张玉芳,彭世明,吕嘉.基于文本分类的tfidf方法的改进与应用。上海:计算机工程。 2006(1关键词8@>:76-7关键词9@> [2]mkjon, 权威资源超链接环境,j.acm,46(1999),pp.604-632. t. winograd,thepagerank 引文排名:bringing order web,stanforddigital libraries technology project,199关键词9@> f.scarselli,insidepagerank, 大学 [5] 王朴, 陶建文. 电子商务网站搜索引擎优化 (seo ) 策略研究,计算机知识与技术,2009,26(5):7404-740关键词4@> [6] 张秀英.搜索引擎产业发展与搜索引擎优化策略研究.技术与产业,6月2011 (11): 16-19. h.garcia-molina,webspam taxonomy,firest 国际研讨会对抗性信息检索