搜索引擎主题模型优化(1.常见内容作弊手段比较常见的内容设置包括:Googlebot/2.1)
优采云 发布时间: 2022-01-29 04:13搜索引擎主题模型优化(1.常见内容作弊手段比较常见的内容设置包括:Googlebot/2.1)
客户端和服务器在获取网页时遵循 HTTP 协议。协议中有一个协议叫做“用户代理”。搜索引擎蜘蛛在这一项中往往有明显的特征(比如谷歌蜘蛛可能是:Googlebot/2.1),如果服务器判断是搜索引擎蜘蛛,就会推送看到由用户不同的页面内容。
上图是一个HTTP请求隐藏作弊的例子。作弊网站服务器推送给搜索引擎蜘蛛的页面是关于减肥食品的内容,推送给页面访问者的页面是减肥产品销售的推广页面。这样,用户在搜索减肥知识时,会直接访问减肥产品页面,从而达到骗子的商业目的。
(3)网页重定向
作弊者使搜索引擎索引页面内容,但如果用户访问该页面,则将页面重定向到新页面。
(4)页面内容被隐藏
通过一些特殊的 HTML 标签设置,将部分内容显示为对用户不可见,但对搜索引擎可见。例如,将网页字体的前景色和背景色设置为相同,或者在 CSS 中添加不可见的图层以隐藏页面内容。将隐藏内容设置为一些与网页主题无关的热门搜索词,以增加被用户访问的概率。
:: 搜索引擎会看到一些黑底白字,这不是作弊。但是用户看到的是一片白色,而不是里面的文字。也就是说,搜索引擎仍然无法识别图像的颜色。
内容作弊
内容作弊的目的是精心修改或规范网页内容,使网页在搜索引擎排名中获得不成比例的高排名。搜索引擎排名一般包括内容相似度和链接重要性计算,而内容作弊主要针对搜索引擎排名算法的内容相似度计算部分。通过故意增加目标词的出现频率,或者在网页的重要位置引入与网页内容无关的词来影响搜索结果的排名。
1. 常见的内容作弊方法
更常见的内容作弊形式包括:
(1)关键词重复
对于作弊者关心的目标关键词,在页面内容中设置了大量的重复。因为词频是搜索引擎相似度计算中必须考虑的一个因素,所以关键词重复本质上是通过增加目标关键词的词频来影响搜索引擎内容相似度排名。
(2)无关查询词作弊
作弊者为了尽可能多地吸引搜索流量,在页面内容中添加了很多与页面主题无关的关键词,本质上是词频作弊,即原本为0的词频被提高到非零词频,这将吸引更多的搜索引擎流量。
例如,一些作弊者在网页末尾以一种不可见的方式添加了一堆单词列表。也有作弊者将某些热门查询词插入正文内容。甚至有些页面内容完全是机器随机生成的,或者是利用其他网页的页面内容片段随机拼凑而成。
(3)图片替代标签文字作弊
alt标签原本是作为图片描述信息的,一般不会在HTML页面上显示,除非用户将鼠标悬停在图片上,但是搜索引擎会使用这些信息,所以一些作弊者会在alt内容中填充作弊词,以吸引更多搜索交通。
(4)网页标题作弊
网页标题作为描述网页内容的一般信息,是判断网页主题的一个非常重要的启发式因素。因此,搜索引擎在计算相似度得分时,往往会增加标题词的得分权重。作弊者利用这一点,通过将与页面主题无关的目标词重复放置在标题位置来获得良好的排名。
(5)网页重要标签作弊
与普通文本不同,网页有HTML标签,有些HTML标签代表着强调内容重要性的意思,如粗体标签、段落标题、字体大小标签等。
搜索引擎一般使用这些信息进行排序,因为这些标签因素可以更好地反映网页内容所呈现的主题信息。作弊者还可以通过在这些重要位置插入作弊关键词来影响搜索引擎排名结果。
(6)网页元信息作弊
网页元信息,如网页内容描述区(meta deion)和网页内容关键词区(meta关键字),是供制作网页的人简要描述网页的主题信息的. 与上述情况类似,作弊者也经常通过在其中插入作弊 关键词 来影响页面排名。
2. 内容农场
内容农场运营商廉价雇佣大量自由职业者并支持他们进行付费写作,但写作内容的质量普遍较低。很多文章都是通过稍微复制和修改来完成的,但是他们会研究搜索引擎的热门搜索词等情况,并将这些词有机地添加到写作中。这样普通搜索引擎用户在搜索的时候就会被内容农场网站吸引,通过大量低质量的内容来吸引流量,内容农场可以赚取*敏*感*词*。
与传统的内容作弊方式相比,内容农场不采用机器拼接内容等机械方式,而是聘请人来编写。但由于作者素质等原因,发表的内容质量低下,这种作弊手段往往是搜索引擎难以提供的。作弊是否定义明确,但严重影响搜索结果质量,是一种较难处理的作弊方式。
3. 桥页
桥页通常是一种软件,它会自动生成大量收录关键词的网页,然后自动从这些页面重定向到首页。目标是希望这些针对不同 关键词 的桥页面在搜索引擎中排名良好。当用户点击搜索结果时,会自动跳转到首页。有时会在没有自动重定向的情况下将指向主页的链接放置在桥接页面上。
内容是网页的基础,搜索引擎对内容的判断也在不断提高。现在大部分内容作弊搜索引擎都可以识别(如垃圾文章、关键词堆叠、内容关联性强等),但还是有一定的局限性。例如,搜索引擎目前无法评估是否 文章原创。话虽如此,“原创”只是一个模糊的概念。任何时候,搜索引擎都无法自动对原创的内容进行评分,只能通过长期的内容质量甚至人工应用。如果想在首页用SEO优化网站,千万不能在内容上作弊,否则很容易被K发现和屏蔽。
用户体验作弊
近年来,搜索引擎不断优化完善,一直在追求最佳的用户体验。以上所有的作弊方式都是严格意义上的内容作弊(链接、关键词等都是内容),最能提供良好的用户体验。不好的是用户的行为,所以用户在网页上的行为越来越受到关注。用户的退出行为主要有:用户点击率、跳出率、访问深度、停留时间等。
基于这种作弊方法,会模拟大量真实用户(IP,各地不同MAC地址的机器)在搜索引擎中输入目标关键词,然后自动从百度搜索结果,点击它(完成高点击量),停留时间长,切换多个页面,多次查看,退出看到同一页面的其他几个页面,甚至最后关闭. 搜索引擎的结果是:这个 关键词 和这个 URL 有很强的相关性,很多用户认为这是他们要找的页面。如果用户看到它,则表示他们非常喜欢这个页面。这意味着用户正在寻找的问题被这个页面解决了,这是一个很好的识别。
精灵工作室提醒大家:现在的搜索引擎排名策略侧重于网站内容和用户体验,这是优化网站排名的主要方式,做好这两方面,SEO优化就在主页不是问题。
百度作弊的判断条件
(1)网页源代码中的任何地方,故意添加与网页内容无关的关键词。
(2)故意在网页源代码的任何地方大量重复关键词。即使是与网页内容相关的关键词,故意重复也被视为作弊。
(3)给网页添加隐藏文字,搜索引擎可以识别,但用户不可见。无论是使用相同背景颜色的文字,超小字号,文字隐藏层,还是滥用图片ALT,等等,这是作弊。
(4)故意创建大量指向 URL 的链接的行为。
(5)对于同一个URL,让搜索引擎和用户访问内容不同的网页(包括使用重定向等行为)。
(6)作弊是针对 网站 而不是网页定义的。即使在该 网站 中只有一个网页在作弊,网站 也被视为作弊。
(7)带有作弊链接网站的网站承担连带责任,也将被视为作弊(但是,链接到网站作弊网站@ > ,不作弊)。
谷歌作弊的标准
(1)使用隐藏文本或隐藏链接。
(2)使用伪装或欺骗性重定向。
(3)向 Google 发送自动查询。
(4)加载带有无关术语的页面。
(5)创建具有大量重复内容的多个网页、子域或域。
(6)创建安装病毒(例如*敏*感*词*木马)或其他有害软件的网页。
(7)使用专门为搜索引擎制作的“桥页”,或使用“cookie 切割器”,例如很少或没有 原创 内容的附属程序。