搜索引擎优化规则(*敏*感*词*考试词典中的常见停止词反应及方法(图))

优采云 发布时间: 2022-03-07 01:22

  搜索引擎优化规则(*敏*感*词*考试词典中的常见停止词反应及方法(图))

  Title="今日愚人节永久链接">今日愚人节

  去掉HTML代码后,排名只剩下这句话:今天是愚人节。

  

  2、中文分词

  分词是中文搜索引擎特有的一个步骤。搜索引擎基于单词存储和处理页面和用户搜索。英语等语言用空格隔开,搜索引擎索引程序可以直接把句子分成词组。但是,中文单词和单词之间没有分隔符,一个句子中的所有单词和单词都是连接在一起的。搜索引擎必须首先区分哪些词组成一个词,哪些词本身就是一个词。例如,“*敏*感*词*考试”将分为“*敏*感*词*”和“考试”两个词。

  中文分词基本上有两种方法,一种是基于字典匹配的,一种是基于统计的。

  字典匹配:将一段待分析的汉字与预先选择的字典中的一个词条进行匹配,扫描待分析的汉字字符串,发现字典中已有的词条匹配成功,或者切出一个词.

  基于统计匹配:计算机在分析大量文本样本后,计算相邻单词的统计概率。出现的相邻单词越多,形成单词的可能性就越大。基本统计方法的优点是对生词反应较快,有利于消歧。

  3、去停用词

  无论是英文还是中文,都会出现一些在页面内容中出现频率高但对内容没有影响的词,比如“的”、“地”、“de”、“ah”、“ha”等辅助词" ,感叹词如“ya”,副词或介词如“therefore”、“with”、“but”。这些词被称为停用词,因为它们对页面的主要含义几乎没有影响。英语中常见的停用词有 the , a , an , to , of 等。

  搜索引擎会在索引页面之前去除这些停用词,使索引数据的主题更加突出,减少不必要的计算量。

  4、去除噪音

  大多数页面上也存在一些对页面主题没有贡献的内容,如版权声明文字、导航栏、广告等。以常见的博客导航为例,几乎每个博客页面都会有导航内容如文章类别、历史档案等。这些页面本身与“类别”和“历史”这两个词无关。用户搜索“历史”、“类别”关键词 并仅仅因为这些词出现在页面上而返回博客帖子是毫无意义的,完全不相关。所以,这些区市都是嘈杂的,只能对页面的主题起到分散注意力的作用。

  搜索引擎需要在不使用嘈杂内容的情况下识别和消除这种噪音并进行排名。去噪的基本方法是根据HTML标签将页面分成块,区分页眉、导航、文本、页脚、广告等区域。网站 上重复出现的块通常是噪音。页面去噪后,剩下的就是页面的主要内容。

  5、移除

  去重的基本方法是计算页面特征相关词的指纹,也就是说从页面的主要内容中选择大部分关键词(通常是最频繁的相关词),然后计算这些关键词的数字指纹。这些 关键词 选择是在分词、去除停用词和降噪之后进行的。通常选择10个特征关键词可以达到比较高的计算准备度,选择更多的词对去重精度的提升贡献不大。

  简单地加上“的”、“地”、“de”,改变文本段落的位置等,伪原创逃不过搜索引擎的去重算法。

  6、正向索引

  

  7、反向索引

  8、链接关系计算

  页面上哪些链接指向其他哪些页面,每个页面有哪些入站链接,链接使用什么锚文本,这些复杂的链接指向关系构成了网站和页面的链接权重。

  9、特殊文件处理

  除了 HTML 文件,搜索引擎通常可以抓取和索引多种基于文本的文件类型,例如 PDF、Word、WPS、XLS、PPT、TXT 文件等。我们还经常在搜索结果中看到这些文件类型。但是,目前的搜索引擎无法处理图片、视频、Flash等非文本内容,也无法执行脚本和程序。

  虽然搜索引擎在识别图片和从 Flash 中提取文本内容方面取得了一些进展,但距离直接读取图片、视频和 Flash 内容返回结果的目标还很遥远。图片和视频内容的排名往往基于与之相关的文字内容。

  以上就是SEO网站优化搜索引擎预处理规则。如果您对SEO网站优化感兴趣,请继续关注。每天更新...

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线