《seo关键解码:网站营销与搜索引擎优化》下载(中文分词在搜索引擎优化中到底具有怎样的意义?(图))
优采云 发布时间: 2021-12-04 23:05《seo关键解码:网站营销与搜索引擎优化》下载(中文分词在搜索引擎优化中到底具有怎样的意义?(图))
在搜索引擎技术中,中文分词对于影响搜索引擎结果的排名起着至关重要的作用。在实际的搜索引擎优化中,为了避免来自众多主流关键词的大量竞争,我们也会使用中文分词技术进行SEO优化。
举个简单的例子,如果我们需要优化一个内容“承载”的网页,这个关键词很难在搜索引擎中获得更好的排名。因为“轴承”关键词太火了,很难通过SEO手段优化到搜索结果首页。这个时候我们经常用长尾关键词来优化这么高人气的关键词,也就是说我们经常优化一些比如“北京轴承卖家”、“北京*敏*感*词*轴承”等。 关键词。而要让这样的关键词成为搜索结果的前列,掌握中文分词技术和关键词的布局非常重要。
汉字博大精深,不同的标点符号和断句代表不同的含义。因此,一位谷歌科学家曾说过:“如果我们能做一个好的中文搜索引擎,那么我们就不怕任何语言的搜索引擎研究。”
那么中文分词在搜索引擎优化中是什么意思呢?分词对SEO的影响是多方面的,最重要的是对长尾流量的影响。比如我们经常看到很多我们很想做的长尾关键词,比如广州*敏*感*词*轴承销售,上海*敏*感*词*轴承销售等等,但是从上面对SEO的理解我们可以知道,一个页面做关键词不要超过三个,因为超过三个会分散每个关键词的权重,但是一个做不好。但是如果我们想超过三个而不影响它呢?然后我们需要用中文分词组合关键词,例如:*敏*感*词*轴承销售-上海-广州。这种分离的结果可能没有广州*敏*感*词*轴承销售或上海*敏*感*词*轴承销售关键词那么直接,但是使用这种分词方法对很多词都取得了不错的效果。搜索引擎结果页面顶部的多词排名总是比 关键词 排名第一的覆盖范围更广。久而久之,因为广州+*敏*感*词*轴承销售和上海+*敏*感*词*轴承销售的页面让搜索引擎知道您的页面与“*敏*感*词*轴承销售”关键词高度相关,所以主要*敏*感*词*轴承销售关键词@ > 排名也会相对提升。搜索引擎结果页面顶部的多词排名总是比 关键词 排名第一的覆盖范围更广。久而久之,因为广州+*敏*感*词*轴承销售和上海+*敏*感*词*轴承销售的页面让搜索引擎知道您的页面与“*敏*感*词*轴承销售”关键词高度相关,所以主要*敏*感*词*轴承销售关键词@ > 排名也会相对提升。搜索引擎结果页面顶部的多词排名总是比 关键词 排名第一的覆盖范围更广。久而久之,因为广州+*敏*感*词*轴承销售和上海+*敏*感*词*轴承销售的页面让搜索引擎知道您的页面与“*敏*感*词*轴承销售”关键词高度相关,所以主要*敏*感*词*轴承销售关键词@ > 排名也会相对提升。
当然,我们上面引用的例子还没有完全拆分关键词。下面我们就中文分词做一个粗略的讨论。
最早的中文分词方法是北京航空航天大学梁南元教授提出的一种基于“查字典”的分词方法。比如这句话:“著名导演张艺谋说国庆晚会安排10万人参加***晚会。”
用“查字典”的分词方法,我们要做的就是把整个句子读一遍,然后把字典里的所有词分别标记出来,当我们遇到复合词(比如北大)时,我们找到最长的单词匹配。当遇到无法识别的字符串时,将其拆分为单个字符。按照这个方法,我们上面的文字可以分为:
《名人|导演|张艺谋|谈话|国庆|晚会|会|安排|十万人|到|***|
这种分词方法虽然可以处理很多句子,但是因为细分太多,在真正的搜索引擎使用过程中,无法表达出哪个词是重点,所以无法达到搜索引擎的搜索结果. 最大相关性。所以在1980年代,哈尔滨工业大学计算机博士生导师王小龙博士提出了“最小字数”分词理论,即一个句子应该是分词最少的字符串,以便搜索引擎会更明白这句话。这个词是什么意思。但是这种方式虽然更好,但也出现了新的问题。例如,当我们在做“歧义”关键词 分组时,我们不能说最长的分裂就是最好的结果。例如,关键词
目前主流的分词方法有两种,一种是基于统计模型的分词处理,一种是基于字符串匹配的反向最大匹配。
基于统计模型的文字处理
从形式上看,一个词是一个稳定的词组合,所以在上下文中,同时出现的相邻词越多,形成一个词的可能性就越大。因此,字与字共现的频率或概率可以更好地反映构词的可信度。可以统计语料中相邻共现字符的组合频率,计算出它们的相互出现信息。定义两个汉字的互出现信息,计算两个汉字X和Y的相邻共现概率。互信息反映汉字组合的紧密程度。当接近度高于某个阈值时,可以认为该词组可以构成一个词。这种方法只需要统计语料中词组出现的频率,不需要对词典进行分词,所以也称为无词典分词法或统计分词法。但是这种方法也有一定的局限性。它往往会提取一些共现频率高但不是词的常用词组,如“this”、“one”、“you”、“my”、“Many”等,并进行识别常用词准确率差,时空开销高。实际的统计分词系统必须使用基本的分词词典(常用词词典)进行字符串匹配和分词,同时使用统计方法识别一些新词,即 字符串频率统计和字符串匹配相结合,可以起到匹配切分的作用。分词速度快、效率高的特点还利用了免词典分词结合上下文的优势来识别生词并自动消除歧义。
基于统计模型的分词处理技术性更强,仅用于搜索引擎分词算法。学会了,对SEO更有帮助。可以加入我的SEO培训班进行深入讨论。这里详细介绍了基于字符串匹配的反向最大匹配方法。
一般来说,SEO中使用最多的分词方法是基于字符串匹配的反向最大匹配方法。这个方法其实很简单。让我们用一个简单的例子来说明。
“瑞星一直以品质和服务开拓安防市场。”
如果用“查字典”的方法把这句话分成下面的句子。
“锐/星级/始终/与/质量/和服务/服务/发展/安全/市场”
我们可以看到前切分词“Kimono”有重大错误,而“Kimono”关键词是日本传统服饰,与这句话的意思无关。如果是真的如果去分词,那么在真正的搜索引擎索引过程中,我们搜索“和服”也会出现这样的错误结果。