百度搜索引擎优化原理(什么是百度中文分词算法?百度分词基本有三种分法)
优采云 发布时间: 2021-10-21 15:05百度搜索引擎优化原理(什么是百度中文分词算法?百度分词基本有三种分法)
百度中文分词算法:指搜索引擎为了更好地识别用户需求,快速为用户提供需求信息而使用的算法。
搜索引擎单位时间要处理PB级的页面数据,所以搜索引擎就有了中文词汇。例如,百度现在大约有9万个中文单词,搜索引擎可以分析数千亿个页面,并根据中文单词数据库对其进行分类。
百度分词基本有三种方法
1、基于理解:傻瓜式匹配,小于等于3个汉字,百度不做分词,比如搜索“大学堂”。
2、据统计:百度把一个词标红的原因:标红的词通常是一个关键词。当您搜索“学习”一词时,百度也将其视为“学习”。一个 关键词,所以“学习”这个词显示为红色。这就是百度分词:基于统计的分词。
3、 基于字符串匹配(百度的词法切分:前向最大词法切分)
最大和最小(最大匹配:匹配到没有要匹配的词;最小匹配:匹配一个词时停止匹配,然后从另一个词开始匹配) 例如:百度搜索“湖南大学堂屋顶”,一个分词百度的算法我们把它当作一个黑盒子,根据百度的输出结果,使用一些输入关键词来确定百度的分词算法。正反(前进:从前到后匹配;反向:从后到前匹配)(湖南大学堂屋顶) 前进法:湖南大学堂屋顶(刘强地法) 前进法:刘强地法。逆分法:地法之刘强。在这个词中,“地球”不是一个词。
另外,分词原理:百度拥有显赫人物(如*敏*感*词*)、明星(如刘德华)等专有词汇(这是分不开的)检索大量词(如:难买票)。
当然,这些只是百度中文分词原理的一部分,并不都是正确的。因为百度的算法是不可能泄露的,如果商业秘密让你知道,那岂不是因为百度多了N个。