郑州百度搜索引擎优化(郑州婚庆租车郑州租车理解分词技术对SEO工作具有极大意义)
优采云 发布时间: 2021-11-24 04:15郑州百度搜索引擎优化(郑州婚庆租车郑州租车理解分词技术对SEO工作具有极大意义)
搜索结果归纳分析+分词通用算法分析方法对百度预处理阶段查询处理和中文分词两种技术进行了讲解和总结。如果对数据结构和算法有一定的了解,会比较容易理解;个人觉得前向最大匹配算法不够准确。无论是特殊词典还是普通词典,单词的权重都不一样。搜索频率应该有一定的关系。基于此,有多个特殊词在词典中搜索时,需要使用双向最大匹配算法来检测应该先切出哪些专有词汇。当然,这是个人猜测,需要研究。
郑州婚车租赁
郑州租车
了解分词技术对SEO工作意义重大。可以从科学的角度分析关键词,构思关键词的部署策略;如果前向最大匹配算法的结论是正确的,基本可以得出分词后的分词权重按正向排序的结论
我想了解的是特殊词典还是普通词典。哪个权重更高?
以下为转载原文:
查询处理和分词技术
随着搜索经济的兴起,人们开始越来越关注全球各大搜索引擎的性能、技术和日常流量。作为企业,您会根据搜索引擎的流行度和日常流量来选择是否投放广告;作为普通网民,您会根据搜索引擎的性能和技术,选择自己喜欢的引擎来查找信息;作为技术人员,您会考虑将具有代表性的搜索引擎作为研究对象。搜索引擎经济的兴起,再次向人们证明了互联网中隐藏的巨大商机。当互联网离开搜索时,只会留下空荡荡的杂乱数据,以及大量等待辛勤开采的金矿。
然而,如何设计一个高效的搜索引擎?我们可以用百度采用的技术手段来讨论如何设计一个实用的搜索引擎。搜索引擎涉及到很多技术点,如查询处理、排序算法、页面爬取算法、CACHE机制、ANTI-SPAM等。这些技术细节不会作为百度、GOOGLE等商业公司的搜索引擎服务商向公众披露。我们可以把现有的搜索引擎看成一个黑箱,通过向黑箱提交输入,判断黑箱返回的输出,可以粗略判断黑箱中未知的技术细节。
无纺布袋
防静电地板
查询处理和分词是中文搜索引擎不可或缺的任务,而百度作为典型的中文搜索引擎,一直强调其“中文处理”具有其他搜索引擎所不具备的关键技术和优势。那么我们来看看百度采用了哪些所谓的核心技术。
我们分两部分讲:查询处理/中文分词。
一、查询处理
用户向搜索引擎提交查询,搜索引擎一般需要在收到用户查询后做一些处理,然后在索引库中提取相关信息。那么百度在收到用户查询后做了什么?
提高 网站 排名
1、 假设用户提交了多个查询字符串,例如“信息检索理论工具”。那么搜索引擎做的第一件事就是根据空格、标点等分隔符将查询字符串分成若干个子查询字符串。比如上面的查询会被解析为:三个子字符串;原因很简单,我们继续往下看。
2、 假设提交的查询有重复的内容,搜索引擎如何处理?例如查询“理论工具理论”,百度将重复字符串视为只出现过一次,即等同于“理论工具”,GOOGLE显然没有合并,而是增加了重复查询子串的权重用于处理。那么我们是如何得出这个结论的呢?我们可以把“理论工具”提交给百度,返回34.1万个文档,大致看一下第一页返回的内容。
好的。继续,我们提交查询“Theory Tool Theory”,查看返回结果,返回的文档还是这么多。当然,这并不能解释太多。然后看第一页返回结果的排序。你能看见它吗?订单已完成。没有变化,但是GOOGLE在排序上有一些变化,这说明百度将重复查询合并为一个进程,基本忽略了字符串出现的顺序(GOOGLE考虑了这种顺序关系)。
3、 假设提交的中文查询收录英文单词,搜索引擎如何处理?比如查询“电影BT下载”的时候,百度的方法是将中文字符串中的英文作为一个整体保留下来,并作为一个整体使用断点来切中文,这样上面的查询就切到了英文是否在中间是字典中可以查到的单词或者随机字符,会被当作一个整体处理。至于为什么,可以使用查询“电影dfdfdf下载”来查看结果。当然,如果查询收录数字,同样适用。
*敏*感*词*
到目前为止,一切都非常简单明了。百度如何处理用户查询?可以总结为:首先,根据分割符号将查询分开,然后查看是否有重复的字符串。如果是这样,丢弃多余的。保留一个,然后判断是否有英文或数字。如果是这样,把英文或数字作为一个整体,把前后的中文剪掉。
我接下来该怎么做?是时候考虑分词的问题了。
二、中文分词
首先说说百度分词的时机或条件。是中文字符串吗?百度会砍吗?不行,要想被百度的分词程序加分,还得谈条件。怎么可能是字符串?刚剪?你认为百度卖锯片吗?
那么什么样的字符串满足被剪断的条件呢?简单的说,如果字符串只收录3个汉字或更少,那么保持原样。当字符串长度大于4个汉字时,百度迅速推出分词程序,将字符串肢解。
如何证明?我们向百度提交“电影下载”,在返回的结果中查看红色标记的地方。不难看出查询已经被剪成了两个词,说明分词程序已经启动。如果是 4 个以上的汉字,对于字符较长的字符串,分词程序就更粗鲁了。我们看一下三字情况,提交查询“当然”。这个查询似乎不相关。那是因为我想看到这个字符串被分成 365 个相关的页面。翻到最后一页。,我发现红色标注的关键词都是连续出现的“当然选择”。好像没有分段,但还是不确定。然后提交手动划分的查询“当然选择” 看,结果是 1,090,000。在这篇文章中,我们基本可以确认没有分词。当然,另一种解释是:先对三个字符进行分词,然后将分词结果作为词组查询,这样看到的效果和不分词的效果差不多。
但是我倾向于判断百度不会对少于3个字符的字符串进行分割。奥卡姆不是说过“如果没有必要,就不要添加实体”,那你为什么没用的工作?那么如果没有分段,就会出现一个问题,如何从索引库中提取未分段的字符串呢?这就涉及到索引的问题,我觉得百度应该采用两套索引机制,一是基于词索引,二是基于N-GRAM索引。至于索引的具体问题,我会在后面详细讨论。