采集的文章和关键词不符(蒋鑫鹏:百度搜索算法总结—关键词分词文百度算法总结)
优采云 发布时间: 2022-02-03 19:22采集的文章和关键词不符(蒋鑫鹏:百度搜索算法总结—关键词分词文百度算法总结)
时间:2012年6月26日19:01:51
原推荐次数:9773
文章蒋新鹏:百度搜索算法总结——关键词分词算法正文开始。如果您对本文有任何疑问,请给我留言。
蒋新鹏:百度搜索算法总结——关键词分词算法
本文连接以上百度算法总结,详情请点击:蒋新鹏:百度算法总结
一、关于中文分词:
1.中文分词难度分析
首先要说明的是,普通用户的搜索与SEO或者比较熟悉网络搜索的用户的搜索习惯有很大不同,而恰巧普通搜索用户是百度搜索的基础力量。开头再重复一遍,是蒋新鹏为了表达他在百度搜索算法中对中文分词的重视。因为,对于百度谷歌等二代搜索引擎来说,所使用的检索技术主要依靠关键词进行匹配,而用户对关键词的理解和机器程序对关键词的理解都有很大的提升空间。距离。
在中文分词方面,百度优于谷歌,这是百度胜谷歌的关键因素之一。中文分词比英文复杂很多(和中文分词一样麻烦的重要语言有日文、韩文、俄文,这也是谷歌在这些领域打不赢的原因一) ,蒋新鹏因为篇幅原因这里就不赘述了,有兴趣的朋友可以研究一下拉丁文(以英文为例)句子和中文句子的区别,中文句子不仅有很多同义词,还有词序变化无常,副词过多(主语、谓语和宾语以外的定式补语、感叹词等)。
例如,“百度排名如何?” “百度排名如何?” Ranking”和“Baidu的搜索排名如何?”这些短语和句子都收录至少一个意思“百度搜索结果排名的规则(原则)是什么?”此外,每个句子还有其他含义,例如这些句子也收录“百度排名怎么做(实现这个目标的方法)”“百度怎么做搜索排名(原理实现的过程)”
就拿上面的例子来说:当用户输入上面的短句时(大多数情况下,普通用户认为百度是无所不能的,所以会搜索SEO这种不守规矩的搜索行为),百度必须快速响应。用户需要的结果,此时百度面临的核心问题是:
A、首先要知道用户在搜索什么(语义分析,见“二”);
B.其次,由于百度的检索方式还是以关键词匹配技术为主,所以需要对用户的搜索进行分词(下一段会分析百度是如何进行分词的);
C、然后百度会通过分词结果到数据库中检索匹配的快照;
D.最后一步只是检索,第四部分还是排名。这时候挑战百度已经不是什么难事了(虽然在SEO眼里,这一步确实很难)
E. 第五步,将获取的结果返回到搜索页面供用户使用,并完成自己的广告投放(百度竞价广告),适当推广自己的产品(百度知道,百度文库)的写作有点乱,SEO顾问蒋新鹏特此道歉,没有找到更好的表达方式。希望朋友们组织起来,发扬光大。
2.百度中文分词方法:
百度的中文分词不仅有大量的用户搜索(这点和谷歌不同,毕竟百度植根于中国文化,对中文有更好的理解),还有庞大的中文词典数据库做支撑,而且添加了动态搜索。热词、搜索行为、造词等技术,【从最近百度算法的调整来看,百度比以前更尊重用户的搜索行为,即用户输入是第一,百度修正是次要的,这很重要]如下: 例如,当用户搜索“百度排名如何?”时,分词:
A、自然切分:包括标点符号和空格引起的切分,这是首要因素。比如“百度排名如何”等搜索行为,百度会先将其分类为“百度”和“如何排名”,这是肯定的,要了解用户搜索的行为意图,首先要了解尊重用户的搜索行为;(这个是SEO顾问蒋新鹏根据实战观察总结出来的,很多SEO朋友可能没有注意到,这里提醒一下)
B. 中文词库分词:不难理解,“百度排名如何”会分为“百度”、“如何”和“排名”这三个词,因为这些都是中文词典中存在的词,而百度拥有庞大的中文字典库支持,这并不难;
C.分词和组合分词:B中的分词显然是不够的。为了更好地理解用户的意图,有必要确保语义连贯性。那么这三个词可以组合成“百度排名如何”;“百度排名如何”+“排名”;“百度排名”+“如何”;“How to Rank”+“Baidu”这几个词的逆向组合。重要性是按照顺序优先的原则,其次是逆序和双向序列的分词组合。有一个基本的分析和分割。原则是最小分割。
以上三点就是通常意义上的分词。另外,还有比较麻烦的分词需要百度来处理。见后面几点。
D. 分词:如果用户搜索“百度排名如何”,百度是无能为力的,因为你无法判断用户在搜索“百度排名如何”,你必须尊重用户的搜索行为,所以你要进一步转换中文分词:“百”、“度”、“如”、“何”、“排名”,然后组合分词形成不同的词组在数据库中进行匹配。
E. 不同的读音/错别字:如果有人搜索“how to rank whiteness”,居然把“Baidu”打错了“whiteness”,那么百度就不得不改正这个错误,但是根据最近的调整,百度不像之前的纠错是通过词库的同义词匹配来进行的【更多的是准备好搜索后用户浏览行为的累积数据进行纠错】(比如很多搜索“白度”的用户最终在“白度”百度上花费了更多时间” 关键词页面,那么百度未来的“白度”搜索将集中在“百度”上!
当然,这个词以蒋新鹏为例。其实百度搜索“白度”并不是这样的。例如,可以参考百度的“美标车”。百度会提示或测试“你要找的是什么:美标”此外,百度使用搜索下拉框推荐相关词,搜索页面底部“相关搜索”,百度知道(大用户数,是百度搜索的重要补充)进行纠错。纠错数据错误指南的统计和纠正。
F、生词:生词一般有两种来源: a.受近期热词影响,本百度数据库将根据用户搜索行为积累的数据和网络热词监测数据,对词库进行调整补充;湾。语言生词/用户造词,这主要是根据搜索行为的积累数据来调整的,同时也对部分语言生词作者的工作进行了补充。
蒋新鹏再次补充说,百度其实很累。统计用户的每一次搜索行为(当然是机器程序记录的):一般主要记录搜索到的关键词,访问过的页面和访问方式(通常是链接),每个页面的停留时间(是以前不方便看,现在百度浏览cookies,百度账号,IP记录,百度统计【如果网站安装了百度统计程序,其实百度很聪明。尽量输入网站各种方式,比如最近流行的百度分享按钮,这个工具其实是最大的spy]和其他很多统计辅助工具),一般计算是根据百度提供的快照页面搜索后的浏览行为(先打开哪个,再打开哪个,
二、关于语义分析:
其实这一段我要说的,在上一段中已经提到过。列出它的目的是为了区分“语义分析”和“分词”的检索行为。语义分析和分词是相辅相成的。语义分析更多是基于分词和用户浏览行为数据的研究结论,如前所述,百度通过各种方式统计用户的行为,并根据这些行为的统计数据和关键词@ > 使用和输入法。支持和分词的匹配。
毕竟,无论怎么计算,百度每天这么多的网页和数十亿的检索行为仍然很难计算(百度正在通过不断改进方法和改进机器算法来努力实现这个庞大的工程)。对热门搜索进行抽样统计,对其他搜索进行随机统计,实现搜索语义分析(这是SEO顾问姜新鹏根据实战观察做出的假设推论)。
百度最难以捉摸的不是排名算法,而是语义分析算法,因为就像SEO无法理解百度的算法一样,百度也无法理解搜索用户的搜索意图(所以百度一直在研究和调整,一直在改进,就像 SEO 一直在研究、调整和改进一样)。不可预测是原因之一。更重要的是,这些计算不仅仅是对词、分词和匹配度的研究,而是通过统计学、线性数学、逻辑学、行为学、心理学等诸多学科进行计算的精髓。算法结构是通过组合方法设计的,并不断修复和改进。说到这个算法,百度有“海量基础算法”的描述,更不用说每个算法的学科本身的难度,这就是辛勤的SEO,他长期以来一直无法理解百度算法的根本原因。当然,作为一个勤奋的SEO,蒋新鹏也无法理解。如果他能理解的话,他们中的大多数都是数学或计算机天才或顶尖人才。研究或发明后,你还在追着百度吹毛求疵吗?
更何况百度本身在搜索结果中的“人为干扰”、“垄断”也招来了各种斥责,更何况SEO为了一己私利不断刷排名向用户推荐低质量信息,那更是难以理解和理解搜索。算法的天才看不起,所以看这里,如果你觉得自己很好,就不要做SEO。如果你理解作者蒋新鹏写这篇文章的意图文章作为一个SEO,那么你站在SEM或者互联网上从运营和网络营销的高度看SEO,而不是为了SEO半夜趴在电脑前靠外链谋生。
扯远了,说回正题,达不到百度那样设计算法的能力。如果你能从语义分析中找到对SEO有帮助的东西,那么蒋新鹏建议你可以研究一下你正在做的优化。用户搜索词的习惯。比如,蒋新鹏最近在为上海智宝美标车SEO排名提供网络运营服务时,发现“美标车”这个词越来越受到关注,很多优化这个词的人或站长都抵制“美标车”这个词,当用户搜索这个词时,可能会衍生出“美标车”、“美标车SUV”、“美标车SUV”、“美标车” -标准SUV”、“美标汽车销售”、“美标汽车经销商”、“美标汽车经销商”、“美标汽车经销商”、“美标汽车销售”、“美标汽车*敏*感*词*代理”等众多衍生产品,甚至还有“美标汽车经销商”。哪里买”和“上海哪里卖美标车”是比较有意义的长尾关键词,如果了解用户的搜索意图,再做针对性的SEO,效果会更好。
三、关于关键词比赛:
1.关键词分词匹配的key序列:
这是蒋新鹏根据SEO的实际操作结合网友的分享做的一个总结。准确率不高,但可以作为参考。一般意义上的分词算法是“关键词比例”:计算关键词在页面信息中所占的比例,参数通常包括:title(页面标题),meta description(页面描述) /summary)、元关键字(网页关键词)、网页H1~H6标签、锚文本(按焦点和页面位置排序)、内容文本(字体、大小、颜色、周围背景或文字等突出度) .,一般位置顺序是从左上到右下),图片等页面文件的Html标记语言属性。
2.关键词匹配度计算:
分词后,短语中的关键词应该被“搜索”。如果一个词与短语中的其他词几乎没有相关性,则匹配将被删除,但在计算匹配度时仍将其他词计为词数。. 按“百度排名如何”分析:一般意义上,这个搜索词组分为“百度排名如何”;“百度排名如何”+“排名”;“百度排名如何”+“如何”:然后“百度排名如何”匹配度为100%,依次为“百度排名如何”、“百度排名如何”、“百度排名如何”、“百度排名如何”百度排名”、“百度排名如何”;“百度排名”匹配度为1/3+1/3=2/3;"的匹配度
3.标题关键词匹配:
标题本身的分词匹配中标题本身的关键词的计算方法与2中提到的相同。蒋新鹏在这里想说明两点: A.根据观察和推断,百度收录快照后,正确快照的存档应该已经做了可能的分词和匹配度的数据标注(如果不是这样,那么百度搜索的效率不会那么高)。结果是从文件快照中的分词注释的最大匹配。
另外,Title的识别长度一般认为不超过80个字符(包括标点和空格,相当于汉字的40个左右),但是从百度搜索结果的快照标题来看,百度对于不同的网站。限制一般为60个字符,有的站可以达到70个字符。超出部分用“ ”代替,但不代表百度不计算在内。在“SEO排名”方面,蒋新鹏加了标题是时候把“智宝美规SUV”放在最后了,但是当你百度“智宝美规SUV”时,真实快照标题可以显示“智宝美规”规格 SUV" 通常,
一般如果没有特殊需要,建议不要超过识别的80个字符,否则不仅会稀释关键词的匹配度,还会影响搜索引擎对快照的评分。
【标题制作技巧】,我写了这个,顺便分享一下蒋新鹏的一些tips。因为公司网站的页面很少,通常是首页容易排名,所以首页的标题一定要精心安排。小于 关键词 应该放在描述的顶部。另外,建议将站点名称的缩写放在后面,这样可以保证关键词键放在前面,获得更好的匹配。]",虽然浪费了4个字符,但在搜索结果中会更加突出,可以吸引用户的注意力,提高网站的可见度和进入率。
顺便说一下,蒋新鹏在操作中发现,如果header标签更新频繁过度,会降级(一般header修改后会进入snapshot观察期,搜索结果会延迟修改后的标题显示1-3周,取决于页面内容中关键词的更新程度和外链锚文本中收录的关键词的更新程度和延迟时间),head标签每月修改两次以上,百度会直接随机抓取页面中的文字作为描述摘要。对于 Title 更新频繁的页面,Google 会直接抓取某个主要体现在页面布局中的词组作为标题。
4.描述关键词匹配:
与title的计算方法类似,只是描述不会像title一样被百度分割,而只是title中的关键词和keyword中的关键词,以及关键词,这样会带来更多的流量这一页。对于@关键词的匹配计算,描述中关键词的匹配度按照顺序优先的原则计算,关键词在总字数中的占有率和连贯性。描述。
description是页面的概要描述,SEO童鞋一定要遵守规则,不要堆放无关信息或关键词未收录在页面文字中,以免掉分。
识别的描述最大允许字符大小为 200,百度快照一般显示 140 个字符左右。蒋新鹏建议不要超过160个字符,因为这不仅稀释了关键词匹配度,而且百度最近的算法调整,描述超过快照显示的部分将不再做关键词匹配。智宝美标车的SEO排名也说明了这一点。蒋新鹏将美标GMC放在描述摘要中。最近算法调整后不显示(当然也可能是个案,仅供参考)。
5.关键词关键词匹配:
对于百度来说,关键词本身似乎不是匹配的,但有一点百度非常在意:不要在关键词中添加不在页面上的关键词。如果是这样,它可能被认为是作弊。对于谷歌来说尤其如此,它对欺骗关键字的要求比百度要严格得多。
关键字通常被识别为不超过 100 个字符。蒋新鹏的理解是,对于谷歌来说:关键词不能太多,要和页面相匹配,一般页面能容忍的关键词只有十几个;对于百度,建议关键词的设计基于百度权重(可通过站长工具或爱站网测)关键词,可以给关键词加上权重的词。
对于企业网站,由于Title和description的限制,字数有限,无法容纳公司全称。这时候可以考虑在关键词中体现公司的全称和简称,因为页面上的版权信息一般都会包括公司名称和简称。.
6.与页面内容中的 关键词 匹配:
页面内容不做分词计算,但标签中的分词和快照中存档的分词会在计算页面比例时匹配页面中收录的关键词,并统计次数和字符在整个页面中的比例。部分。
页面的关键词重要性主要是H标签和其他重要标签。当然,在百度快照中,主要是基于页族显示的文字。一般情况下,关键词、页面显眼位置的关键词和显眼的显示方式(字体、颜色)的关键词会更重要。这一点要根据具体的页面来分析。SEO朋友可以搜索关键词的结果,直接查看百度快照中显示的关键词匹配度。*敏*感*词*最高,其次是红色、蓝色和绿色。
快照是存储在百度数据库中的静态网页,不是真实的网页,所以有快照更新。从快照页面的源码可以看出,百度快照只记录了页面的基本代码和文本文件,存储了照片等文件。调用记录的文件地址。
百度快照的存在是大家关心百度快站更新的根本原因,因为如果快照不更新,获得排名的机会就会减少。此时,您的 网站 快照在百度快照数据库中。就像一个弃婴写的一样,作者蒋新鹏再次提醒自己的观察:以往大家都认为静态页面在搜索中更受欢迎。随着2.0的不断发展,以及互联网社交化的趋势,似乎这一点正在被改写,并且朝着相反的方向发展。搜索程序开始不喜欢静态页面和伪静态页面。蒋新鹏明白这一点。如果页面是静态的,那么搜索引擎更有可能认为您的页面内容会更新缓慢。自然会影响收录的使用频率,蜘蛛访问的频率也随之降低
四、关键词匹配操作实例分析
以上大致介绍了SEO蒋新鹏对百度搜索中文分词和语义分析、关键词匹配的理解。以下示例重点介绍如何将网页与 关键词 匹配。通常,SEO通常接到的任务是客户/领导会来一个站,指定几个关键词,然后放手。除了在head标签中加入关键词,还有大量的采集一些关键词相关的文章,其余的好像都在做很多“外链制作”使用各种工具,一时间,“SEO排名”等乱七八糟的信息铺天盖地。发信息到各大论坛、博客、商店,分类信息(当然,蒋新鹏也很粗俗,做外链也大致如此,
其实更好的SEO方法是在进行排名优化操作之前,根据用户的需求进行调查、分析、统计,然后跟进客户的其他需求制定一个网站计划,并把意图SEO建设中的网站(中智传媒出品的SEO排名)很好的融入了流程,让SEO不累,轻松达到理想效果。上篇蒋新鹏提到的服务客户上海智宝的例子 例如,在建站之初,中智传媒通过百度搜索索引、谷歌关键词列表进行了更详细的研究,百度相关搜索推荐,以及站长工具()。统计分析,最后根据客户' 奔驰、宝马、奥迪、卡宴、路虎、福特、丰田、林肯、GMC等主要品牌汽车。鉴于上述关键词([特别说明,关键词的规划还考虑了百度竞标的竞争程度,收录的页数,快照更新程度第一页结果页,百度全文总结。确定难度,确定预算和工作量])。
在网站的设计项目中,中智传媒将产品展示栏设计为“美标汽车频道”,并将上述关键词依次分类并以下拉菜单的形式实现(蒋新鹏提醒:导航栏锚文本中出现的关键词很重要,现在为了优化,用户对关键词的数量要求越来越高。结合这种情况,蒋新鹏建议把导航做成一个页面,左边的列表通道【实战中发现很有效,以三和菜钢为例】,然后考虑下拉列表菜单和页面底部最近流行的行列式导航)。关键词
在标题设计上,当然首选“美标车”,然后根据关键词顺序优先的原则,将首页标题设计为“美标车_美标奔驰” , 美标宝马, 美标路虎, 美标卡宴, 美系奥迪[智宝美系SUV]”,因为其他关键词挤不进标题,检索量和价值都没有非常高,所以放在了描述中,并且在描述的开头添加了“,顶级美标汽车*敏*感*词*商,豪华车SUV美标版经销垄断”,显示公司名称,同时突出显示公司特色及体现核心关键词“美标车”,下一个“美标宝马X5X6,美标奔驰ML/GL系列、美标保时捷卡宴、美标奥迪Q7、美标路虎揽胜极光、美标林肯外交官、美标福特、美标丰田、美标GMC。重点产品型号关键词,比如“美国宝马X5”、“美国奥迪Q7”等。毕竟页面头文件的字数限制导致很多限制关键词@ > 没有体现出来。对于美标车的网站SEO排名,中智传媒做了内链优化和每个页面的代码优化,站点内所有页面的head标签和其他标签对页面的链接进行了改进,确保每个页面的名称不重复。以美标汽车频道的“SEO Ranking Brand.asp”页面为例,标题采用“美标车、美标奔驰配置、豪华车SUV美标版价格_智宝美标车频道”,核心关键词,页面焦点关键词,站点名和页面名全部标题表现不错,栏目页面对应的产品子页面都是在后台发布新品生成的,每个页面的标题和描述摘要都是动态调用的,带有已发布名称的几个摘要产品。并且栏目页面对应的产品子页面都是在后台发布新产品生成的,每个页面的标题和描述摘要都是动态调用的,并带有已发布产品名称的若干摘要。并且栏目页面对应的产品子页面都是在后台发布新产品生成的,每个页面的标题和描述摘要都是动态调用的,并带有已发布产品名称的若干摘要。
在网站的运营过程中,我们并没有得到关键词更多有价值的流量。在知宝美标车的新闻稿中,尽量使用原创的信息,配合精美的图片和表格,提高网页信息的可读性,同时,作者不忘在文章中以锚文本的形式高亮和添加链接的形式制作关键词,这样更有利于网站内部链接的构建和丰富,从而在操作中获得明显的搜索性能。另外,新闻更新和侧重均收录有限的关键词,在首页调用最新新闻头条的方式保证了首页的更新。
写起来有点麻烦。百度的算法在一两场比赛中都不是很清楚。众智传媒的网络营销顾问在整理发布,他们只是皮毛。关于SEO的价值,是对SEO和百度关键词匹配计算方法的分析思路,欢迎SEO童鞋加入讨论,蒋新鹏的微博:SEO排名zhyhyhz求围观打砖块。本文来自蒋新鹏的博客(SEO排名),请以链接的形式注明