seo优化搜索引擎工作原理(网站信息被百度收录后接下来就可以分为以下几个步骤)

优采云 发布时间: 2022-02-02 20:16

  seo优化搜索引擎工作原理(网站信息被百度收录后接下来就可以分为以下几个步骤)

  只有让我们的网站向上面的4条信息靠拢,才会被蜘蛛发现并收录放入数据库。那么,当我们的网站信息是百度收录时,可以分为以下几个步骤:

  1、预处理。在一些 SEO 资料中,“预处理”也简称为“索引”,因为索引是预处理中最重要的步骤。我们知道百度数据库中的收录并不是现成的页面,而是“HTML”标签的源码。搜索引擎预处理的工作内容首先去掉了HTML代码,剩下的用于排名的文字只有一行。

  除了可见文本,搜索引擎还会提取一些收录文本信息的特殊代码,例如:META标签中的文本、图片替代文本、Flash文件中的替代文本、链接锚文本等。

  2、中文分词(这是中文搜索引擎独有的,谁让我们的文化博大精深,没办法,任性!)。中文分词基本上有两种方法: 1、基于字典匹配--将一个待分析的汉字与预制字典中的一个词条进行匹配,将待分析的汉字字符串扫描到字典中已经被扫描了。部分词条匹配成功,或词条被切分。2、基于统计——指分析大量文本样本,计算相邻单词的统计概率。出现的相邻单词越多,形成单词的可能性就越大。

  3、去找停用词。停用词——无论是英文还是中文,在页面内容中频繁出现但对内容没有影响的词,如“的”、“地”、“de”、“ah”、“ “ha”、“ya”等感叹词、“therefore”、“yi”、“but”等副词或介词称为停用词。因为这些停用词对页面的主要含义影响不大,搜索引擎将页面索引前去除停用词,使索引数据的主题更加突出,减少不必要的计算量。

  4、去除噪音。所谓噪声,就是除了停用词之外对页面主题没有贡献的因素,比如:“文章分类”、博客页面的“历史档案”等。

  去噪的基本方法:根据HTML标签,将页面分块,区分页眉、导航、文本、页脚等区域。网站 上重复出现的块是噪音。页面去噪后,剩下的就是页面主题内容。

  5、删除。搜索引擎还需要在索引之前识别和删除重复的内容,这个过程称为“重复数据删除”。重点是改善用户体验(搜索引擎不喜欢重复的内容)。

  去重法:“去重”的基本方法是计算页面特征关键词的指纹,也就是选择最有代表性的部分关键词(往往是出现频率最高的部分) ) 从页面主题内容 关键词),然后计算这些 关键词 的数字指纹。

  6、正向索引。前向索引也可以称为索引。搜索引擎索引程序将页面和 关键词 存储到词汇结构中,并将它们存储在索引库中。并且它的关键词内容是通过文件ID映射的,一一对应。

  7、倒排索引。正向索引还不能用于排名,倒排索引最终用于排名。因此,搜索引擎会将正向索引数据库重构为倒排索引,并将关键词对应的文件映射转换为关键词的文件映射。

  8、链接关系计算。链接关系计算也是预处理的重要组成部分。搜索引擎爬取页面内容后,必须提前计算:页面上的哪些链接指向其他哪些页面每个页面的传入链接是什么?页面的链接权重。

  9、特殊文件处理。

  除了抓取 HTML 文件外,搜索引擎通常可以抓取和索引各种基于文本的文件类型,例如 PDF、WORDS、WPS、PPT、TXT 等文件。目前,搜索引擎无法处理图片、视频、Flash等非文本内容,也无法执行脚本和程序。

  小编自己的看法:(此时可以利用它的特点。我们都知道网站的相关性直接影响到网站的排名,我们的网站一定要穿插和其他不相关的信息,比如*敏*感*词*等。我们可以把这些做成图片或者视频放到我们的网站上,这样百度预处理器就无法识别图片或者视频了,我们的相关性会高于其他网站,百度当然会优先推荐给用户!)

  做完上面的事情,最后的工作就是排位了。由于这里写不出来,希望大家关注我的下一篇文章文章,我会详细讲解搜索引擎是如何对我们的网站进行排名的。有什么问题也欢迎私聊我!

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线