搜索引擎优化原理(如何实现几万个页面能在一秒钟内做到有序排名?(图))
优采云 发布时间: 2022-02-28 00:12搜索引擎优化原理(如何实现几万个页面能在一秒钟内做到有序排名?(图))
随便逛逛,南京SEO博主看到了这个文章,把基础知识讲解的很全面很透彻,所以特地跑到这个博客跟大家分享一下。
当我第一次接触SEO时,我曾经仔细研究过搜索引擎。一方面,SEO本身是靠搜索引擎生存的,要为这个大哥服务;另一方面,我们想看看他是如何工作的,他是如何做到几万页的。以秒为单位排序。今天,其实这些问题都有一个比较清晰的概念。
如果你想在某个搜索引擎中有一定的排名,仅仅了解互联网SEO的基础知识是不够的。我也遇到过一些朋友自己做站内排名,但是不知道怎么做。他告诉我的是做外部链接,更新和更新文章然后上去。我们不能排除这种可能性,毕竟关键词的竞争不一样。但是我遇到最多的就是做排名,但是很快又掉下来了,不知道怎么保持这个排名。我也没多说废话,一步步跟着何韬的思路走。
搜索引擎的一些基本爬取知识
首先,我们不得不提一个SEO的专有名词,“蜘蛛”。这也是每个搜索引擎用来抓取和访问页面的程序,也称为机器人。在这里我将解释蜘蛛蜘蛛这个词:在我看来,它之所以被称为蜘蛛蜘蛛。就是因为蜘蛛按照网上的链接码去访问网上的每一个网站,而每一个网站的链接其实就像一张很复杂的网,蜘蛛要做的就是抓取这个网上的资料,这个形态很像动物蜘蛛,所以有形象隐喻。
我们对蜘蛛蜘蛛这个词有一点了解吗?原来,一些必须更新的搜索引擎的数据库和排名顺序,都依赖这样的程序来爬取和检索,从而定期更新。所以这意味着:如果我们想让我们的网站有一个排名,我们是否必须让搜索引擎收录我们的网站首先,如果我们想让搜索引擎收录,做我们必须先让搜索引擎收录?蜘蛛来爬我们的车站。其实会有一个过程,如何让蜘蛛爬到我们的网站这里我也简单说一下:
一般来说,我们称这种方法为“链接诱饵”。这意味着以某种方式吸引蜘蛛爬行我们的 网站。常见的比如提交我们刚做的网站到搜索引擎,在高权重的网站s上发链接,引导搜索引擎*敏*感*词*站等等,都比较好用。大大地。
我们来看看蜘蛛的一些习惯,以便我们更好的掌握,从而不断地喂他,培养蜘蛛访问网站的速度和习惯,增加网站的权重@> 获得一定数量的排名
说到蜘蛛习性,我们得有个“深度优先,广度优先”的概念。我们已经说过,蜘蛛到底还是一个程序,是网站 和网站 之间的链接可以引导他爬行。你有没有印象,在看一些基础的SEO教程的时候,都说网站的结构必须是树形的,目录层次不能太深。事实上,这个论点来自深度优先,广度优先。
深度优先:比如蜘蛛访问网站的一个链接,它会不断的往下爬,直到前面没有链接,然后返回第一页,跟随另一个链接,然后往前爬。例如,当蜘蛛访问我们的 网站 主页时,它的爬取习惯之一必须是从导航中的一列向下爬,并可能爬到我们的最后一页并再次返回。
广度优先:这与深度优先有点不同。当蜘蛛在一个页面上发现多个链接时,会先爬取第一层的链接,然后再爬到页面的第二层。找到的链接爬到一个新的水平。让我给你看下图来理解:
事实上,在我们的现实中,Spider 蜘蛛经常使用广度优先和深度优先的组合,这样他就可以照顾到尽可能多的网站(广度优先),同时也可以照顾到一部分网站@的内页>(深度优先)
有了这样的数据爬取原理,搜索引擎首先要对通过蜘蛛检索到的信息进行整理和存储,并给每条信息一个特定的编号。
搜索引擎对索引条目的处理
我们都知道Spider Spider毕竟只是一个程序。他所做的工作不会通过网站的前台分析一个网站的内容,而是通过网站的代码爬取信息。在网站的源码中,我们会看到很多html、js等程序语句。另一方面,Spider Spider只对里面的文章感兴趣,也就是说他只提取网页中的一些文字。可能有的朋友已经说过了,那我们写什么代码呢?代码不起作用吗?
事实上,情况并非如此。在网站的标签优化中,我们都知道诸如H标签、nofollow标签、alt标签等,这些标签在蜘蛛抓取我们的网站信息时仍然可以用来强调和修饰。比如遇到一张图片,但是蜘蛛无法识别图片中的信息,那么我们会考虑设置alt标签,帮助搜索引擎识别图片中的信息;为了保持 网站 的一些权重分散,我们在必要时在链接中添加了 nofollow。
由于搜索引擎蜘蛛对 网站 文本特别感兴趣,所以它是针对中文 SEO 优化的。里面有没有概念性的东西,就是“分词”
最简单的例子,比如我们中文里的“网站optimization”这四个词,在百度搜索引擎数据词库中其实是把两个不同的词分开了,网站和optimization。存储。当用户搜索优化词网站时,搜索引擎的步骤是将网站词库中的网页信息与优化词库中的信息进行交集进行检索和排序。这将在后面提到。
说到分词,我们不得不提一件事,那就是我们如何看待网站的一个分词情况:在百度搜索引擎中搜索“宁波禾涛SEO”,在搜索结果中快来看看网站的快照如图
我们是不是很容易看到,百度在截图中的显示结果中,已经将单词分成了三个背景颜色不同的词组。这只是其中之一。我们在百度的搜索结果中也可以看到,只要我们搜索到的词,就会出现红色标记。这是分词的另一种形式。
有的朋友可能会说,你说的是个人情况。我们在真实过程中搜索的词远比这个复杂,可能还有一些情态助词等等。作为一个越来越完善的搜索引擎。事实上,他们已经考虑过这个问题,首先是因为这些模态粒子实际上在搜索过程中没有任何作用。当搜索引擎进行预处理时,它们也会过滤这些词。一方面是为了减轻检索负担,另一方面是为了提高内容的准确性。
在搜索引擎对蜘蛛爬取的信息进行归档之前,还有一个层次是必不可少的,他必须对内容进行反复审核。一种含义:搜索引擎必须删除同一网站中的数据。有一种情况:比如有人搜索我的网站宁波SEO,有可能我们的首页和内容页会出现在排名结果的第一页。事实上,作为一个成熟的搜索引擎,这种情况是可以避免的。因为这样的内容对用户来说不是很有用,相当于同一个内容被排了两次。第二:针对不同的网站,因为网络上有成千上万的内容。会有两个不同的网站,但内容相同。这就是我们常说的网站内容的转载,
对前面的步骤进行了大量的审查,下一步是进行有效的数据整理。我列出了两个表格供您查看:
远期指数
文件编号
内容
文件 1
关键词1, 关键词2, 关键词7…关键词x
文件 2
关键词1, 关键词7, 关键词8…关键词Y
…………
...
文件 N
关键词6,关键词50,…关键词z
倒排索引
文件编号
内容
关键词1
文件 1, 文件 2, 文件 10, ... 文件 m
关键词2
文件 1, 文件 4, ... 文件 n
…………
…………
关键词7
文件 1, 文件 2, 文件 8, ... 文件 o
简单解释一下上表的含义:前向索引表,即搜索引擎暂时不能直接用于排名的数据表。在此,他根据文件分配每个关键词。也就是说,主键是文件。我们切换到第二张表,看到搜索引擎已经使用了关键词作为主键,这和我们搜索某个关键词来查找我们想要的信息时是一样的。我们可以发现,当用户搜索 关键词 7 时,搜索引擎不需要搜索每个内容,只需从 关键词 的词库中提取文件 1,文件 2,文件 8 等
至于这些文件是如何排列的,请看下一节。
搜索引擎如何确定网站排名
搜索引擎排名应该在搜索引擎如何工作的最后部分提到。通过对互联网上蜘蛛的信息进行爬取和存储,实际上是为最终用户搜索某个关键词搜索引擎,提供他真正想要的内容。
当用户搜索某个词时,搜索引擎做的第一件事就是对我们的词进行必要的分词。这个在前面的文章中也有提到,原理还是一样的。但是,在排名的处理中,搜索引擎会先进行一个交集处理。我们都知道搜索引擎的存储是以词为单位存储的。例如,在搜索宁波SEO时,搜索引擎的词库会先查找宁波一词中收录的文件,然后再查找与SEO相关的文件。然后进行交集处理和删除。
在此,我们不得不提到搜索引擎中对拼写更正的处理。我们可以在百度搜索宁波SEO培讯,看看百度的返回页值。
我们可以清楚的看到百度会自动给出一个链接提示:你要找的是宁波SEO培训。我的一个朋友早些时候告诉我,我正在考虑做一些词边缘优化。大概的意思是这样的:比如我们想做一个比较流行的关键词,但是由于我们自己的能力,可以考虑优化一些错别字,比如我上面举的例子。其实在我看来,加油,不是你不能这样,从用户体验上来说还是挺差的。网站 的转化率并没有高多少。
细心的朋友会问一些搜索引擎排名显示页面的问题:互联网上的页面那么多,百度搜索引擎会在用户搜索某个词的时候列出来吗?在百度搜索引擎中,他只会列出76页左右的关键词排名结果。因为无论多少,都没有给用户这样的考虑。毕竟,搜索引擎也会将最相关的数据排在最前面。
那么搜索引擎用什么形式来确定一个关键词的最终排名呢?
首先,我认为主要问题是我们的 关键词 密度。这也是我们在操作SEO时经常提到的一个话题。当然,也有这个关键词没有出现在title和description标签中,但是有它的排名的情况,后面会提到。对于关键词的密度,就是那句话:不要只关注密度,而忘记用户体验。
关键词 位置和表示。我们都知道网站的title标签中的权重是比较高的。相比之下,在其他条件相同的情况下,如果首页标题中有一定的关键词,排名相对来说总比没有好。当然,还会有其他形式如:加H标签、加黑等。
关键词 距离。在搜索结果页面中,我们会看到我们搜索到的单词会被标记为红色。但也经常会看到我们搜索的单词被分隔并用红色标记。这是给我们的信息。也就是我们在写网站标签和描述的时候,一定要考虑到用户的搜索和搜索引擎的分词。尤其是百度。
网站 的页面权重。这一点一定是重点。说到权重,他肯定牵连到外链的数量和质量。这也是我们SEO会努力做到的一点。
总结
从搜索引擎的工作原理分析,在SEO中了解搜索引擎是很有必要的,但我们也发现了很多规律。搜索引擎如何变化,增加用户体验是不变的。因此,在操作网站SEO的时候,更多的是让用户去考虑,然后才能被搜索引擎识别。