seo优化全解第1版-搜索引擎入门详解(搜索引擎是怎么工作的呢的?是如何工作的)
优采云 发布时间: 2021-09-09 06:10seo优化全解第1版-搜索引擎入门详解(搜索引擎是怎么工作的呢的?是如何工作的)
搜索引擎抓取的原创页面不能直接用于查询排名处理。所以,抓取的页面一定要进行预处理,首先要了解采集到的页面的工作原理。采集到的页面都经过了预处理,那么预处理是如何工作的呢?让小编带你领略它的神奇。
搜索引擎预处理是在后台进行的,整个过程是看不到的,但是他的步骤如下。
1.提取文本
页面由HTML代码组成,其中收录大量用于排版内容的HTML格式代码、javaScript程序等。蜘蛛爬行还是文字。搜索引擎要做的第一件事是从 HTML 文件中删除标签并建议可用的页面文本。
2.中文分词
搜索引擎直接将捕获的文本放在一起,将一个句子中的所有单词和单词连接在一起。搜索引擎需要区分哪些词可以构成词,而那些词本身就是一个词。例如,“年轻漂亮”可以分为两个词:“年轻”和“漂亮”。
3.删除重复页面
搜索引擎也需要去除页面,去除“镜像页面”和“趋势页面”。有时同一个文章出现在不同的网站或者同一个网站,或者类似的文章出现。搜索引擎不喜欢这种重复的页面内容,也会得出页面质量差的结论。所以作为一个SEO人,你应该多原创文章。
4.计算页面的重要性
搜索引擎计算页面的权重。有两种类型的页面权重计算: 1 由链接指向。 2原创性。权重等级为 0 到 10。权重值越高,排名越高。这是一个非常复杂的计算。
5.创建索引
Index 是建立关键词与页面的对应表。索引的最大优点是可以快速获取相应的数据。页面转到关键词,关键词 转到页面。
6.提取链接
根据页面上的链接获取。