搜索引擎对蜘蛛回来的页面进行处理主要有4个步骤

优采云发布时间: 2021-04-04 20:22

　　搜索引擎抓取内容后，它将收录存入数据库。当用户搜索时，搜索引擎将向用户显示收录的内容。为了将内容快速呈现给用户，搜索引擎需要对接收到的内容进行处理，仅保留关键信息，以便在用户启动搜索时可以快速呈现所需的内容。

　　搜索引擎处理蜘蛛程序检索的页面有四个主要步骤。

　　首先：确定页面的页面类型

　　确定页面是普通的普通网页还是特殊文件文档（例如PDF）。普通网页将区分论坛，普通文章或视频等，以便将来可以更快地向用户展示

　　第二：提取网页的文字信息

　　网站管理员都知道搜索引擎无法识别JavaScript，Flash，图片，视频等。尽管他们一直在努力识别这些信息，但是尽管关键字标签已成为主流，但他们仍然依靠提取TDK网页来进行识别。搜索引擎，但仍然会有一些参考。

　　第三：消除页面噪音

　　之前有两三篇文章文章，其中提到了页面信噪比的问题。信噪比是页面主题内容与干扰信息的比率。搜索引擎将删除与页面无关的广告，导航，链接等。类信息，提取网页的主要内容。相关搜索也将在一定程度上计入该页面的内容，因此更好地使用搜索不仅可以提高页面质量，而且可以提高与用户搜索的匹配度。

　　第四：从页面内容中删除停用词

　　删除页面停用词实际上是搜索引擎的词段分割过程。今天，我们主要讨论停用词，例如页面上的“'”，“啊”之类的词，以减少搜索引擎的计算量。

0

2021-04-04

简述什么是搜索引擎优化

0 个评论

要回复文章请先登录或注册