搜索引擎对蜘蛛回来的页面进行处理主要有4个步骤
优采云 发布时间: 2021-04-04 20:22搜索引擎对蜘蛛回来的页面进行处理主要有4个步骤
搜索引擎抓取内容后,它将收录存入数据库。当用户搜索时,搜索引擎将向用户显示收录的内容。为了将内容快速呈现给用户,搜索引擎需要对接收到的内容进行处理,仅保留关键信息,以便在用户启动搜索时可以快速呈现所需的内容。
搜索引擎处理蜘蛛程序检索的页面有四个主要步骤。
首先:确定页面的页面类型
确定页面是普通的普通网页还是特殊文件文档(例如PDF)。普通网页将区分论坛,普通文章或视频等,以便将来可以更快地向用户展示
第二:提取网页的文字信息
网站管理员都知道搜索引擎无法识别JavaScript,Flash,图片,视频等。尽管他们一直在努力识别这些信息,但是尽管关键字标签已成为主流,但他们仍然依靠提取TDK网页来进行识别。搜索引擎,但仍然会有一些参考。
第三:消除页面噪音
之前有两三篇文章文章,其中提到了页面信噪比的问题。信噪比是页面主题内容与干扰信息的比率。搜索引擎将删除与页面无关的广告,导航,链接等。类信息,提取网页的主要内容。相关搜索也将在一定程度上计入该页面的内容,因此更好地使用搜索不仅可以提高页面质量,而且可以提高与用户搜索的匹配度。
第四:从页面内容中删除停用词
删除页面停用词实际上是搜索引擎的词段分割过程。今天,我们主要讨论停用词,例如页面上的“'”,“啊”之类的词,以减少搜索引擎的计算量。