seo优化搜索引擎工作原理( 模拟非常简单和傻瓜,但可以说明搜索引擎是如何处理页面的过程)
优采云 发布时间: 2021-11-07 13:06seo优化搜索引擎工作原理(
模拟非常简单和傻瓜,但可以说明搜索引擎是如何处理页面的过程)
简单模拟搜索引擎工作原理
这里的模拟非常简单和愚蠢,但它可以说明搜索引擎如何处理页面。
第一步:通过蜘蛛抓取页面;
什么是蜘蛛?如何抓取页面?以文本形式下载并发送到服务器。
第二步:网页文件处理
什么是蜘蛛?Googlebot、baiduspider、Yahoo、Slurp 和 Msnbot 如何抓取页面?以文本形式下载并发送到服务器。可能会做一些预处理,比如压缩等,可能会阻碍蜘蛛的爬行行为:跳跃、识别分辨率。
首先过滤所有的HTML标签、CSS样式表、JS代码
蜘蛛模拟工具:
蜘蛛模拟工具:
第 3 步:识别文本内容
通过对过滤后的文字内容进行分析,判断网页的核心内容。如图所示:
点击百度,你会知道搜索设置,登录,注册,新闻,网页,贴吧,知道音乐,图片,视频,地图,输入法,手写,拼音,关闭百科文库hao123 | 关于百度 关于百度 2013 百度使用前必读
判断结论:本页面与关键词“百度”密切相关。
第 4 步:执行加权评分技术
假设 关键词 重复一次得 1 分,那么百度首页的得分为“4”。当然,搜索引擎真正的计算过程是很负责的,涉及计算的参数有上百个。“所有搜索引擎的核心是外链技术和关键词密度技术”。
第五步:保存到排名数据库
经过上面的分析,一个页面就可以存入排名数据库(也叫索引数据库)。百度主页可能会放入一个名为“百度”的小型数据库中。未来用户搜索“百度”时,会打开“百度”小数据库,
然后根据他们的分数排列它们,并以HTML的形式显示给用户。