搜索引擎发展史:分类目录(网址导航)是什么
优采云 发布时间: 2021-04-26 05:06
搜索引擎发展史:分类目录(网址导航)是什么
揭示搜索引擎的结构和工作原理
搜索引擎发展的历史:分类目录(网站导航)是史前时代,文本检索是第一代,链接分析是第二代,以用户为中心的是第三代,
搜索引擎的3个目标:更全面,更快,更准确。
搜索引擎的三个核心问题:1.用户的真正需求是什么,2.哪些信息与用户需求真正相关,以及3.哪些信息可以被用户信任。
搜索引擎的结构,图片可以说明这种情况:
搜索引擎整体结构*敏*感*词*:
让我们看一下搜索引擎的架构(上图):
Web采集器搜寻Internet连接;
重复计算网页计算;
添加索引;
内容,链接计算;
页面排序;
形成相应的字典并将其存储在缓存系统中;
用户搜索;
分析内容并调用字典内容
这基本上是从生成网页到显示网页的整个过程。当然,这个过程非常复杂。这只是一个简单的比较。但是,我们可以看到网络爬虫对我们来说多么重要网站,这也是出售许多蜘蛛池的原因。第二个是网页的重复数据删除,因为现在百度自己的服务器中有许多Web缓存,并且爬虫爬过去的内容。经过一系列计算,百度将删除重复的网页。其中有一个更复杂的算法,可以在以后进行详细介绍。说话。 `
我们看到网页的排名受到两个因素的影响:内容相似性和链接分析。这可能是SEO“内容为王,外部链接为王”的理论基础。实际上,影响网页排名的因素很多,但是内容和链接是最基本,更重要的因素。
在对网页进行排序之后,将生成关键词的字典并将其存储在搜索引擎的Cache系统中。一方面,它可以快速为用户提供查询信息,另一方面,它可以减少搜索引擎的计算压力。
除上述子功能模块外,“防作弊”模块也越来越重要。
Internet页面分为五个部分:1.已下载网页的集合,2.过期网页的集合,3.要下载的网页的集合,4.已知网页的集合,以及5.采集未知网页。
Web采集器分为:批采集器,增量采集器和垂直采集器。
爬虫的爬网策略:1.广度优先遍历,2.不完整的PageRank,3. OPIC(在线页面重要性计算),4.大网站优先。
网页更新策略:1.历史参考策略,2.用户体验策略,3.集群抽样策略
链接到本文