,欢迎访问搜索引擎工作原理收录流程(一)_

优采云 发布时间: 2021-07-20 19:34

  ,欢迎访问搜索引擎工作原理收录流程(一)_

  ,欢迎访问

  搜索引擎的工作原理

  收录process

  1、提交网址是一种被动且耗时的行为。

  2、建立外部链接。外部链接的数量、质量和相关性影响进入时间,这是活跃的。

  

  page收录method

  页面收录使用的策略是过滤掉互联网上相对重要的信息。

  如果使用同样的爬取策略,在同一个站点爬取页面资源效率更高,那么你在网站上停留的时间就会更长,收录自然会喜欢更多的页面。

  广度优先。

  优点:首先抓取重要页面。

  应对策略:在较浅的页面上设计重要信息。

  深度优先。

  优点:页面需求长尾,抓取更多冷门和隐藏页面,满足更多用户需求。

  响应策略:重要信息放置在多个级别的页面上。

  由用户提交。

  优点:大大提高收录页面的效率和数量以及收录页面的质量。

  如何避免重复收录(重复页面和内容)

  网站重复信息:转载内容、镜像内容。

  重复信息的影响:占用硬盘,延长用户搜索时间

  权重:原创>转载>镜像(几乎完全忽略)

  转载页面

  比较分成N个区域页面的多个M区域。如果 M>A(某个阈值),则每个都重印。

  通过比较上次修改时间、页面权重等因素,确定原创是哪一个。

  镜像页面

  比较分成 N 个区域的多个页面。如果N个区域的内容完全相同,则认为这些页面是彼此的镜像页面。

  判断原创为转载。

  镜像网站

  狭义镜像网站指内容完全相同的网站。

  形成原因:1、多个域名或IP指向同一个服务器的同一个物理目录;

  2、整个网站内容被复制到不同域名或IP的服务器上。

  识别出源网站,就是判断这些网站的主页与主页直接链接的页面是否互为镜像页面。然后综合多个因素(如网站weight值、建立时间等)进行识别。

  镜像网站只收录很少的页面,甚至收录页面都没有。

  页面维护方法

  为了让搜索引擎适应网站不断变化和缺失的条目。

  定期获取

  定期维护所有收录页面。

  页面权重的重新分配也与页面维护同步。

  适用于页面较少且内容更新较慢的网站。

  缺点:由于维护周期长,无法及时向用户反映更新过程中页面的变化。

  增量抓取

  对已爬取的页面进行定期监控,实现页面的更新和维护。 (不现实)

  基于80/20规则,搜索引擎只对网站部分重要页面进行定期监控,从而获取网站中相对重要的信息。

  优点:重要页面的更新会及时发现新内容、新链接,并删除不存在的信息。

  品类和定位抓取

  根据页面的类别或性质,建立相应更新周期的页面监控方法。

  新闻周期比资源下载周期短。

  大门户网站的内容更新速度比小门户快。

  优点:大大提高页面抓取的灵活性和实时性。

  附加:结合各种爬虫方式来爬取页面。

  页面存储

  搜索引擎在抓取页面的过程中能否获取到更多有价值的信息,将直接影响到搜索引擎的效率和排名结果的质量。因此,搜索引擎除了存储原创页面外,还会附加一系列信息(如文件类型、文件大小、上次修改时间、rul、ip地址、抓取​​时间等),并以此为依据执行某项任务。

  网络分析

  对原创页面进行了一系列的分析和处理,以迎合用户查询信息的习惯。建立关键字索引和反向索引,并分配权重。

  

  网页索引

  为了提高页面检索效率,对页面url进行索引。

  网络分析

  

  文本信息提取

  过滤非文本信息(HTML 标签、JS 标签、PHP 标签)。

  分词/切词

  通过对过滤后的文本内容进行切分(这种行为是分词/分词),形成符合用户查询条件的基于关键字的信息列表。

  分词算法:1、string匹配分词

  2、统计分词。

  3、关键字索引。记录关键字所在页码、关键字编号、关键字出现次数、关键字在文档中的位置信息。

  

  4、关键字重组。使用多个网页对应的关键字创建定向索引。

  页面排序

  页面相关性

  

  1、关键词匹配度

  

  缺点:容易被网站所有者操纵。还需要结合关键词密度、关键词分布、关键词权重标签来确定。

  2、关键字密度

  关键字密度是网页上关键字频率与总字量的比率。不同的密度对应不同的密度值。

  

  3、关键字分布

  根据关键字位置对应不同的分布值。

  4、关键字权重标签

  

  链接权重

  入度和出度,以及它们的权重分布。

  1、内部链接

  2、external link

  3、默认权重分布

  用户行为

  点击率

  关键字查询

  

  查询流程

  

  用户行为

  1、搜素。统计词汇流行度并发现新词汇。

  

  2、click

  3、Cache 机制。缓存前 20% 的查询最多的关键字。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线