,欢迎访问搜索引擎工作原理收录流程(一)_
优采云 发布时间: 2021-07-20 19:34,欢迎访问搜索引擎工作原理收录流程(一)_
,欢迎访问
搜索引擎的工作原理
收录process
1、提交网址是一种被动且耗时的行为。
2、建立外部链接。外部链接的数量、质量和相关性影响进入时间,这是活跃的。
page收录method
页面收录使用的策略是过滤掉互联网上相对重要的信息。
如果使用同样的爬取策略,在同一个站点爬取页面资源效率更高,那么你在网站上停留的时间就会更长,收录自然会喜欢更多的页面。
广度优先。
优点:首先抓取重要页面。
应对策略:在较浅的页面上设计重要信息。
深度优先。
优点:页面需求长尾,抓取更多冷门和隐藏页面,满足更多用户需求。
响应策略:重要信息放置在多个级别的页面上。
由用户提交。
优点:大大提高收录页面的效率和数量以及收录页面的质量。
如何避免重复收录(重复页面和内容)
网站重复信息:转载内容、镜像内容。
重复信息的影响:占用硬盘,延长用户搜索时间
权重:原创>转载>镜像(几乎完全忽略)
转载页面
比较分成N个区域页面的多个M区域。如果 M>A(某个阈值),则每个都重印。
通过比较上次修改时间、页面权重等因素,确定原创是哪一个。
镜像页面
比较分成 N 个区域的多个页面。如果N个区域的内容完全相同,则认为这些页面是彼此的镜像页面。
判断原创为转载。
镜像网站
狭义镜像网站指内容完全相同的网站。
形成原因:1、多个域名或IP指向同一个服务器的同一个物理目录;
2、整个网站内容被复制到不同域名或IP的服务器上。
识别出源网站,就是判断这些网站的主页与主页直接链接的页面是否互为镜像页面。然后综合多个因素(如网站weight值、建立时间等)进行识别。
镜像网站只收录很少的页面,甚至收录页面都没有。
页面维护方法
为了让搜索引擎适应网站不断变化和缺失的条目。
定期获取
定期维护所有收录页面。
页面权重的重新分配也与页面维护同步。
适用于页面较少且内容更新较慢的网站。
缺点:由于维护周期长,无法及时向用户反映更新过程中页面的变化。
增量抓取
对已爬取的页面进行定期监控,实现页面的更新和维护。 (不现实)
基于80/20规则,搜索引擎只对网站部分重要页面进行定期监控,从而获取网站中相对重要的信息。
优点:重要页面的更新会及时发现新内容、新链接,并删除不存在的信息。
品类和定位抓取
根据页面的类别或性质,建立相应更新周期的页面监控方法。
新闻周期比资源下载周期短。
大门户网站的内容更新速度比小门户快。
优点:大大提高页面抓取的灵活性和实时性。
附加:结合各种爬虫方式来爬取页面。
页面存储
搜索引擎在抓取页面的过程中能否获取到更多有价值的信息,将直接影响到搜索引擎的效率和排名结果的质量。因此,搜索引擎除了存储原创页面外,还会附加一系列信息(如文件类型、文件大小、上次修改时间、rul、ip地址、抓取时间等),并以此为依据执行某项任务。
网络分析
对原创页面进行了一系列的分析和处理,以迎合用户查询信息的习惯。建立关键字索引和反向索引,并分配权重。
网页索引
为了提高页面检索效率,对页面url进行索引。
网络分析
文本信息提取
过滤非文本信息(HTML 标签、JS 标签、PHP 标签)。
分词/切词
通过对过滤后的文本内容进行切分(这种行为是分词/分词),形成符合用户查询条件的基于关键字的信息列表。
分词算法:1、string匹配分词
2、统计分词。
3、关键字索引。记录关键字所在页码、关键字编号、关键字出现次数、关键字在文档中的位置信息。
4、关键字重组。使用多个网页对应的关键字创建定向索引。
页面排序
页面相关性
1、关键词匹配度
缺点:容易被网站所有者操纵。还需要结合关键词密度、关键词分布、关键词权重标签来确定。
2、关键字密度
关键字密度是网页上关键字频率与总字量的比率。不同的密度对应不同的密度值。
3、关键字分布
根据关键字位置对应不同的分布值。
4、关键字权重标签
链接权重
入度和出度,以及它们的权重分布。
1、内部链接
2、external link
3、默认权重分布
用户行为
点击率
关键字查询
查询流程
用户行为
1、搜素。统计词汇流行度并发现新词汇。
2、click
3、Cache 机制。缓存前 20% 的查询最多的关键字。