搜索引擎的工作原理简单介绍这里介绍的搜索原理介绍
优采云 发布时间: 2021-06-22 06:25搜索引擎的工作原理简单介绍这里介绍的搜索原理介绍
简单介绍搜索引擎的工作原理
这里介绍的搜索引擎的工作过程比较肤浅,对于大多数SEO来说已经足够了。
搜索引擎的工作流程大致可以分为三个阶段
(一)crawling 和爬行:搜索引擎利用蜘蛛跟踪链接来查找访问过的页面,读取页面的 HTML 代码,并将其存储在数据库中。
(二)预处理:索引程序对抓取到的页面数据进行文本提取、中文分词、索引、倒排索引等,为排名程序调用做准备
(三)ranking:用户输入查询词后,排名程序调用索引库数据计算相关性,然后生成一定格式的搜索结果页面
爬行和爬行
1.蜘蛛
搜索引擎用来抓取和访问页面的程序称为蜘蛛或机器人。当蜘蛛访问任何网站时,首先会访问网站根目录下的robots.txt文件,如果Robots.txt文件禁止搜索引擎抓取某些文件或目录时,蜘蛛会遵守同意不抓取被禁止的网页
介绍一些我们常见和主流的搜索引擎蜘蛛名称
Baiduspider+(百度蜘蛛)
360Sipider+(360蜘蛛)
兼容;雅虎!啜饮/3.0; (英文雅虎蜘蛛)
兼容; Goolgebot/2.1(谷歌蜘蛛)
兼容; bingbot/2.0(必应蜘蛛)
搜狗+网络+机器人(搜狗蜘蛛)
2.tracking 连接
为了抓取更多网页,搜索引擎蜘蛛会跟踪从一个网页到另一个网页的链接。因为网站的结构比较复杂,爬虫需要采取一定的策略来抓取网站所在的页面
最简单的爬取策略可以分为两种,一种是深度,一种是广度
理论上;无论是深度优化还是广底优化,只要给蜘蛛足够的时间,它就可以抓取整个互联网。在实际工作中,蜘蛛的带宽和时间不是无限的,不可能爬取所有页面。事实上,最大的搜索引擎只能抓取和抓取互联网的一小部分,所以为了尽可能的照顾网站,一般是深度和广度的混合。
3.吸引蜘蛛
可以看出,虽然理论上可以抓取所有网页,但实际上是不可能的。
所以想要更多网站被收录的SEO人员可以尽量吸引蜘蛛来访。由于蜘蛛无法抓取页面,因此应尽量抓取重要页面。哪些页面会被视为重要?
网站,页面权重高。 网站素质高、资历老的会被认为权重较高。这种网站页面被收录爬的比较深,收录也比较多
页面更新程度。蜘蛛每次爬行时都会存储页面。如果第二次爬取发现页面与第一次收录相同,则该页面尚未更新。多次抓取后,页面会更新。知道频率,不经常更新的页面上的蜘蛛就会识别出粉丝不需要经常爬行。如果内容更新频繁,蜘蛛会经常关注和访问此页面。将更快地跟踪网页上的链接并抓取新页面。
导入链接,无论是外链还是网站的内链,想要被抓取都必须导入到页面中,否则蜘蛛不会知道页面的存在,优质导入链接通常构成页面。增加导出链接的抓取深度
与首页顶部的距离。一般网站权重最高的就是首页。大多数链接也指向首页,蜘蛛最常访问的页面也是首页,所以最近点击首页的页面权重更高,被抓取的几率也更高
网址的结构。页面权重要被收录之后才知道,那么网站权重高或者最底层的搜索引擎蜘蛛还不知道收录什么?因此,蜘蛛会提前进行预测。除了链接、离首页的距离、历史数据等因素外,短网址和浅网址直观地认为网站具有较高的权重
4.地址库
为了避免重复抓取和抓取网址,搜索引擎构建了一个地址库来记录已发现但未抓取的页面,以及已抓取的页面。蜘蛛在页面上找到链接后,不是立即去访问,而是将URL保存在地址库中,然后统一安排抓包。
地址库上的 URL 有多个来源
1)人式录入的torrent网站
2)蜘蛛从网页中解析出的新RUL与数据库进行比较,然后存储到地址库中进行访问
3)站长通过搜索引擎提交表单网站提交
4)站长通过站长平台提交网站Map
蜘蛛会从要访问的地址库中提取URL,访问抓取页面,然后从要访问的地址库中删除这个URL,进入访问过的地址库
5.文件存储
搜索引擎抓取的页面数据存储在原创页面数据库中。页面数据与用户浏览器获取的HTML完全一致,每个URL都有唯一的文件编号
6.抓取复制内容检测
检测和删除复制内容通常是一个预处理过程,但蜘蛛在抓取和抓取文件时也会进行一定程度的复制内容检测。当网站有大量抄袭或转发的内容时,很可能蜘蛛不在。继续爬行,这就是站长在日志中发现蜘蛛,但页面不是真的收录over的原因