解决方案:搜索引擎抓取收录工作流程及原理分析
优采云 发布时间: 2020-09-04 04:56搜索引擎抓取收录工作流程和原理分析
什么是搜索引擎蜘蛛?
搜索引擎蜘蛛是指由搜索引擎公司建立的一组自动爬网程序,称为蜘蛛人。
常见的蜘蛛有:Baiduspider(baiduspider)Google(Gllgledot)
360蜘蛛(360spider),搜狗新闻蜘蛛等。
二、搜索引擎抓取收录工作流程
1、抓取2、过滤器3、商店索引库4、显示排序
获取收录原理图
蜘蛛爬行-网站页面存储临时索引数据库的排名状态(从索引数据库中检索)
临时索引库未存储蜘蛛抓取的所有网站页。它将根据蜘蛛爬网的页面质量进行过滤,并过滤掉一些质量较差的页面。然后放好页面。按页面质量排序。
三、搜索引擎抓取
蜘蛛会跟踪网页的超链接,以在Internet上发现并采集网页信息
2、蜘蛛爬行规则
深度抓取(垂直抓取,首先抓取列的内容页面,然后更改列并以相同的方式抓取)
广泛爬行(水平爬行,首先爬行每个部分,然后爬行每个部分页面下方的内容页面)
3,抓取内容
链接文本图像视频JS CSS iframe蜘蛛
4、影响抓取
链接:收录太多参数的文本结构层次过多(最好3级)链接太长
无法识别内容
需要权限
网站无法打开
四、正在处理网页(过滤)
为什么过滤:采集,内容的值太低,文本不正确,内容不丰富
临时数据库:过滤蜘蛛抓取的内容后,该内容将存储在临时数据库中以供调用。
五、显示顺序
根据质量对存储索引库的内容进行排序,然后调用并显示给用户。
1、检索器根据用户输入的查询关键词在索引数据库中快速检索文档,评估文档和查询的相关性,对要输出的结果进行排序,并将查询结果显示到反馈用户。
2、当我们在搜索引擎中仅看到一个结果时,将根据各种算法对搜索进行排序,并将十个最佳质量的结果放在第一页上