解决方案:搜索引擎抓取收录工作流程及原理分析

优采云 发布时间: 2020-09-04 04:56

  搜索引擎抓取收录工作流程和原理分析

  什么是搜索引擎蜘蛛?

  搜索引擎蜘蛛是指由搜索引擎公司建立的一组自动爬网程序,称为蜘蛛人。

  常见的蜘蛛有:Baiduspider(baiduspider)Google(Gllgledot)

  360蜘蛛(360spider),搜狗新闻蜘蛛等。

  

  二、搜索引擎抓取收录工作流程

  1、抓取2、过滤器3、商店索引库4、显示排序

  获取收录原理图

  蜘蛛爬行-网站页面存储临时索引数据库的排名状态(从索引数据库中检索)

  临时索引库未存储蜘蛛抓取的所有网站页。它将根据蜘蛛爬网的页面质量进行过滤,并过滤掉一些质量较差的页面。然后放好页面。按页面质量排序。

  三、搜索引擎抓取

  蜘蛛会跟踪网页的超链接,以在Internet上发现并采集网页信息

  2、蜘蛛爬行规则

  深度抓取(垂直抓取,首先抓取列的内容页面,然后更改列并以相同的方式抓取)

  广泛爬行(水平爬行,首先爬行每个部分,然后爬行每个部分页面下方的内容页面)

  3,抓取内容

  链接文本图像视频JS CSS iframe蜘蛛

  4、影响抓取

  链接:收录太多参数的文本结构层次过多(最好3级)链接太长

  无法识别内容

  需要权限

  网站无法打开

  四、正在处理网页(过滤)

  为什么过滤:采集,内容的值太低,文本不正确,内容不丰富

  临时数据库:过滤蜘蛛抓取的内容后,该内容将存储在临时数据库中以供调用。

  五、显示顺序

  根据质量对存储索引库的内容进行排序,然后调用并显示给用户。

  1、检索器根据用户输入的查询关键词在索引数据库中快速检索文档,评估文档和查询的相关性,对要输出的结果进行排序,并将查询结果显示到反馈用户。

  2、当我们在搜索引擎中仅看到一个结果时,将根据各种算法对搜索进行排序,并将十个最佳质量的结果放在第一页上

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线