网页视频抓取(什么是搜索引擎蜘蛛蜘蛛4、搜索引擎抓取收录工作流程)

优采云 发布时间: 2022-01-15 14:15

  网页视频抓取(什么是搜索引擎蜘蛛蜘蛛4、搜索引擎抓取收录工作流程)

  什么是搜索引擎蜘蛛?

  搜索引擎蜘蛛是指由搜索引擎公司建立的一套自动爬取程序,简称蜘蛛侠。

  常见的蜘蛛有:百度蜘蛛(baiduspider) 谷歌(Gllgledot)

  360蜘蛛、搜狗新闻蜘蛛等

  

  二、搜索引擎爬取收录工作流程

  1、抓取2、过滤器3、存储索引库4、显示排序

  抓取 收录 *敏*感*词*

  蜘蛛爬取 - 网站 页面 - 临时索引库的存储 - 排名(从索引库中检索)

  临时索引库不存储蜘蛛爬取的所有 网站 页面。它会根据蜘蛛爬取的页面质量进行过滤,过滤掉一些质量较差的页面。然后是好页面。按页面质量排序。

  三、搜索引擎爬取

  蜘蛛跟踪网页的超链接,发现并采集互联网上的网页信息

  2、 蜘蛛爬行规则

  深度爬取(垂直爬取,先爬取某一列的内容页,再用同样的方法爬取另一列)

  广度爬取(横向爬取,先爬取每列,再爬取每列页面下方的内容页)

  3.爬取内容

  链接 文本 图片 视频 JS CSS iframe 蜘蛛

  4、影响爬取

  链接:文本参数太多,结构层次太多(最好3层),链接太长

  不识别内容

  需要许可

  网站打不开

  四、处理网页(过滤)

  为什么过滤:采集,内容值太低,文字不正确,内容不丰富

  临时数据库:对蜘蛛爬取的内容进行过滤后,将内容存储在临时数据库调用中。

  五、显示排序

  存储索引库的内容按质量排序,然后调用显示给用户。

  1、检索器根据用户输入的查询关键词快速检索索引数据库中的文档,评估文档与查询的相关性,对要输出的结果进行排序,并显示查询结果反馈给用户。

  2、当我们在搜索引擎中看到的只是一个结果时,根据各种算法对搜索进行排序,将质量最好的十个结果放在第一页

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线