网页视频抓取(什么是搜索引擎蜘蛛蜘蛛4、搜索引擎抓取收录工作流程)
优采云 发布时间: 2022-01-15 14:15网页视频抓取(什么是搜索引擎蜘蛛蜘蛛4、搜索引擎抓取收录工作流程)
什么是搜索引擎蜘蛛?
搜索引擎蜘蛛是指由搜索引擎公司建立的一套自动爬取程序,简称蜘蛛侠。
常见的蜘蛛有:百度蜘蛛(baiduspider) 谷歌(Gllgledot)
360蜘蛛、搜狗新闻蜘蛛等
二、搜索引擎爬取收录工作流程
1、抓取2、过滤器3、存储索引库4、显示排序
抓取 收录 *敏*感*词*
蜘蛛爬取 - 网站 页面 - 临时索引库的存储 - 排名(从索引库中检索)
临时索引库不存储蜘蛛爬取的所有 网站 页面。它会根据蜘蛛爬取的页面质量进行过滤,过滤掉一些质量较差的页面。然后是好页面。按页面质量排序。
三、搜索引擎爬取
蜘蛛跟踪网页的超链接,发现并采集互联网上的网页信息
2、 蜘蛛爬行规则
深度爬取(垂直爬取,先爬取某一列的内容页,再用同样的方法爬取另一列)
广度爬取(横向爬取,先爬取每列,再爬取每列页面下方的内容页)
3.爬取内容
链接 文本 图片 视频 JS CSS iframe 蜘蛛
4、影响爬取
链接:文本参数太多,结构层次太多(最好3层),链接太长
不识别内容
需要许可
网站打不开
四、处理网页(过滤)
为什么过滤:采集,内容值太低,文字不正确,内容不丰富
临时数据库:对蜘蛛爬取的内容进行过滤后,将内容存储在临时数据库调用中。
五、显示排序
存储索引库的内容按质量排序,然后调用显示给用户。
1、检索器根据用户输入的查询关键词快速检索索引数据库中的文档,评估文档与查询的相关性,对要输出的结果进行排序,并显示查询结果反馈给用户。
2、当我们在搜索引擎中看到的只是一个结果时,根据各种算法对搜索进行排序,将质量最好的十个结果放在第一页