网页视频抓取(什么是搜索引擎蜘蛛蜘蛛4、搜索引擎抓取收录工作流程)

优采云发布时间: 2022-01-15 14:15

　　什么是搜索引擎蜘蛛？

　　搜索引擎蜘蛛是指由搜索引擎公司建立的一套自动爬取程序，简称蜘蛛侠。

　　常见的蜘蛛有：百度蜘蛛（baiduspider）谷歌（Gllgledot）

　　360蜘蛛、搜狗新闻蜘蛛等

　　二、搜索引擎爬取收录工作流程

　　1、抓取2、过滤器3、存储索引库4、显示排序

　　抓取收录 *敏*感*词*

　　蜘蛛爬取 - 网站页面 - 临时索引库的存储 - 排名（从索引库中检索）

　　临时索引库不存储蜘蛛爬取的所有网站页面。它会根据蜘蛛爬取的页面质量进行过滤，过滤掉一些质量较差的页面。然后是好页面。按页面质量排序。

　　三、搜索引擎爬取

　　蜘蛛跟踪网页的超链接，发现并采集互联网上的网页信息

　　2、蜘蛛爬行规则

　　深度爬取（垂直爬取，先爬取某一列的内容页，再用同样的方法爬取另一列）

　　广度爬取（横向爬取，先爬取每列，再爬取每列页面下方的内容页）

　　3.爬取内容

　　链接文本图片视频 JS CSS iframe 蜘蛛

　　4、影响爬取

　　链接：文本参数太多，结构层次太多（最好3层），链接太长

　　不识别内容

　　需要许可

　　网站打不开

　　四、处理网页（过滤）

　　为什么过滤：采集，内容值太低，文字不正确，内容不丰富

　　临时数据库：对蜘蛛爬取的内容进行过滤后，将内容存储在临时数据库调用中。

　　五、显示排序

　　存储索引库的内容按质量排序，然后调用显示给用户。

　　1、检索器根据用户输入的查询关键词快速检索索引数据库中的文档，评估文档与查询的相关性，对要输出的结果进行排序，并显示查询结果反馈给用户。

　　2、当我们在搜索引擎中看到的只是一个结果时，根据各种算法对搜索进行排序，将质量最好的十个结果放在第一页

0

2022-01-15

网页视频抓取

0 个评论

要回复文章请先登录或注册