网页视频抓取脚本(网络爬虫是什么的基本架构的爬取策略)

优采云 发布时间: 2022-03-27 20:12

  网页视频抓取脚本(网络爬虫是什么的基本架构的爬取策略)

  创业初期的公司很多,他们的公司可以给用户提供的内容比较少,现在是消费内容的时代,所以需要通过网络爬虫爬取外部资源数据,补充公司的内容库。为了满足用户消费内容的需求。

  下面结合我自己的工作经验来描述一下网络爬虫的实战。系列文章分为网络爬虫实战(一)和网络爬虫实战(二)),第一部文章主要介绍:

  什么是网络爬虫

  网络爬虫的基本架构

  网络爬虫抓取策略

  一、什么是网络爬虫?

  网络爬虫,也称为网络蜘蛛或网络机器人,是一种程序或脚本,可以根据一定的规则自动爬取万维网上的信息。通俗的说,就是获取网页中特定信息的程序。每个页面就像一个节点,两个蜘蛛丝在蜘蛛网上相交,而爬虫就像一只蜘蛛,可以通过蜘蛛丝爬到任意一个节点,并在该节点上获取。相应的信息。

  

  二、网络爬虫的基本架构

  网络爬虫的基本架构如下图所示:

  

  调度模块是核心模块,负责所有爬虫任务分配、结果存储等功能。下载模块主要是根据调度模块提供的URL链接下载URL页面上的内容,而分析模块主要是按照规定的规则对下载模块中下载的数据进行解析,分析该页面中是否有URL需要进一步分析的数据。并存储当前页面的有用信息,这些数据将再次发送给调度模块。如果页面需要进一步解析,调度模块会再次将其发送给下载模块进行遍历获取,如果是有用的数据,调度模块会将其发送给存储模块进行存储。

  三、网络爬虫的爬取策略

  广度优先搜索

  广度优先搜索策略是指在爬取过程中,完成当前一级搜索后,再进行下一级搜索。该算法的设计和实现比较简单。目前为了覆盖尽可能多的页面,一般采用广度优先搜索方式

  最好的第一次搜索

  最佳优先级搜索策略是根据一定的网页分析算法预测候选URL与目标网页的相似度,或与主题的相关度,选择评价最好的一个或几个URL进行爬取。

  深度优先搜索

  深度优先搜索策略从起始页面开始,选择一个URL进入,分析该页面中的URL,选择一个进入。这样的链接被逐个链接地获取,直到在处理下一个路由之前处理了一个路由。深度优先策略设计相对简单。然而,门户网站网站提供的链接往往是最有价值的,并且具有较高的PageRank,但随着级别的深入,页面价值和PageRank会相应降低。这意味着重要的页面通常更靠近*敏*感*词*,而爬得太深的页面价值较低。同时,该策略的抓取深度直接影响抓取命中率和抓取效率,而抓取深度是该策略的关键。与其他两种策略相比。这种策略很少使用。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线