3人团队,如何管理10万采集网站?(最全、最细解读)
优采云 发布时间: 2020-08-30 22:04如何在3人团队中管理100,000个采集网站? (最完整,最详尽的解释)
首先: 构建源系统
由于我们提供舆论监测服务,因此我们的采访范围相对广泛,包括(尽可能)包括我们行业中的所有网站,以及该国发布的主要和次要媒体. 各种派对媒体,纸质媒体,应用程序等,以及社交媒体网站,例如微博,微信和论坛.
网站,列管理
现在我们的采集大约涵盖6W网站,并且每天都在不断增加. 我们如何管理如此大量的网站?这就是源系统的价值!
我们在源系统中管理需要采集的网站以及需要采集的通道或列. 同时,某些网站媒体类别,行业类别,网站类型等都在系统中进行管理.
同时,为了提高网站和列的配置效率,我们支持将列的HTML源代码直接复制到系统中,然后自动分析列名,列URL,正则表达式列下的数据和其他数据. 通过这种优化,每个人每天配置大约20个网站,但现在已增加到100个以上.
关键字搜索
数据采集,除了直接发布信息采集的网站外,另一种快速获取数据的方法是在主要搜索引擎采集中搜索关键词,例如百度,搜狗,360和其他公司的搜索引擎.
在源系统中,除了上述两种类型的采集源外,它还可以管理服务器,部署的采集器等. 因为在大量采集中,有数百台服务器,而三,五台或每个服务器上甚至部署了十或二十个爬虫. 这些采集器的上载,部署,启动和关闭也既费时又耗能. 事情. 通过系统的统一管理,可以大大减少部署,运维和维护的时间,并可以降低很多成本.
第二: 建立网站监控系统
这部分主要包括两个部分: 一个是监视网站或列的状态(可以正常访问);另一个是对常规信息的监视;
网站,列的状态监控
1: 自动化
通常情况下,它是通过自动方式每两周或一个月检查一次所有网站.
然后返回状态码不是200,然后再次执行第二和第三次检查. 主要目的是防止由于网络问题或网站响应问题引起的监视失败,并增加人工二次处理的时间;
根据验证码,删除404、403和其他类型,以及502,一段时间后将再次检查未记录的域名和其他类型. 但是请记住同步关闭网站的这些采集,否则采集效率会大大降低.
2: 传递结果数据
如果您有10W网站,则每次执行自动验证都非常耗时. 为了提高效率,我们可以结合采集结果进行处理. 根据采集的结果数据,我们首先分析最近一周哪些列没有采集数据,然后自动验证这些网站,这将大大提高效率.
3: 爬行动物监控
当然,我们也可以在解析HTML源代码时标记采集器数据. 如果网站没有响应,则直接保存任务的ID,然后在源系统中进行标记,运维人员可以实时查看网站的状态并及时处理,以提高数据采集的效率.
同时,如果网站正常返回数据,但未解析任何信息,则该任务可能是常规异常,也可能是网站异常. 需要第二次测试.
正则表达式验证
如上所述,在采集中,我们可以通过当前列或网站记录是否根据现有的正则表达式对数据进行了解析,如果不是,则在徽标上将源系统中的相应列记录下来.
同时,有必要建立一种服务,该服务可自动识别列的正则表达式,每隔一段时间(例如30分钟)读取一次已识别的记录,自动识别正则表达式并进行同步到采集队列.
为了确保正则表达式的正确性,在自动识别并同步到采集队列后,如果仍然没有匹配信息. 此时,系统需要提示运维人员进行手工分析.
第三: 数据补充
在民意监测中,无论您涵盖的采集范围如何,总是会有一些数据. 您没有采集,但是可以看到. 这时,我要求改善客户体验,我们需要密切注意手动补充记录到系统中,然后?
然后,我们首先需要分析我们的网站是否已配置,列是否已正确配置以及正则表达式是否正确. 通过对这些步骤的检查,可以找到错过采矿的原因. 根据原因,优化源或完善采集器.
数据补充可以及时减少客户的不满意,同时可以改善源和采集,从而实现闭环采集.
第四: 自动化
首先: 智能识别采集频率
现在我们的网站和列采集的频率仍然是固定频率,因此一些信息更新相对较低或无效的列采集的网站将大大降低采集效率. 这会导致频繁的网站或列采集延迟,从而无法更新信息,从而降低了数据价值.
我们现在正在基于每个站点或带有采集数据的列的发布时间分布,统计分析更合适的采集频率,以最大程度地减少服务器资源的浪费并提高采集效率并最大化数据价值.
第二: 智能识别网站专栏
我们的采集网站约为6W,专栏约为70W. 这些6W网站,每天都有许多网站升级和修订,货架上有大量新柱子,旧柱子已经下架. 仅3人的运维团队就无法完成这些工作负载.
因此,我们根据6W网站中配置的列对它们进行训练,然后每周分析一次网站以自动识别列. 然后,筛选出与我的业务无关的列,最后进行手动抽样检查,最后将其发布到用于采集的采集队列. 这样,我们的运维团队已从9人减少到3人. 它还可以确保采集的稳定性和效率.
如今,当大数据流行时,所有分析的基础都是数据.
随着人工智能时代的到来,人类可以做的事几乎都可以由机器代替.
那么,在30至50年内,机器人能击败人类吗?哈哈...