如何保证我们一直有效(网站能够正常打开)呢?
优采云 发布时间: 2021-05-25 23:06如何保证我们一直有效(网站能够正常打开)呢?
人类的发展经历了从猿到人的发展。工业发展经历了石器时代,工业时代和智能产业的发展。
采集也经历了从单点到多点,再到分布式的发展。 采集光源也分别从10、10 0、 1,000,然后是1W,50,000和100,000发展而来。有这么多网站,我们如何保证它们始终有效(网站可以正常打开)?
时代在进步,公司在不断发展壮大,网站的内容也在不断丰富。每年和每月都会添加新列,而旧列将被删除。我们如何确保采集列始终有效?
今天,我将结合过去几年的经验采集与您分享我的过程。
首先:构建源系统
由于我们是舆论监督服务,因此我们对采集的覆盖面相对较广,包括我们业务所在行业以及主要和次要专业中的所有网站(尽可能多)国家发布的媒体。各种聚会媒体,纸质媒体,应用程序等,以及社交媒体,例如微博,微信和论坛网站。
网站,列管理
现在采集覆盖了大约6W 网站,并且每天持续增加。我们如何管理如此大量的网站?这就是源系统的价值!
我们在源系统的网站下管理需要采集的网站和需要采集的通道或列。同时,系统中对某些网站媒体分类,行业分类,网站类型等进行了统一管理。
同时,为了提高网站,列等的配置效率,我们支持将列的HTML源代码直接复制到系统中,然后自动分析列名,列URL ,列下的数据和其他数据的正则表达式。通过这种优化,每个人以前每天分配大约20 网站,但现在已经增加到100以上。
关键词搜索
Data 采集,除了直接发布信息采集的网站外,另一种快速获取数据的方法是通过关键词在主要搜索引擎中搜索采集,例如:百度,搜索引擎搜狗和360等公司。
在源系统中,除了以上两种类型的采集源之外,它还可以管理服务器,已部署的采集器等。由于数量众多采集,因此有数百台服务器,而三台,每个服务器上部署了五个甚至十个或二十个爬网程序。这些采集器的上载,部署,启动和关闭也既费时又耗能。事物。通过系统的统一管理,可以大大减少部署,运维和维护的时间,并可以降低很多成本。
第二:建立网站监控系统
这部分主要包括两个部分:一个是网站或列状态的监视(可以正常访问);另一个是监视网站或列状态。另一个是对常规信息的监控;
网站,列状态监视
1:自动化
通常情况下,每两周或一个月通过自动方式检查一次所有网站。
然后返回状态码不是200,然后再次执行第二和第三次检查。目的是防止由于网络问题或网站响应问题引起的监视失败,并增加手动辅助处理。时间;
根据验证码,删除诸如40 4、 403之类的类型以及诸如50 2、域名之类的未提交文件。一段时间后再次检查。但是请记住同时关闭这些网站的采集,否则会大大降低采集的效率。
2:传递结果数据
如果您有10W 网站,则每次执行自动验证都会很费时。为了提高效率,我们可以结合采集的结果进行处理。根据采集的结果数据,我们首先分析上周采集中哪些列没有数据,然后自动验证这些网站,这将大大提高效率。
3:爬行器监控
当然,在解析HTML源代码时,我们也可以标记采集器数据。如果网站没有响应,则直接保存任务的ID,然后在源系统中对其进行标记,运维人员可以实时查看网站的状态,及时处理并改进数据的效率采集。
同时,如果网站正常返回数据,但没有解析任何信息,则该任务可能是常规异常,也可能是网站异常。需要第二次测试。
正则表达式验证
如上所述,在采集中,我们可以通过当前列或网站记录是否根据现有的正则表达式对数据进行了解析,如果不是,则在源系统中将相应的列标记为打开。
同时,有必要建立一种服务,该服务自动识别列的正则表达式,每隔一段时间(例如30分钟)读取标记的记录一次,自动识别正则表达式并进行同步同时进入采集队列。
为了确保正则表达式的正确性,在自动识别并同步到采集队列后,如果仍然没有匹配信息。此时,系统需要提示运维人员进行手工分析。
第三:数据补充记录
在舆论监督中,无论您对采集的涵盖范围如何,数据总会有一个角落。您没有采集,但可以看到。这时候,我要求改善客户体验,我们需要密切注意手动补充记录到系统中,然后呢?
然后,我们首先需要分析网站是否已配置,列是否已正确配置,然后分析正则表达式是否正确。通过检查这些步骤,可以找到导致遗漏的原因。根据原因,优化来源或完善采集器。
数据补充可以及时减少客户的不满意,同时可以改善来源和采集,从而使采集可以实现闭环。
第四:自动化
首先:智能识别采集频率
现在我们的网站和采集列频率仍然是固定频率,因此某些网站信息更新相对较低,或列无效采集,将大大降低采集的效率。结果,频繁的信息更新网站或列采集会延迟,从而降低了数据价值。
我们现在根据每个网站或采集列的数据分布,对采集的更合适频率进行统计分析,以最大程度地减少服务器资源的浪费并提高采集的效率并最大化数据的价值。
第二:智能识别网站列
我们目前的功率采集 网站约为6W,色谱柱约为70W。这些6W 网站每天都有很多网站升级和修订,有大量新柱子上架,而旧柱子已经下架。仅3个人的运维团队就无法完成这些工作负荷。
因此,我们根据6W 网站中配置的列对它们进行训练,然后每周进行一次网站分析以自动识别列。然后,筛选出与我的业务无关的列,最后进行手动抽样检查,最后将其发布到采集的采集队列中。这样,我们的运维团队已从9人减少到3人。它还可以确保采集的稳定性和效率。
今天,当大数据盛行时,所有分析的基础都是数据。
随着人工智能时代的到来,人类可以做的事几乎都可以由机器代替。
因此,在3 0、 50年后,机器人可以击败人类吗?哈哈...