解决方案:基于大数据平台的互联网数据采集平台架构介绍

优采云 发布时间: 2022-12-04 21:52

  解决方案:基于大数据平台的互联网数据采集平台架构介绍

  微博博主:用于监控特定博主的动态;

  其他 采集 源代码管理。如电子期刊、APP客户端等。

  源码系统的主要功能:

  方便运维人员增删改查采集来源等;

  根据源头状态、定时状态等实时监控网站;

  对于关键词搜索采集,方便实时添加/删除,激活/关闭采集;

  根据采集的实际情况,实时调整采集策略。如添加/删除采集器等;

  数据 采集 层

  

  数据采集层主要用于采集队列管理、调度、数据采集等,主要包括:

  1:Redis缓存平台:主要用于缓存采集任务队列、进程数据(采集状态、列表数

  数据等数据的临时存储);

  2:任务调度中心:主要用于采集任务调度,保证任务按设定的采集频率调度

  采集。同时保证任务处理的唯一性(同一个任务,同一时间,

  只能由一个 采集器);

  3:采集器:主要用于任务处理。主要包括网页下载、数据结构化分析、任务监控等;

  数据存储层

  数据存储层主要用于采集数据的传输、分析、存储等,主要包括:

  1:数据传输:采集器将解析出的新闻、博客、公众号文章等内容通过统一的SpringBoot微服务接口推送给kafka中间件。同时,验证数据的质量。主要是验证发布时间、标题、文字分析的准确性。同时,对数据进行一定的分析(标注、专源监测)等;

  

  2:大数据平台:主要包括Hadoop、HBASE、kafka、spark、ES等,各采集器挑

  采集到的数据通过微服务接口推送到kafka消息中间件,由spark消费,创建标题、时间、文本等ES索引供业务查询,同时将完整信息存储到HBASE中。

  辅助监控系统

  辅助监控系统主要用于监控各种采集网站和栏目、采集调度服务、推送服务、采集器、大数据平台等,确保其稳定正常运行,主要包括以下子系统:

  1:信息源系统监控:主要监控网站、栏目、公众号、博主等状态,保证其正常访问;

  2:采集监控:主要用于监控各个采集任务的状态,以排查异常任务和数据泄露问题。同时根据记录的状态,还可以检查网站,列等是否正常

  3:服务器监控:主要监控服务器CPU、内存、硬盘等的使用率,是否宕机。同时根据服务器使用情况,合理部署采集器;

  4:数据质量校验:主要用于实时监控数据质量,根据异常数据、反查源等配置;

  采集平台的基本结构大致相同。

  解决方案:互联网中动态网页采集技术类型有哪些

  这篇文章主要介绍了互联网中动态网页采集的技术类型,具有一定的参考价值。感兴趣的朋友可以参考一下。希望看完这篇文章有收获,让小编带大家一起来了解一下。

  动态网页采集技术类型包括CGI、PHP、JSP、ASP。CGI 是一种用于创建动态网页的技术;PHP 是一种嵌入在 HTML 中的服务器端脚本语言;JSP用于创建可支持跨平台、跨Web服务器的动态网页;ASP是微软公司提供的开发动态网页的技术。

  本教程的运行环境:windows10系统,戴尔G3电脑。

  5 种常用的动态 Web 技术

  1.电脑影像

  CGI(Common Gateway Interface,公共网关接口)是一种较早的用于创建动态网页的技术。当客户端向Web服务器上指定的CGI程序发送请求时,Web服务器会启动一个新的进程来执行一些CGI程序,程序运行后将结果以网页的形式返回给客户端执行。

  

  CGI的优点是可以用多种语言编写,如C、C++、VB和Perl。在语言的选择上有很大的灵活性。最常用的 CGI 开发语言是 Perl。

  CGI的主要缺点是维护复杂,运行效率比较低。这主要是由以下几种方式造成的:

  2. PHP

  PHP(个人主页)是一种嵌入在 HTML 中的服务器端脚本语言,可以在多个平台上运行。它借鉴了C语言、Java语言和Perl语言的语法,同时又具有自己独特的语法。

  因为PHP采用了Open Source的方式,它的源代码是开放的,从而可以不断地添加新的东西,形成一个庞大的函数库,实现更多的功能。PHP 支持几乎所有的现代数据库。

  PHP的缺点是不支持JSP、ASP等组件,扩展性差。

  3. 网页

  

  JSP(Java Server Pages)是一种基于Java的技术,用于创建支持跨平台和跨Web服务器的动态网页。JSP 与服务器端脚本语言 JavaScript 不同。JSP就是在传统的静态页面中加入Java程序片段和JSP标签,形成JSP页面,然后由服务器编译执行。

  JSP的主要优点如下:

  JSP 的主要缺点是编写 JSP 程序比较复杂,开发人员往往需要对 Java 及相关技术有更好的了解。

  4.ASP

  ASP(Active Server Pages)是微软公司提供的开发动态网页的技术。具有开发简单、功能强大等优点。ASP 使生成 Web 动态内容和构建强大的 Web 应用程序的工作变得非常简单。例如,在表单中采集数据时,只需要在HTML文件中嵌入一些简单的指令,就可以从表单中采集数据并进行分析处理。使用 ASP,您还可以轻松地使用 ActiveX 组件来执行复杂的任务,例如连接到数据库以检索和存储信息。

  对于有经验的程序开发人员来说,如果他们已经掌握了一种脚本语言,如VBScript、JavaScript或Perl,并且已经知道如何使用ASP。ASP页面中可以使用任何脚本语言,只要安装了相应的符合ActiveX脚本标准的引擎。ASP 本身有两个脚本引擎,VBScript 和 JavaScript。从软件技术的角度来看,ASP具有以下特点:

  感谢您仔细阅读此 文章。希望小编分享的文章《互联网上的动态网页采集有哪些技术类型》一文对大家有所帮助,也希望大家多多支持易速云,关注易速云行业资讯频道,更多相关知识等你学习!

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线