
hive
五分钟学前端技术:一篇文章教你看懂大数据技术栈!
采集交流 • 优采云 发表了文章 • 0 个评论 • 434 次浏览 • 2020-04-02 11:04
近几年,市场上出现了好多和大数据相关的岗位,不管是数据剖析、数据挖掘,或者是数据研制,都是围绕着大数据来做事情,那么,到底哪些是大数据,就是我们每一个要学习大数据技术的同学要了解的事情了,根据百度百科的介绍
大数据(big data),IT行业术语,是指未能在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是须要新处理模式能够具有更强的决策力、洞察发觉力和流程优化能力的海量、高增长率和多元化的信息资产。
在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编撰的《大数据时代》 [1] 中大数据指不用随机分析法(抽样调查)这样捷径,而采用所有数据进行剖析处理。大数据的5V特征(IBM提出):Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)。 [2]思维导图
大数据方面核心技术有什么?
大数据的概念比较具象,而大数据技术栈的庞大程度将使你叹为观止。
大数据技术的体系庞大且复杂,基础的技术包含数据的采集、数据预处理、分布式存储、NoSQL数据库、数据库房、机器学习、并行估算、可视化等各类技术范畴和不同的技术层面。首先给出一个通用化的大数据处理框架,主要分为下边几个方面:数据采集与预处理、数据储存、数据清洗、数据查询剖析和数据可视化。
一、数据采集与预处理
对于各类来源的数据,包括联通互联网数据、社交网络的数据等,这些结构化和非结构化的海量数据是零散的,也就是所谓的数据孤岛,此时的那些数据并没有哪些意义,数据采集就是将这种数据写入数据库房中,把零散的数据整合在一起,对那些数据综合上去进行剖析。数据采集包括文件日志的采集、数据库日志的采集、关系型数据库的接入和应用程序的接入等。在数据量比较小的时侯,可以写个定时的脚本将日志写入储存系统,但随着数据量的下降,这些方式难以提供数据安全保障,并且运维困难,需要更健壮的解决方案。
Flume NG作为实时日志搜集系统,支持在日志系统中订制各种数据发送方,用于搜集数据,同时,对数据进行简单处理,并讲到各类数据接收方(比如文本,HDFS,Hbase等)。Flume NG采用的是三层架构:Agent层,Collector层和Store层,每一层均可水平拓展。其中Agent包含Source,Channel和 Sink,source拿来消费(收集)数据源到channel组件中,channel作为中间临时储存,保存所有source的组件信息,sink从channel中读取数据,读取成功以后会删掉channel中的信息。
NDC,Netease Data Canal,直译为网易数据运河系统,是网易针对结构化数据库的数据实时迁移、同步和订阅的平台化解决方案。它整合了网易过去在数据传输领域的各类工具和经验,将单机数据库、分布式数据库、OLAP系统以及下游应用通过数据链路串在一起。除了保障高效的数据传输外,NDC的设计遵守了单元化和平台化的设计哲学。
Logstash是开源的服务器端数据处理管线,能够同时从多个来源采集数据、转换数据,然后将数据发送到您最喜欢的 “存储库” 中。一般常用的储存库是Elasticsearch。Logstash 支持各类输入选择,可以在同一时间从众多常用的数据来源捕捉风波,能够以连续的流式传输方法,轻松地从您的日志、指标、Web 应用、数据储存以及各类 AWS 服务采集数据。
Sqoop,用来将关系型数据库和Hadoop中的数据进行互相转移的工具,可以将一个关系型数据库(例如Mysql、Oracle)中的数据导出到Hadoop(例如HDFS、Hive、Hbase)中,也可以将Hadoop(例如HDFS、Hive、Hbase)中的数据导出到关系型数据库(例如Mysql、Oracle)中。Sqoop 启用了一个 MapReduce 作业(极其容错的分布式并行估算)来执行任务。Sqoop 的另一大优势是其传输大量结构化或半结构化数据的过程是完全自动化的。
流式估算是行业研究的一个热点,流式估算对多个高吞吐量的数据源进行实时的清洗、聚合和剖析,可以对存在于社交网站、新闻等的数据信息流进行快速的处理并反馈,目前大数据流剖析工具有很多,比如开源的strom,spark streaming等。
Strom集群结构是有一个主节点(nimbus)和多个工作节点(supervisor)组成的主从结构,主节点通过配置静态指定或则在运行时动态补选,nimbus与supervisor都是Storm提供的后台守护进程,之间的通讯是结合Zookeeper的状态变更通知和监控通知来处理。nimbus进程的主要职责是管理、协调和监控集群上运行的topology(包括topology的发布、任务委派、事件处理时重新委派任务等)。supervisor进程等待nimbus分配任务后生成并监控worker(jvm进程)执行任务。supervisor与worker运行在不同的jvm上,如果由supervisor启动的某个worker由于错误异常退出(或被kill掉),supervisor会尝试重新生成新的worker进程。
当使用上游模块的数据进行估算、统计、分析时,就可以使用消息系统,尤其是分布式消息系统。Kafka使用Scala进行编撰,是一种分布式的、基于发布/订阅的消息系统。Kafka的设计理念之一就是同时提供离线处理和实时处理,以及将数据实时备份到另一个数据中心,Kafka可以有许多的生产者和消费者分享多个主题,将消息以topic为单位进行归纳;Kafka发布消息的程序称为producer,也叫生产者,预订topics并消费消息的程序称为consumer,也叫消费者;当Kafka以集群的形式运行时,可以由一个服务或则多个服务组成,每个服务称作一个broker,运行过程中producer通过网路将消息发送到Kafka集群,集群向消费者提供消息。Kafka通过Zookeeper管理集群配置,选举leader,以及在Consumer Group发生变化时进行rebalance。Producer使用push模式将消息发布到broker,Consumer使用pull模式从broker订阅并消费消息。Kafka可以和Flume一起工作,如果须要将流式数据从Kafka转移到hadoop,可以使用Flume代理agent,将Kafka当作一个来源source,这样可以从Kafka读取数据到Hadoop。
Zookeeper是一个分布式的,开放源码的分布式应用程序协调服务,提供数据同步服务。它的作用主要有配置管理、名字服务、分布式锁和集群管理。配置管理指的是在一个地方更改了配置,那么对这个地方的配置感兴趣的所有的都可以获得变更,省去了自动拷贝配置的冗长,还挺好的保证了数据的可靠和一致性,同时它可以通过名子来获取资源或则服务的地址等信息全网文章采集软件,可以监控集群中机器的变化全网文章采集软件,实现了类似于脉搏机制的功能。
二、数据储存
Hadoop作为一个开源的框架,专为离线和大规模数据剖析而设计,HDFS作为其核心的储存引擎,已被广泛用于数据储存。
HBase,是一个分布式的、面向列的开源数据库,可以觉得是hdfs的封装,本质是数据储存、NoSQL数据库。HBase是一种Key/Value系统,部署在hdfs上,克服了hdfs在随机读写这个方面的缺点,与hadoop一样,Hbase目标主要借助纵向扩充,通过不断降低廉价的商用服务器,来降低估算和储存能力。
Phoenix,相当于一个Java中间件,帮助开发工程师才能象使用JDBC访问关系型数据库一样访问NoSQL数据库HBase。
Yarn是一种Hadoop资源管理器,可为下层应用提供统一的资源管理和调度,它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大益处。Yarn由下边的几大组件构成:一个全局的资源管理器ResourceManager、ResourceManager的每位节点代理NodeManager、表示每位应用的Application以及每一个ApplicationMaster拥有多个Container在NodeManager上运行。
Mesos是一款开源的集群管理软件,支持Hadoop、ElasticSearch、Spark、Storm 和Kafka等应用构架。
Redis是一种速率十分快的非关系数据库,可以储存键与5种不同类型的值之间的映射,可以将储存在显存的通配符对数据持久化到硬碟中,使用复制特点来扩充性能,还可以使用客户端分片来扩充写性能。
Atlas是一个坐落应用程序与MySQL之间的中间件。在前端DB看来,Atlas相当于联接它的客户端,在后端应用看来,Atlas相当于一个DB。Atlas作为服务端与应用程序通信,它实现了MySQL的客户端和服务端合同,同时作为客户端与MySQL通信。它对应用程序屏蔽了DB的细节,同时为了增加MySQL负担,它还维护了连接池。Atlas启动后会创建多个线程,其中一个为主线程,其余为工作线程。主线程负责窃听所有的客户端联接恳求,工作线程只窃听主线程的命令恳求。
Kudu是围绕Hadoop生态圈构建的储存引擎,Kudu拥有和Hadoop生态圈共同的设计理念,它运行在普通的服务器上、可分布式规模化布署、并且满足工业界的高可用要求。其设计理念为fast analytics on fast data。作为一个开源的储存引擎,可以同时提供低延后的随机读写和高效的数据剖析能力。Kudu不但提供了行级的插入、更新、删除API,同时也提供了接近Parquet性能的批量扫描操作。使用同一份储存,既可以进行随机读写,也可以满足数据剖析的要求。Kudu的应用场景太广泛,比如可以进行实时的数据剖析,用于数据可能会存在变化的时序数据应用等。
在数据储存过程中,涉及到的数据表都是成千上百列,包含各类复杂的Query,推荐使用列式储存方式,比如parquent,ORC等对数据进行压缩。Parquet 可以支持灵活的压缩选项,显著减低c盘上的储存。
三、数据清洗
MapReduce作为Hadoop的查询引擎,用于大规模数据集的并行估算,”Map(映射)”和”Reduce(归约)”,是它的主要思想。它极大的便捷了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统中。
随着业务数据量的增多,需要进行训练和清洗的数据会显得越来越复杂,这个时侯就须要任务调度系统,比如oozie或则azkaban,对关键任务进行调度和监控。
Oozie是用于Hadoop平台的一种工作流调度引擎,提供了RESTful API接口来接受用户的递交恳求(提交工作流作业),当递交了workflow后,由工作流引擎负责workflow的执行以及状态的转换。用户在HDFS上布署好作业(MR作业),然后向Oozie递交Workflow,Oozie以异步方法将作业(MR作业)提交给Hadoop。这也是为何当调用Oozie 的RESTful插口递交作业以后能立刻返回一个JobId的缘由,用户程序毋须等待作业执行完成(因为有些大作业可能会执行许久(几个小时甚至几天))。Oozie在后台以异步方法,再将workflow对应的Action递交给hadoop执行。
Azkaban也是一种工作流的控制引擎,可以拿来解决有多个hadoop或则spark等离线估算任务之间的依赖关系问题。azkaban主要是由三部份构成:Relational Database,Azkaban Web Server和Azkaban Executor Server。azkaban将大多数的状态信息都保存在MySQL中,Azkaban Web Server提供了Web UI,是azkaban主要的管理者,包括project的管理、认证、调度以及对工作流执行过程中的监控等;Azkaban Executor Server拿来调度工作流和任务,记录工作流或则任务的日志。
流计算任务的处理平台Sloth,是网易首个自研流计算平台,旨在解决公司内各产品日渐下降的流计算需求。作为一个估算服务平台,其特征是易用、实时、可靠,为用户节约技术方面(开发、运维)的投入,帮助用户专注于解决产品本身的流计算需求。
四、数据查询剖析
Hive的核心工作就是把SQL句子翻译成MR程序,可以将结构化的数据映射为一张数据库表,并提供 HQL(Hive SQL)查询功能。Hive本身不储存和估算数据,它完全依赖于HDFS和MapReduce。可以将Hive理解为一个客户端工具,将SQL操作转换为相应的MapReduce jobs,然后在hadoop里面运行。Hive支持标准的SQL句型,免去了用户编撰MapReduce程序的过程,它的出现可以使这些精通SQL技能、但是不熟悉MapReduce 、编程能力较弱与不擅长Java语言的用户才能在HDFS大规模数据集上很方便地借助SQL 语言查询、汇总、分析数据。
Hive是为大数据批量处理而生的,Hive的出现解决了传统的关系型数据库(MySql、Oracle)在大数据处理上的困局 。Hive 将执行计划分成map->shuffle->reduce->map->shuffle->reduce…的模型。如果一个Query会被编译成多轮MapReduce,则会有更多的写中间结果。由于MapReduce执行框架本身的特性,过多的中间过程会降低整个Query的执行时间。在Hive的运行过程中,用户只须要创建表,导入数据,编写SQL剖析句子即可。剩下的过程由Hive框架手动的完成。
Impala是对Hive的一个补充,可以实现高效的SQL查询。使用Impala来实现SQL on Hadoop,用来进行大数据实时查询剖析。通过熟悉的传统关系型数据库的SQL风格来操作大数据,同时数据也是可以储存到HDFS和HBase中的。Impala没有再使用平缓的Hive+MapReduce批处理,而是通过使用与商用并行关系数据库中类似的分布式查询引擎(由Query Planner、Query Coordinator和Query Exec Engine三部份组成),可以直接从HDFS或HBase中用SELECT、JOIN和统计函数查询数据,从而大大增加了延后。Impala将整个查询分成一执行计划树,而不是一连串的MapReduce任务,相比Hive没了MapReduce启动时间。
Hive 适合于长时间的批处理查询剖析,而Impala适合于实时交互式SQL查询,Impala给数据人员提供了快速实验,验证看法的大数据剖析工具,可以先使用Hive进行数据转换处理,之后使用Impala在Hive处理好后的数据集上进行快速的数据剖析。总的来说:Impala把执行计划表现为一棵完整的执行计划树,可以更自然地分发执行计划到各个Impalad执行查询,而不用象Hive那样把它组合成管道型的map->reduce模式,以此保证Impala有更好的并发性和防止不必要的中间sort与shuffle。但是Impala不支持UDF,能处理的问题有一定的限制。
Spark拥有Hadoop MapReduce所具有的特征,它将Job中间输出结果保存在显存中,从而不需要读取HDFS。Spark 启用了显存分布数据集,除了才能提供交互式查询外,它还可以优化迭代工作负载。Spark 是在 Scala 语言中实现的,它将 Scala 用作其应用程序框架。与 Hadoop 不同,Spark 和 Scala 能够紧密集成,其中的 Scala 可以象操作本地集合对象一样轻松地操作分布式数据集。
Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具,包括全文搜索和Web爬虫。
Solr用Java编撰、运行在Servlet容器(如Apache Tomcat或Jetty)的一个独立的企业级搜索应用的全文搜索服务器。它对外提供类似于Web-service的API接口,用户可以通过http请求,向搜索引擎服务器递交一定格式的XML文件,生成索引;也可以通过Http Get操作提出查找恳求,并得到XML格式的返回结果。
Elasticsearch是一个开源的全文搜索引擎,基于Lucene的搜索服务器,可以快速的存储、搜索和剖析海量的数据。设计用于云估算中,能够达到实时搜索,稳定,可靠,快速,安装使用便捷。
还涉及到一些机器学习语言,比如,Mahout主要目标是创建一些可伸缩的机器学习算法,供开发人员在Apache的许可下免费使用;深度学习框架Caffe以及使用数据流图进行数值估算的开源软件库TensorFlow等,常用的机器学习算法例如,贝叶斯、逻辑回归、决策树、神经网路、协同过滤等。
五、数据可视化
对接一些BI平台,将剖析得到的数据进行可视化,用于指导决策服务。主流的BI平台例如,国外的敏捷BI Tableau、Qlikview、PowrerBI等,国内的SmallBI和新兴的网易有数(可点击这儿免费试用)等。
在前面的每一个阶段,保障数据的安全是不可忽略的问题。
基于网路身分认证的合同Kerberos,用来在非安全网路中,对个人通讯以安全的手段进行身分认证,它容许某实体在非安全网路环境下通讯,向另一个实体以一种安全的方法证明自己的身分。
控制权限的ranger是一个Hadoop集群权限框架,提供操作、监控、管理复杂的数据权限,它提供一个集中的管理机制,管理基于yarn的Hadoop生态圈的所有数据权限。可以对Hadoop生态的组件如Hive,Hbase进行细细度的数据访问控制。通过操作Ranger控制台,管理员可以轻松的通过配置策略来控制用户访问HDFS文件夹、HDFS文件、数据库、表、字段权限。这些策略可以为不同的用户和组来设置,同时权限可与hadoop无缝对接。
大数据技术栈概貌
博客
Java技术库房《Java程序员复习指南》
整合全网优质Java学习内容,帮助你从基础到进阶系统化备考Java
面试指南
全网最热的Java笔试手册,共200多页,非常实用,不管是用于备考还是打算笔试都是不错的。 查看全部

近几年,市场上出现了好多和大数据相关的岗位,不管是数据剖析、数据挖掘,或者是数据研制,都是围绕着大数据来做事情,那么,到底哪些是大数据,就是我们每一个要学习大数据技术的同学要了解的事情了,根据百度百科的介绍
大数据(big data),IT行业术语,是指未能在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是须要新处理模式能够具有更强的决策力、洞察发觉力和流程优化能力的海量、高增长率和多元化的信息资产。
在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编撰的《大数据时代》 [1] 中大数据指不用随机分析法(抽样调查)这样捷径,而采用所有数据进行剖析处理。大数据的5V特征(IBM提出):Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)。 [2]思维导图
大数据的概念比较具象,而大数据技术栈的庞大程度将使你叹为观止。
大数据技术的体系庞大且复杂,基础的技术包含数据的采集、数据预处理、分布式存储、NoSQL数据库、数据库房、机器学习、并行估算、可视化等各类技术范畴和不同的技术层面。首先给出一个通用化的大数据处理框架,主要分为下边几个方面:数据采集与预处理、数据储存、数据清洗、数据查询剖析和数据可视化。

一、数据采集与预处理
对于各类来源的数据,包括联通互联网数据、社交网络的数据等,这些结构化和非结构化的海量数据是零散的,也就是所谓的数据孤岛,此时的那些数据并没有哪些意义,数据采集就是将这种数据写入数据库房中,把零散的数据整合在一起,对那些数据综合上去进行剖析。数据采集包括文件日志的采集、数据库日志的采集、关系型数据库的接入和应用程序的接入等。在数据量比较小的时侯,可以写个定时的脚本将日志写入储存系统,但随着数据量的下降,这些方式难以提供数据安全保障,并且运维困难,需要更健壮的解决方案。
Flume NG作为实时日志搜集系统,支持在日志系统中订制各种数据发送方,用于搜集数据,同时,对数据进行简单处理,并讲到各类数据接收方(比如文本,HDFS,Hbase等)。Flume NG采用的是三层架构:Agent层,Collector层和Store层,每一层均可水平拓展。其中Agent包含Source,Channel和 Sink,source拿来消费(收集)数据源到channel组件中,channel作为中间临时储存,保存所有source的组件信息,sink从channel中读取数据,读取成功以后会删掉channel中的信息。
NDC,Netease Data Canal,直译为网易数据运河系统,是网易针对结构化数据库的数据实时迁移、同步和订阅的平台化解决方案。它整合了网易过去在数据传输领域的各类工具和经验,将单机数据库、分布式数据库、OLAP系统以及下游应用通过数据链路串在一起。除了保障高效的数据传输外,NDC的设计遵守了单元化和平台化的设计哲学。
Logstash是开源的服务器端数据处理管线,能够同时从多个来源采集数据、转换数据,然后将数据发送到您最喜欢的 “存储库” 中。一般常用的储存库是Elasticsearch。Logstash 支持各类输入选择,可以在同一时间从众多常用的数据来源捕捉风波,能够以连续的流式传输方法,轻松地从您的日志、指标、Web 应用、数据储存以及各类 AWS 服务采集数据。
Sqoop,用来将关系型数据库和Hadoop中的数据进行互相转移的工具,可以将一个关系型数据库(例如Mysql、Oracle)中的数据导出到Hadoop(例如HDFS、Hive、Hbase)中,也可以将Hadoop(例如HDFS、Hive、Hbase)中的数据导出到关系型数据库(例如Mysql、Oracle)中。Sqoop 启用了一个 MapReduce 作业(极其容错的分布式并行估算)来执行任务。Sqoop 的另一大优势是其传输大量结构化或半结构化数据的过程是完全自动化的。
流式估算是行业研究的一个热点,流式估算对多个高吞吐量的数据源进行实时的清洗、聚合和剖析,可以对存在于社交网站、新闻等的数据信息流进行快速的处理并反馈,目前大数据流剖析工具有很多,比如开源的strom,spark streaming等。
Strom集群结构是有一个主节点(nimbus)和多个工作节点(supervisor)组成的主从结构,主节点通过配置静态指定或则在运行时动态补选,nimbus与supervisor都是Storm提供的后台守护进程,之间的通讯是结合Zookeeper的状态变更通知和监控通知来处理。nimbus进程的主要职责是管理、协调和监控集群上运行的topology(包括topology的发布、任务委派、事件处理时重新委派任务等)。supervisor进程等待nimbus分配任务后生成并监控worker(jvm进程)执行任务。supervisor与worker运行在不同的jvm上,如果由supervisor启动的某个worker由于错误异常退出(或被kill掉),supervisor会尝试重新生成新的worker进程。
当使用上游模块的数据进行估算、统计、分析时,就可以使用消息系统,尤其是分布式消息系统。Kafka使用Scala进行编撰,是一种分布式的、基于发布/订阅的消息系统。Kafka的设计理念之一就是同时提供离线处理和实时处理,以及将数据实时备份到另一个数据中心,Kafka可以有许多的生产者和消费者分享多个主题,将消息以topic为单位进行归纳;Kafka发布消息的程序称为producer,也叫生产者,预订topics并消费消息的程序称为consumer,也叫消费者;当Kafka以集群的形式运行时,可以由一个服务或则多个服务组成,每个服务称作一个broker,运行过程中producer通过网路将消息发送到Kafka集群,集群向消费者提供消息。Kafka通过Zookeeper管理集群配置,选举leader,以及在Consumer Group发生变化时进行rebalance。Producer使用push模式将消息发布到broker,Consumer使用pull模式从broker订阅并消费消息。Kafka可以和Flume一起工作,如果须要将流式数据从Kafka转移到hadoop,可以使用Flume代理agent,将Kafka当作一个来源source,这样可以从Kafka读取数据到Hadoop。
Zookeeper是一个分布式的,开放源码的分布式应用程序协调服务,提供数据同步服务。它的作用主要有配置管理、名字服务、分布式锁和集群管理。配置管理指的是在一个地方更改了配置,那么对这个地方的配置感兴趣的所有的都可以获得变更,省去了自动拷贝配置的冗长,还挺好的保证了数据的可靠和一致性,同时它可以通过名子来获取资源或则服务的地址等信息全网文章采集软件,可以监控集群中机器的变化全网文章采集软件,实现了类似于脉搏机制的功能。
二、数据储存
Hadoop作为一个开源的框架,专为离线和大规模数据剖析而设计,HDFS作为其核心的储存引擎,已被广泛用于数据储存。
HBase,是一个分布式的、面向列的开源数据库,可以觉得是hdfs的封装,本质是数据储存、NoSQL数据库。HBase是一种Key/Value系统,部署在hdfs上,克服了hdfs在随机读写这个方面的缺点,与hadoop一样,Hbase目标主要借助纵向扩充,通过不断降低廉价的商用服务器,来降低估算和储存能力。
Phoenix,相当于一个Java中间件,帮助开发工程师才能象使用JDBC访问关系型数据库一样访问NoSQL数据库HBase。
Yarn是一种Hadoop资源管理器,可为下层应用提供统一的资源管理和调度,它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大益处。Yarn由下边的几大组件构成:一个全局的资源管理器ResourceManager、ResourceManager的每位节点代理NodeManager、表示每位应用的Application以及每一个ApplicationMaster拥有多个Container在NodeManager上运行。
Mesos是一款开源的集群管理软件,支持Hadoop、ElasticSearch、Spark、Storm 和Kafka等应用构架。
Redis是一种速率十分快的非关系数据库,可以储存键与5种不同类型的值之间的映射,可以将储存在显存的通配符对数据持久化到硬碟中,使用复制特点来扩充性能,还可以使用客户端分片来扩充写性能。
Atlas是一个坐落应用程序与MySQL之间的中间件。在前端DB看来,Atlas相当于联接它的客户端,在后端应用看来,Atlas相当于一个DB。Atlas作为服务端与应用程序通信,它实现了MySQL的客户端和服务端合同,同时作为客户端与MySQL通信。它对应用程序屏蔽了DB的细节,同时为了增加MySQL负担,它还维护了连接池。Atlas启动后会创建多个线程,其中一个为主线程,其余为工作线程。主线程负责窃听所有的客户端联接恳求,工作线程只窃听主线程的命令恳求。
Kudu是围绕Hadoop生态圈构建的储存引擎,Kudu拥有和Hadoop生态圈共同的设计理念,它运行在普通的服务器上、可分布式规模化布署、并且满足工业界的高可用要求。其设计理念为fast analytics on fast data。作为一个开源的储存引擎,可以同时提供低延后的随机读写和高效的数据剖析能力。Kudu不但提供了行级的插入、更新、删除API,同时也提供了接近Parquet性能的批量扫描操作。使用同一份储存,既可以进行随机读写,也可以满足数据剖析的要求。Kudu的应用场景太广泛,比如可以进行实时的数据剖析,用于数据可能会存在变化的时序数据应用等。
在数据储存过程中,涉及到的数据表都是成千上百列,包含各类复杂的Query,推荐使用列式储存方式,比如parquent,ORC等对数据进行压缩。Parquet 可以支持灵活的压缩选项,显著减低c盘上的储存。
三、数据清洗
MapReduce作为Hadoop的查询引擎,用于大规模数据集的并行估算,”Map(映射)”和”Reduce(归约)”,是它的主要思想。它极大的便捷了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统中。
随着业务数据量的增多,需要进行训练和清洗的数据会显得越来越复杂,这个时侯就须要任务调度系统,比如oozie或则azkaban,对关键任务进行调度和监控。
Oozie是用于Hadoop平台的一种工作流调度引擎,提供了RESTful API接口来接受用户的递交恳求(提交工作流作业),当递交了workflow后,由工作流引擎负责workflow的执行以及状态的转换。用户在HDFS上布署好作业(MR作业),然后向Oozie递交Workflow,Oozie以异步方法将作业(MR作业)提交给Hadoop。这也是为何当调用Oozie 的RESTful插口递交作业以后能立刻返回一个JobId的缘由,用户程序毋须等待作业执行完成(因为有些大作业可能会执行许久(几个小时甚至几天))。Oozie在后台以异步方法,再将workflow对应的Action递交给hadoop执行。
Azkaban也是一种工作流的控制引擎,可以拿来解决有多个hadoop或则spark等离线估算任务之间的依赖关系问题。azkaban主要是由三部份构成:Relational Database,Azkaban Web Server和Azkaban Executor Server。azkaban将大多数的状态信息都保存在MySQL中,Azkaban Web Server提供了Web UI,是azkaban主要的管理者,包括project的管理、认证、调度以及对工作流执行过程中的监控等;Azkaban Executor Server拿来调度工作流和任务,记录工作流或则任务的日志。
流计算任务的处理平台Sloth,是网易首个自研流计算平台,旨在解决公司内各产品日渐下降的流计算需求。作为一个估算服务平台,其特征是易用、实时、可靠,为用户节约技术方面(开发、运维)的投入,帮助用户专注于解决产品本身的流计算需求。
四、数据查询剖析
Hive的核心工作就是把SQL句子翻译成MR程序,可以将结构化的数据映射为一张数据库表,并提供 HQL(Hive SQL)查询功能。Hive本身不储存和估算数据,它完全依赖于HDFS和MapReduce。可以将Hive理解为一个客户端工具,将SQL操作转换为相应的MapReduce jobs,然后在hadoop里面运行。Hive支持标准的SQL句型,免去了用户编撰MapReduce程序的过程,它的出现可以使这些精通SQL技能、但是不熟悉MapReduce 、编程能力较弱与不擅长Java语言的用户才能在HDFS大规模数据集上很方便地借助SQL 语言查询、汇总、分析数据。
Hive是为大数据批量处理而生的,Hive的出现解决了传统的关系型数据库(MySql、Oracle)在大数据处理上的困局 。Hive 将执行计划分成map->shuffle->reduce->map->shuffle->reduce…的模型。如果一个Query会被编译成多轮MapReduce,则会有更多的写中间结果。由于MapReduce执行框架本身的特性,过多的中间过程会降低整个Query的执行时间。在Hive的运行过程中,用户只须要创建表,导入数据,编写SQL剖析句子即可。剩下的过程由Hive框架手动的完成。
Impala是对Hive的一个补充,可以实现高效的SQL查询。使用Impala来实现SQL on Hadoop,用来进行大数据实时查询剖析。通过熟悉的传统关系型数据库的SQL风格来操作大数据,同时数据也是可以储存到HDFS和HBase中的。Impala没有再使用平缓的Hive+MapReduce批处理,而是通过使用与商用并行关系数据库中类似的分布式查询引擎(由Query Planner、Query Coordinator和Query Exec Engine三部份组成),可以直接从HDFS或HBase中用SELECT、JOIN和统计函数查询数据,从而大大增加了延后。Impala将整个查询分成一执行计划树,而不是一连串的MapReduce任务,相比Hive没了MapReduce启动时间。
Hive 适合于长时间的批处理查询剖析,而Impala适合于实时交互式SQL查询,Impala给数据人员提供了快速实验,验证看法的大数据剖析工具,可以先使用Hive进行数据转换处理,之后使用Impala在Hive处理好后的数据集上进行快速的数据剖析。总的来说:Impala把执行计划表现为一棵完整的执行计划树,可以更自然地分发执行计划到各个Impalad执行查询,而不用象Hive那样把它组合成管道型的map->reduce模式,以此保证Impala有更好的并发性和防止不必要的中间sort与shuffle。但是Impala不支持UDF,能处理的问题有一定的限制。
Spark拥有Hadoop MapReduce所具有的特征,它将Job中间输出结果保存在显存中,从而不需要读取HDFS。Spark 启用了显存分布数据集,除了才能提供交互式查询外,它还可以优化迭代工作负载。Spark 是在 Scala 语言中实现的,它将 Scala 用作其应用程序框架。与 Hadoop 不同,Spark 和 Scala 能够紧密集成,其中的 Scala 可以象操作本地集合对象一样轻松地操作分布式数据集。
Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具,包括全文搜索和Web爬虫。
Solr用Java编撰、运行在Servlet容器(如Apache Tomcat或Jetty)的一个独立的企业级搜索应用的全文搜索服务器。它对外提供类似于Web-service的API接口,用户可以通过http请求,向搜索引擎服务器递交一定格式的XML文件,生成索引;也可以通过Http Get操作提出查找恳求,并得到XML格式的返回结果。
Elasticsearch是一个开源的全文搜索引擎,基于Lucene的搜索服务器,可以快速的存储、搜索和剖析海量的数据。设计用于云估算中,能够达到实时搜索,稳定,可靠,快速,安装使用便捷。
还涉及到一些机器学习语言,比如,Mahout主要目标是创建一些可伸缩的机器学习算法,供开发人员在Apache的许可下免费使用;深度学习框架Caffe以及使用数据流图进行数值估算的开源软件库TensorFlow等,常用的机器学习算法例如,贝叶斯、逻辑回归、决策树、神经网路、协同过滤等。
五、数据可视化
对接一些BI平台,将剖析得到的数据进行可视化,用于指导决策服务。主流的BI平台例如,国外的敏捷BI Tableau、Qlikview、PowrerBI等,国内的SmallBI和新兴的网易有数(可点击这儿免费试用)等。
在前面的每一个阶段,保障数据的安全是不可忽略的问题。
基于网路身分认证的合同Kerberos,用来在非安全网路中,对个人通讯以安全的手段进行身分认证,它容许某实体在非安全网路环境下通讯,向另一个实体以一种安全的方法证明自己的身分。
控制权限的ranger是一个Hadoop集群权限框架,提供操作、监控、管理复杂的数据权限,它提供一个集中的管理机制,管理基于yarn的Hadoop生态圈的所有数据权限。可以对Hadoop生态的组件如Hive,Hbase进行细细度的数据访问控制。通过操作Ranger控制台,管理员可以轻松的通过配置策略来控制用户访问HDFS文件夹、HDFS文件、数据库、表、字段权限。这些策略可以为不同的用户和组来设置,同时权限可与hadoop无缝对接。
大数据技术栈概貌

Java技术库房《Java程序员复习指南》
整合全网优质Java学习内容,帮助你从基础到进阶系统化备考Java
面试指南
全网最热的Java笔试手册,共200多页,非常实用,不管是用于备考还是打算笔试都是不错的。
五分钟学前端技术:一篇文章教你看懂大数据技术栈!
采集交流 • 优采云 发表了文章 • 0 个评论 • 434 次浏览 • 2020-04-02 11:04
近几年,市场上出现了好多和大数据相关的岗位,不管是数据剖析、数据挖掘,或者是数据研制,都是围绕着大数据来做事情,那么,到底哪些是大数据,就是我们每一个要学习大数据技术的同学要了解的事情了,根据百度百科的介绍
大数据(big data),IT行业术语,是指未能在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是须要新处理模式能够具有更强的决策力、洞察发觉力和流程优化能力的海量、高增长率和多元化的信息资产。
在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编撰的《大数据时代》 [1] 中大数据指不用随机分析法(抽样调查)这样捷径,而采用所有数据进行剖析处理。大数据的5V特征(IBM提出):Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)。 [2]思维导图
大数据方面核心技术有什么?
大数据的概念比较具象,而大数据技术栈的庞大程度将使你叹为观止。
大数据技术的体系庞大且复杂,基础的技术包含数据的采集、数据预处理、分布式存储、NoSQL数据库、数据库房、机器学习、并行估算、可视化等各类技术范畴和不同的技术层面。首先给出一个通用化的大数据处理框架,主要分为下边几个方面:数据采集与预处理、数据储存、数据清洗、数据查询剖析和数据可视化。
一、数据采集与预处理
对于各类来源的数据,包括联通互联网数据、社交网络的数据等,这些结构化和非结构化的海量数据是零散的,也就是所谓的数据孤岛,此时的那些数据并没有哪些意义,数据采集就是将这种数据写入数据库房中,把零散的数据整合在一起,对那些数据综合上去进行剖析。数据采集包括文件日志的采集、数据库日志的采集、关系型数据库的接入和应用程序的接入等。在数据量比较小的时侯,可以写个定时的脚本将日志写入储存系统,但随着数据量的下降,这些方式难以提供数据安全保障,并且运维困难,需要更健壮的解决方案。
Flume NG作为实时日志搜集系统,支持在日志系统中订制各种数据发送方,用于搜集数据,同时,对数据进行简单处理,并讲到各类数据接收方(比如文本,HDFS,Hbase等)。Flume NG采用的是三层架构:Agent层,Collector层和Store层,每一层均可水平拓展。其中Agent包含Source,Channel和 Sink,source拿来消费(收集)数据源到channel组件中,channel作为中间临时储存,保存所有source的组件信息,sink从channel中读取数据,读取成功以后会删掉channel中的信息。
NDC,Netease Data Canal,直译为网易数据运河系统,是网易针对结构化数据库的数据实时迁移、同步和订阅的平台化解决方案。它整合了网易过去在数据传输领域的各类工具和经验,将单机数据库、分布式数据库、OLAP系统以及下游应用通过数据链路串在一起。除了保障高效的数据传输外,NDC的设计遵守了单元化和平台化的设计哲学。
Logstash是开源的服务器端数据处理管线,能够同时从多个来源采集数据、转换数据,然后将数据发送到您最喜欢的 “存储库” 中。一般常用的储存库是Elasticsearch。Logstash 支持各类输入选择,可以在同一时间从众多常用的数据来源捕捉风波,能够以连续的流式传输方法,轻松地从您的日志、指标、Web 应用、数据储存以及各类 AWS 服务采集数据。
Sqoop,用来将关系型数据库和Hadoop中的数据进行互相转移的工具,可以将一个关系型数据库(例如Mysql、Oracle)中的数据导出到Hadoop(例如HDFS、Hive、Hbase)中,也可以将Hadoop(例如HDFS、Hive、Hbase)中的数据导出到关系型数据库(例如Mysql、Oracle)中。Sqoop 启用了一个 MapReduce 作业(极其容错的分布式并行估算)来执行任务。Sqoop 的另一大优势是其传输大量结构化或半结构化数据的过程是完全自动化的。
流式估算是行业研究的一个热点,流式估算对多个高吞吐量的数据源进行实时的清洗、聚合和剖析,可以对存在于社交网站、新闻等的数据信息流进行快速的处理并反馈,目前大数据流剖析工具有很多,比如开源的strom,spark streaming等。
Strom集群结构是有一个主节点(nimbus)和多个工作节点(supervisor)组成的主从结构,主节点通过配置静态指定或则在运行时动态补选,nimbus与supervisor都是Storm提供的后台守护进程,之间的通讯是结合Zookeeper的状态变更通知和监控通知来处理。nimbus进程的主要职责是管理、协调和监控集群上运行的topology(包括topology的发布、任务委派、事件处理时重新委派任务等)。supervisor进程等待nimbus分配任务后生成并监控worker(jvm进程)执行任务。supervisor与worker运行在不同的jvm上,如果由supervisor启动的某个worker由于错误异常退出(或被kill掉),supervisor会尝试重新生成新的worker进程。
当使用上游模块的数据进行估算、统计、分析时,就可以使用消息系统,尤其是分布式消息系统。Kafka使用Scala进行编撰,是一种分布式的、基于发布/订阅的消息系统。Kafka的设计理念之一就是同时提供离线处理和实时处理,以及将数据实时备份到另一个数据中心,Kafka可以有许多的生产者和消费者分享多个主题,将消息以topic为单位进行归纳;Kafka发布消息的程序称为producer,也叫生产者,预订topics并消费消息的程序称为consumer,也叫消费者;当Kafka以集群的形式运行时,可以由一个服务或则多个服务组成,每个服务称作一个broker,运行过程中producer通过网路将消息发送到Kafka集群,集群向消费者提供消息。Kafka通过Zookeeper管理集群配置,选举leader,以及在Consumer Group发生变化时进行rebalance。Producer使用push模式将消息发布到broker,Consumer使用pull模式从broker订阅并消费消息。Kafka可以和Flume一起工作,如果须要将流式数据从Kafka转移到hadoop,可以使用Flume代理agent,将Kafka当作一个来源source,这样可以从Kafka读取数据到Hadoop。
Zookeeper是一个分布式的,开放源码的分布式应用程序协调服务,提供数据同步服务。它的作用主要有配置管理、名字服务、分布式锁和集群管理。配置管理指的是在一个地方更改了配置,那么对这个地方的配置感兴趣的所有的都可以获得变更,省去了自动拷贝配置的冗长,还挺好的保证了数据的可靠和一致性,同时它可以通过名子来获取资源或则服务的地址等信息全网文章采集软件,可以监控集群中机器的变化全网文章采集软件,实现了类似于脉搏机制的功能。
二、数据储存
Hadoop作为一个开源的框架,专为离线和大规模数据剖析而设计,HDFS作为其核心的储存引擎,已被广泛用于数据储存。
HBase,是一个分布式的、面向列的开源数据库,可以觉得是hdfs的封装,本质是数据储存、NoSQL数据库。HBase是一种Key/Value系统,部署在hdfs上,克服了hdfs在随机读写这个方面的缺点,与hadoop一样,Hbase目标主要借助纵向扩充,通过不断降低廉价的商用服务器,来降低估算和储存能力。
Phoenix,相当于一个Java中间件,帮助开发工程师才能象使用JDBC访问关系型数据库一样访问NoSQL数据库HBase。
Yarn是一种Hadoop资源管理器,可为下层应用提供统一的资源管理和调度,它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大益处。Yarn由下边的几大组件构成:一个全局的资源管理器ResourceManager、ResourceManager的每位节点代理NodeManager、表示每位应用的Application以及每一个ApplicationMaster拥有多个Container在NodeManager上运行。
Mesos是一款开源的集群管理软件,支持Hadoop、ElasticSearch、Spark、Storm 和Kafka等应用构架。
Redis是一种速率十分快的非关系数据库,可以储存键与5种不同类型的值之间的映射,可以将储存在显存的通配符对数据持久化到硬碟中,使用复制特点来扩充性能,还可以使用客户端分片来扩充写性能。
Atlas是一个坐落应用程序与MySQL之间的中间件。在前端DB看来,Atlas相当于联接它的客户端,在后端应用看来,Atlas相当于一个DB。Atlas作为服务端与应用程序通信,它实现了MySQL的客户端和服务端合同,同时作为客户端与MySQL通信。它对应用程序屏蔽了DB的细节,同时为了增加MySQL负担,它还维护了连接池。Atlas启动后会创建多个线程,其中一个为主线程,其余为工作线程。主线程负责窃听所有的客户端联接恳求,工作线程只窃听主线程的命令恳求。
Kudu是围绕Hadoop生态圈构建的储存引擎,Kudu拥有和Hadoop生态圈共同的设计理念,它运行在普通的服务器上、可分布式规模化布署、并且满足工业界的高可用要求。其设计理念为fast analytics on fast data。作为一个开源的储存引擎,可以同时提供低延后的随机读写和高效的数据剖析能力。Kudu不但提供了行级的插入、更新、删除API,同时也提供了接近Parquet性能的批量扫描操作。使用同一份储存,既可以进行随机读写,也可以满足数据剖析的要求。Kudu的应用场景太广泛,比如可以进行实时的数据剖析,用于数据可能会存在变化的时序数据应用等。
在数据储存过程中,涉及到的数据表都是成千上百列,包含各类复杂的Query,推荐使用列式储存方式,比如parquent,ORC等对数据进行压缩。Parquet 可以支持灵活的压缩选项,显著减低c盘上的储存。
三、数据清洗
MapReduce作为Hadoop的查询引擎,用于大规模数据集的并行估算,”Map(映射)”和”Reduce(归约)”,是它的主要思想。它极大的便捷了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统中。
随着业务数据量的增多,需要进行训练和清洗的数据会显得越来越复杂,这个时侯就须要任务调度系统,比如oozie或则azkaban,对关键任务进行调度和监控。
Oozie是用于Hadoop平台的一种工作流调度引擎,提供了RESTful API接口来接受用户的递交恳求(提交工作流作业),当递交了workflow后,由工作流引擎负责workflow的执行以及状态的转换。用户在HDFS上布署好作业(MR作业),然后向Oozie递交Workflow,Oozie以异步方法将作业(MR作业)提交给Hadoop。这也是为何当调用Oozie 的RESTful插口递交作业以后能立刻返回一个JobId的缘由,用户程序毋须等待作业执行完成(因为有些大作业可能会执行许久(几个小时甚至几天))。Oozie在后台以异步方法,再将workflow对应的Action递交给hadoop执行。
Azkaban也是一种工作流的控制引擎,可以拿来解决有多个hadoop或则spark等离线估算任务之间的依赖关系问题。azkaban主要是由三部份构成:Relational Database,Azkaban Web Server和Azkaban Executor Server。azkaban将大多数的状态信息都保存在MySQL中,Azkaban Web Server提供了Web UI,是azkaban主要的管理者,包括project的管理、认证、调度以及对工作流执行过程中的监控等;Azkaban Executor Server拿来调度工作流和任务,记录工作流或则任务的日志。
流计算任务的处理平台Sloth,是网易首个自研流计算平台,旨在解决公司内各产品日渐下降的流计算需求。作为一个估算服务平台,其特征是易用、实时、可靠,为用户节约技术方面(开发、运维)的投入,帮助用户专注于解决产品本身的流计算需求。
四、数据查询剖析
Hive的核心工作就是把SQL句子翻译成MR程序,可以将结构化的数据映射为一张数据库表,并提供 HQL(Hive SQL)查询功能。Hive本身不储存和估算数据,它完全依赖于HDFS和MapReduce。可以将Hive理解为一个客户端工具,将SQL操作转换为相应的MapReduce jobs,然后在hadoop里面运行。Hive支持标准的SQL句型,免去了用户编撰MapReduce程序的过程,它的出现可以使这些精通SQL技能、但是不熟悉MapReduce 、编程能力较弱与不擅长Java语言的用户才能在HDFS大规模数据集上很方便地借助SQL 语言查询、汇总、分析数据。
Hive是为大数据批量处理而生的,Hive的出现解决了传统的关系型数据库(MySql、Oracle)在大数据处理上的困局 。Hive 将执行计划分成map->shuffle->reduce->map->shuffle->reduce…的模型。如果一个Query会被编译成多轮MapReduce,则会有更多的写中间结果。由于MapReduce执行框架本身的特性,过多的中间过程会降低整个Query的执行时间。在Hive的运行过程中,用户只须要创建表,导入数据,编写SQL剖析句子即可。剩下的过程由Hive框架手动的完成。
Impala是对Hive的一个补充,可以实现高效的SQL查询。使用Impala来实现SQL on Hadoop,用来进行大数据实时查询剖析。通过熟悉的传统关系型数据库的SQL风格来操作大数据,同时数据也是可以储存到HDFS和HBase中的。Impala没有再使用平缓的Hive+MapReduce批处理,而是通过使用与商用并行关系数据库中类似的分布式查询引擎(由Query Planner、Query Coordinator和Query Exec Engine三部份组成),可以直接从HDFS或HBase中用SELECT、JOIN和统计函数查询数据,从而大大增加了延后。Impala将整个查询分成一执行计划树,而不是一连串的MapReduce任务,相比Hive没了MapReduce启动时间。
Hive 适合于长时间的批处理查询剖析,而Impala适合于实时交互式SQL查询,Impala给数据人员提供了快速实验,验证看法的大数据剖析工具,可以先使用Hive进行数据转换处理,之后使用Impala在Hive处理好后的数据集上进行快速的数据剖析。总的来说:Impala把执行计划表现为一棵完整的执行计划树,可以更自然地分发执行计划到各个Impalad执行查询,而不用象Hive那样把它组合成管道型的map->reduce模式,以此保证Impala有更好的并发性和防止不必要的中间sort与shuffle。但是Impala不支持UDF,能处理的问题有一定的限制。
Spark拥有Hadoop MapReduce所具有的特征,它将Job中间输出结果保存在显存中,从而不需要读取HDFS。Spark 启用了显存分布数据集,除了才能提供交互式查询外,它还可以优化迭代工作负载。Spark 是在 Scala 语言中实现的,它将 Scala 用作其应用程序框架。与 Hadoop 不同,Spark 和 Scala 能够紧密集成,其中的 Scala 可以象操作本地集合对象一样轻松地操作分布式数据集。
Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具,包括全文搜索和Web爬虫。
Solr用Java编撰、运行在Servlet容器(如Apache Tomcat或Jetty)的一个独立的企业级搜索应用的全文搜索服务器。它对外提供类似于Web-service的API接口,用户可以通过http请求,向搜索引擎服务器递交一定格式的XML文件,生成索引;也可以通过Http Get操作提出查找恳求,并得到XML格式的返回结果。
Elasticsearch是一个开源的全文搜索引擎,基于Lucene的搜索服务器,可以快速的存储、搜索和剖析海量的数据。设计用于云估算中,能够达到实时搜索,稳定,可靠,快速,安装使用便捷。
还涉及到一些机器学习语言,比如,Mahout主要目标是创建一些可伸缩的机器学习算法,供开发人员在Apache的许可下免费使用;深度学习框架Caffe以及使用数据流图进行数值估算的开源软件库TensorFlow等,常用的机器学习算法例如,贝叶斯、逻辑回归、决策树、神经网路、协同过滤等。
五、数据可视化
对接一些BI平台,将剖析得到的数据进行可视化,用于指导决策服务。主流的BI平台例如,国外的敏捷BI Tableau、Qlikview、PowrerBI等,国内的SmallBI和新兴的网易有数(可点击这儿免费试用)等。
在前面的每一个阶段,保障数据的安全是不可忽略的问题。
基于网路身分认证的合同Kerberos,用来在非安全网路中,对个人通讯以安全的手段进行身分认证,它容许某实体在非安全网路环境下通讯,向另一个实体以一种安全的方法证明自己的身分。
控制权限的ranger是一个Hadoop集群权限框架,提供操作、监控、管理复杂的数据权限,它提供一个集中的管理机制,管理基于yarn的Hadoop生态圈的所有数据权限。可以对Hadoop生态的组件如Hive,Hbase进行细细度的数据访问控制。通过操作Ranger控制台,管理员可以轻松的通过配置策略来控制用户访问HDFS文件夹、HDFS文件、数据库、表、字段权限。这些策略可以为不同的用户和组来设置,同时权限可与hadoop无缝对接。
大数据技术栈概貌
博客
Java技术库房《Java程序员复习指南》
整合全网优质Java学习内容,帮助你从基础到进阶系统化备考Java
面试指南
全网最热的Java笔试手册,共200多页,非常实用,不管是用于备考还是打算笔试都是不错的。 查看全部

近几年,市场上出现了好多和大数据相关的岗位,不管是数据剖析、数据挖掘,或者是数据研制,都是围绕着大数据来做事情,那么,到底哪些是大数据,就是我们每一个要学习大数据技术的同学要了解的事情了,根据百度百科的介绍
大数据(big data),IT行业术语,是指未能在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是须要新处理模式能够具有更强的决策力、洞察发觉力和流程优化能力的海量、高增长率和多元化的信息资产。
在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编撰的《大数据时代》 [1] 中大数据指不用随机分析法(抽样调查)这样捷径,而采用所有数据进行剖析处理。大数据的5V特征(IBM提出):Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)。 [2]思维导图
大数据的概念比较具象,而大数据技术栈的庞大程度将使你叹为观止。
大数据技术的体系庞大且复杂,基础的技术包含数据的采集、数据预处理、分布式存储、NoSQL数据库、数据库房、机器学习、并行估算、可视化等各类技术范畴和不同的技术层面。首先给出一个通用化的大数据处理框架,主要分为下边几个方面:数据采集与预处理、数据储存、数据清洗、数据查询剖析和数据可视化。

一、数据采集与预处理
对于各类来源的数据,包括联通互联网数据、社交网络的数据等,这些结构化和非结构化的海量数据是零散的,也就是所谓的数据孤岛,此时的那些数据并没有哪些意义,数据采集就是将这种数据写入数据库房中,把零散的数据整合在一起,对那些数据综合上去进行剖析。数据采集包括文件日志的采集、数据库日志的采集、关系型数据库的接入和应用程序的接入等。在数据量比较小的时侯,可以写个定时的脚本将日志写入储存系统,但随着数据量的下降,这些方式难以提供数据安全保障,并且运维困难,需要更健壮的解决方案。
Flume NG作为实时日志搜集系统,支持在日志系统中订制各种数据发送方,用于搜集数据,同时,对数据进行简单处理,并讲到各类数据接收方(比如文本,HDFS,Hbase等)。Flume NG采用的是三层架构:Agent层,Collector层和Store层,每一层均可水平拓展。其中Agent包含Source,Channel和 Sink,source拿来消费(收集)数据源到channel组件中,channel作为中间临时储存,保存所有source的组件信息,sink从channel中读取数据,读取成功以后会删掉channel中的信息。
NDC,Netease Data Canal,直译为网易数据运河系统,是网易针对结构化数据库的数据实时迁移、同步和订阅的平台化解决方案。它整合了网易过去在数据传输领域的各类工具和经验,将单机数据库、分布式数据库、OLAP系统以及下游应用通过数据链路串在一起。除了保障高效的数据传输外,NDC的设计遵守了单元化和平台化的设计哲学。
Logstash是开源的服务器端数据处理管线,能够同时从多个来源采集数据、转换数据,然后将数据发送到您最喜欢的 “存储库” 中。一般常用的储存库是Elasticsearch。Logstash 支持各类输入选择,可以在同一时间从众多常用的数据来源捕捉风波,能够以连续的流式传输方法,轻松地从您的日志、指标、Web 应用、数据储存以及各类 AWS 服务采集数据。
Sqoop,用来将关系型数据库和Hadoop中的数据进行互相转移的工具,可以将一个关系型数据库(例如Mysql、Oracle)中的数据导出到Hadoop(例如HDFS、Hive、Hbase)中,也可以将Hadoop(例如HDFS、Hive、Hbase)中的数据导出到关系型数据库(例如Mysql、Oracle)中。Sqoop 启用了一个 MapReduce 作业(极其容错的分布式并行估算)来执行任务。Sqoop 的另一大优势是其传输大量结构化或半结构化数据的过程是完全自动化的。
流式估算是行业研究的一个热点,流式估算对多个高吞吐量的数据源进行实时的清洗、聚合和剖析,可以对存在于社交网站、新闻等的数据信息流进行快速的处理并反馈,目前大数据流剖析工具有很多,比如开源的strom,spark streaming等。
Strom集群结构是有一个主节点(nimbus)和多个工作节点(supervisor)组成的主从结构,主节点通过配置静态指定或则在运行时动态补选,nimbus与supervisor都是Storm提供的后台守护进程,之间的通讯是结合Zookeeper的状态变更通知和监控通知来处理。nimbus进程的主要职责是管理、协调和监控集群上运行的topology(包括topology的发布、任务委派、事件处理时重新委派任务等)。supervisor进程等待nimbus分配任务后生成并监控worker(jvm进程)执行任务。supervisor与worker运行在不同的jvm上,如果由supervisor启动的某个worker由于错误异常退出(或被kill掉),supervisor会尝试重新生成新的worker进程。
当使用上游模块的数据进行估算、统计、分析时,就可以使用消息系统,尤其是分布式消息系统。Kafka使用Scala进行编撰,是一种分布式的、基于发布/订阅的消息系统。Kafka的设计理念之一就是同时提供离线处理和实时处理,以及将数据实时备份到另一个数据中心,Kafka可以有许多的生产者和消费者分享多个主题,将消息以topic为单位进行归纳;Kafka发布消息的程序称为producer,也叫生产者,预订topics并消费消息的程序称为consumer,也叫消费者;当Kafka以集群的形式运行时,可以由一个服务或则多个服务组成,每个服务称作一个broker,运行过程中producer通过网路将消息发送到Kafka集群,集群向消费者提供消息。Kafka通过Zookeeper管理集群配置,选举leader,以及在Consumer Group发生变化时进行rebalance。Producer使用push模式将消息发布到broker,Consumer使用pull模式从broker订阅并消费消息。Kafka可以和Flume一起工作,如果须要将流式数据从Kafka转移到hadoop,可以使用Flume代理agent,将Kafka当作一个来源source,这样可以从Kafka读取数据到Hadoop。
Zookeeper是一个分布式的,开放源码的分布式应用程序协调服务,提供数据同步服务。它的作用主要有配置管理、名字服务、分布式锁和集群管理。配置管理指的是在一个地方更改了配置,那么对这个地方的配置感兴趣的所有的都可以获得变更,省去了自动拷贝配置的冗长,还挺好的保证了数据的可靠和一致性,同时它可以通过名子来获取资源或则服务的地址等信息全网文章采集软件,可以监控集群中机器的变化全网文章采集软件,实现了类似于脉搏机制的功能。
二、数据储存
Hadoop作为一个开源的框架,专为离线和大规模数据剖析而设计,HDFS作为其核心的储存引擎,已被广泛用于数据储存。
HBase,是一个分布式的、面向列的开源数据库,可以觉得是hdfs的封装,本质是数据储存、NoSQL数据库。HBase是一种Key/Value系统,部署在hdfs上,克服了hdfs在随机读写这个方面的缺点,与hadoop一样,Hbase目标主要借助纵向扩充,通过不断降低廉价的商用服务器,来降低估算和储存能力。
Phoenix,相当于一个Java中间件,帮助开发工程师才能象使用JDBC访问关系型数据库一样访问NoSQL数据库HBase。
Yarn是一种Hadoop资源管理器,可为下层应用提供统一的资源管理和调度,它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大益处。Yarn由下边的几大组件构成:一个全局的资源管理器ResourceManager、ResourceManager的每位节点代理NodeManager、表示每位应用的Application以及每一个ApplicationMaster拥有多个Container在NodeManager上运行。
Mesos是一款开源的集群管理软件,支持Hadoop、ElasticSearch、Spark、Storm 和Kafka等应用构架。
Redis是一种速率十分快的非关系数据库,可以储存键与5种不同类型的值之间的映射,可以将储存在显存的通配符对数据持久化到硬碟中,使用复制特点来扩充性能,还可以使用客户端分片来扩充写性能。
Atlas是一个坐落应用程序与MySQL之间的中间件。在前端DB看来,Atlas相当于联接它的客户端,在后端应用看来,Atlas相当于一个DB。Atlas作为服务端与应用程序通信,它实现了MySQL的客户端和服务端合同,同时作为客户端与MySQL通信。它对应用程序屏蔽了DB的细节,同时为了增加MySQL负担,它还维护了连接池。Atlas启动后会创建多个线程,其中一个为主线程,其余为工作线程。主线程负责窃听所有的客户端联接恳求,工作线程只窃听主线程的命令恳求。
Kudu是围绕Hadoop生态圈构建的储存引擎,Kudu拥有和Hadoop生态圈共同的设计理念,它运行在普通的服务器上、可分布式规模化布署、并且满足工业界的高可用要求。其设计理念为fast analytics on fast data。作为一个开源的储存引擎,可以同时提供低延后的随机读写和高效的数据剖析能力。Kudu不但提供了行级的插入、更新、删除API,同时也提供了接近Parquet性能的批量扫描操作。使用同一份储存,既可以进行随机读写,也可以满足数据剖析的要求。Kudu的应用场景太广泛,比如可以进行实时的数据剖析,用于数据可能会存在变化的时序数据应用等。
在数据储存过程中,涉及到的数据表都是成千上百列,包含各类复杂的Query,推荐使用列式储存方式,比如parquent,ORC等对数据进行压缩。Parquet 可以支持灵活的压缩选项,显著减低c盘上的储存。
三、数据清洗
MapReduce作为Hadoop的查询引擎,用于大规模数据集的并行估算,”Map(映射)”和”Reduce(归约)”,是它的主要思想。它极大的便捷了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统中。
随着业务数据量的增多,需要进行训练和清洗的数据会显得越来越复杂,这个时侯就须要任务调度系统,比如oozie或则azkaban,对关键任务进行调度和监控。
Oozie是用于Hadoop平台的一种工作流调度引擎,提供了RESTful API接口来接受用户的递交恳求(提交工作流作业),当递交了workflow后,由工作流引擎负责workflow的执行以及状态的转换。用户在HDFS上布署好作业(MR作业),然后向Oozie递交Workflow,Oozie以异步方法将作业(MR作业)提交给Hadoop。这也是为何当调用Oozie 的RESTful插口递交作业以后能立刻返回一个JobId的缘由,用户程序毋须等待作业执行完成(因为有些大作业可能会执行许久(几个小时甚至几天))。Oozie在后台以异步方法,再将workflow对应的Action递交给hadoop执行。
Azkaban也是一种工作流的控制引擎,可以拿来解决有多个hadoop或则spark等离线估算任务之间的依赖关系问题。azkaban主要是由三部份构成:Relational Database,Azkaban Web Server和Azkaban Executor Server。azkaban将大多数的状态信息都保存在MySQL中,Azkaban Web Server提供了Web UI,是azkaban主要的管理者,包括project的管理、认证、调度以及对工作流执行过程中的监控等;Azkaban Executor Server拿来调度工作流和任务,记录工作流或则任务的日志。
流计算任务的处理平台Sloth,是网易首个自研流计算平台,旨在解决公司内各产品日渐下降的流计算需求。作为一个估算服务平台,其特征是易用、实时、可靠,为用户节约技术方面(开发、运维)的投入,帮助用户专注于解决产品本身的流计算需求。
四、数据查询剖析
Hive的核心工作就是把SQL句子翻译成MR程序,可以将结构化的数据映射为一张数据库表,并提供 HQL(Hive SQL)查询功能。Hive本身不储存和估算数据,它完全依赖于HDFS和MapReduce。可以将Hive理解为一个客户端工具,将SQL操作转换为相应的MapReduce jobs,然后在hadoop里面运行。Hive支持标准的SQL句型,免去了用户编撰MapReduce程序的过程,它的出现可以使这些精通SQL技能、但是不熟悉MapReduce 、编程能力较弱与不擅长Java语言的用户才能在HDFS大规模数据集上很方便地借助SQL 语言查询、汇总、分析数据。
Hive是为大数据批量处理而生的,Hive的出现解决了传统的关系型数据库(MySql、Oracle)在大数据处理上的困局 。Hive 将执行计划分成map->shuffle->reduce->map->shuffle->reduce…的模型。如果一个Query会被编译成多轮MapReduce,则会有更多的写中间结果。由于MapReduce执行框架本身的特性,过多的中间过程会降低整个Query的执行时间。在Hive的运行过程中,用户只须要创建表,导入数据,编写SQL剖析句子即可。剩下的过程由Hive框架手动的完成。
Impala是对Hive的一个补充,可以实现高效的SQL查询。使用Impala来实现SQL on Hadoop,用来进行大数据实时查询剖析。通过熟悉的传统关系型数据库的SQL风格来操作大数据,同时数据也是可以储存到HDFS和HBase中的。Impala没有再使用平缓的Hive+MapReduce批处理,而是通过使用与商用并行关系数据库中类似的分布式查询引擎(由Query Planner、Query Coordinator和Query Exec Engine三部份组成),可以直接从HDFS或HBase中用SELECT、JOIN和统计函数查询数据,从而大大增加了延后。Impala将整个查询分成一执行计划树,而不是一连串的MapReduce任务,相比Hive没了MapReduce启动时间。
Hive 适合于长时间的批处理查询剖析,而Impala适合于实时交互式SQL查询,Impala给数据人员提供了快速实验,验证看法的大数据剖析工具,可以先使用Hive进行数据转换处理,之后使用Impala在Hive处理好后的数据集上进行快速的数据剖析。总的来说:Impala把执行计划表现为一棵完整的执行计划树,可以更自然地分发执行计划到各个Impalad执行查询,而不用象Hive那样把它组合成管道型的map->reduce模式,以此保证Impala有更好的并发性和防止不必要的中间sort与shuffle。但是Impala不支持UDF,能处理的问题有一定的限制。
Spark拥有Hadoop MapReduce所具有的特征,它将Job中间输出结果保存在显存中,从而不需要读取HDFS。Spark 启用了显存分布数据集,除了才能提供交互式查询外,它还可以优化迭代工作负载。Spark 是在 Scala 语言中实现的,它将 Scala 用作其应用程序框架。与 Hadoop 不同,Spark 和 Scala 能够紧密集成,其中的 Scala 可以象操作本地集合对象一样轻松地操作分布式数据集。
Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具,包括全文搜索和Web爬虫。
Solr用Java编撰、运行在Servlet容器(如Apache Tomcat或Jetty)的一个独立的企业级搜索应用的全文搜索服务器。它对外提供类似于Web-service的API接口,用户可以通过http请求,向搜索引擎服务器递交一定格式的XML文件,生成索引;也可以通过Http Get操作提出查找恳求,并得到XML格式的返回结果。
Elasticsearch是一个开源的全文搜索引擎,基于Lucene的搜索服务器,可以快速的存储、搜索和剖析海量的数据。设计用于云估算中,能够达到实时搜索,稳定,可靠,快速,安装使用便捷。
还涉及到一些机器学习语言,比如,Mahout主要目标是创建一些可伸缩的机器学习算法,供开发人员在Apache的许可下免费使用;深度学习框架Caffe以及使用数据流图进行数值估算的开源软件库TensorFlow等,常用的机器学习算法例如,贝叶斯、逻辑回归、决策树、神经网路、协同过滤等。
五、数据可视化
对接一些BI平台,将剖析得到的数据进行可视化,用于指导决策服务。主流的BI平台例如,国外的敏捷BI Tableau、Qlikview、PowrerBI等,国内的SmallBI和新兴的网易有数(可点击这儿免费试用)等。
在前面的每一个阶段,保障数据的安全是不可忽略的问题。
基于网路身分认证的合同Kerberos,用来在非安全网路中,对个人通讯以安全的手段进行身分认证,它容许某实体在非安全网路环境下通讯,向另一个实体以一种安全的方法证明自己的身分。
控制权限的ranger是一个Hadoop集群权限框架,提供操作、监控、管理复杂的数据权限,它提供一个集中的管理机制,管理基于yarn的Hadoop生态圈的所有数据权限。可以对Hadoop生态的组件如Hive,Hbase进行细细度的数据访问控制。通过操作Ranger控制台,管理员可以轻松的通过配置策略来控制用户访问HDFS文件夹、HDFS文件、数据库、表、字段权限。这些策略可以为不同的用户和组来设置,同时权限可与hadoop无缝对接。
大数据技术栈概貌

Java技术库房《Java程序员复习指南》
整合全网优质Java学习内容,帮助你从基础到进阶系统化备考Java
面试指南
全网最热的Java笔试手册,共200多页,非常实用,不管是用于备考还是打算笔试都是不错的。