角色 | 描述 |
MapReduce | MapReduce常用于离线的复杂的大数据计算 |
Storm | Storm用于在线的实时的大数据计算,Storm的实时主要是一条一条数据处理; |
Spark | 可以用于离线的也可用于在线的实时的大数据计算,Spark的实时主要是处理一个个时间区域的数据,所以说Spark比较灵活。 |
角色 | 描述 |
MapReduce | 数据存在磁盘中 |
Spark和Strom | 数据存在内存中 |
角色 | 描述 |
Pig | 是一种高级编程语言,在处理半结构化数据上拥有非常高的性能,可以帮助我们缩短开发周期。 |
Hive | 是数据分析查询工具,尤其在使用类SQL查询分析时显示出极高的性能。可以在分分钟完成ETL要一晚上才能完成的事情,这就是优势,占了先机! |
角色 | 描述 |
HBase | 是运行在HDFS架构上的列存储数据库,并且已经与Pig/Hive很好地集成。通过Java API可以近无缝地使用HBase。 |
Sqoop | 设计的目的是方便从传统数据库导入数据到Hadoop数据集合(HDFS/Hive)。 |
Flume | 设计的目的是便捷地从日志文件系统直接把数据导入到Hadoop数据集合(HDFS)中。 |
角色 | 描述 |
ZooKeeper | 是一个系统管理协调架构,用于管理分布式架构的基本配置。它提供了很多接口,使得配置管理任务简单化。 |
Oozie | Oozie服务是用于管理工作流。用于调度不同工作流,使得每个工作都有始有终。这些架构帮助我们轻量化地管理大数据分布式计算架构。 |
角色 | 描述 |
Ambari | 帮助相关人员快捷地部署搭建整个大数据分析架构,并且实时监控系统的运行状况。 |
Whirr | Whirr的主要作用是帮助快速地进行云计算开发。 |
更多回帖