Linux论坛

氧化

8年用户 749经验值

擅长:可编程逻辑嵌入式技术

私信关注

[经验]

常用大数据处理技术归类

“21世纪最缺的是什么?人才!”。在大数据发展如此之快的今天，大数据工程师已经成为一个新兴职业。大数据是信息技术，是人和人、人和机器、机器和机器交互的内容特征，是最底层的信息技术，是基本标配。今天我们就来看看大数据。

1.HBase

是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，利用HBase技术可在廉价PC Server上搭建起大规模结构化数据集群。像Facebook，都拿它做大型实时应用。

2.Hive

Facebook领导的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供完整的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计。像一些data scientist 就可以直接查询，不需要学习其他编程接口。

3.Pig

Yahoo开发的，并行地执行数据流处理的引擎，它包含了一种脚本语言，称为Pig Latin，用来描述这些数据流。Pig Latin本身提供了许多传统的数据操作，同时允许用户自己开发一些自定义函数用来读取、处理和写数据。在LinkedIn也是大量使用。

4.Cascading/Scalding

Cascading是Twitter收购的一个公司技术，主要是提供数据管道的一些抽象接口，然后又推出了基于Cascading的Scala版本就叫Scalding。Coursera是用Scalding作为MapReduce的编程接口放在Amazon的EMR运行。

5.Zookeeper

一个分布式的，开放源码的分布式应用程序协调服务，是Google的Chubby一个开源的实现。

6.Oozie

一个基于工作流引擎的开源框架。由Cloudera公司贡献给Apache的，它能够提供对Hadoop MapReduce和Pig Jobs的任务调度与协调。

7.Azkaban

跟上面很像，Linkedin开源的面向Hadoop的开源工作流系统，提供了类似于cron 的管理任务。

8.Tez

Hortonworks主推的优化MapReduce执行引擎，与MapReduce相比较，Tez在性能方面更加出色。

想要学习大数据，建议从应用切入、以点带面，先从一个实际的应用领域需求，搞定一个一个技术点，有一定功底之后，再举一反三横向扩展，这样学习效果就会好很多。

更多回帖

氧化

常用大数据处理技术归类

相关帖子

云计算、大数据处理技术交流

大数据处理和分析能力的提高

大数据专业技术学习之大数据处理流程

图解大数据处理架构

缓存对大数据处理的影响分析

什么是大数据大数据处理基本步骤讲解

大数据Kafka数据处理过程

eda中常用的数据处理方法

深入解析大数据处理基本步骤

浅析大数据处理的关键技术及应用

20万+工程师都在用，免费PCB检查工具

氧化

常用大数据处理技术归类

相关帖子

云计算、大数据处理技术交流

大数据处理和分析能力的提高

大数据专业技术学习之大数据处理流程

图解大数据处理架构

缓存对大数据处理的影响分析

什么是大数据 大数据处理基本步骤讲解

大数据Kafka数据处理过程

eda中常用的数据处理方法

深入解析大数据处理基本步骤

浅析大数据处理的关键技术及应用

20万+工程师都在用，免费PCB检查工具

什么是大数据大数据处理基本步骤讲解