Hadoop是在分布式服务器集群上存储海量数据并运行分布式分析应用的一个平台,其核心部件是HDFS与MapReduce。HDFS是一个分布式文件系统,可对数据系统进行分布式储存读取;MapReduce是一个计算框架,通过对计算任务的拆分,再根据任务调度器,对任务进行分布式计算。
Hadoop是大数据开发必不可少的框架技术,因此,想要学好大数据,必须要掌握Hadoop相关知识,那么,hadoop主要学什么呢?
一、Hadoop环境搭建
1. Hadoop生态环境介绍
2. Hadoop云计算中的位置和关系
3. 国内外Hadoop应用案例介绍
4. Hadoop概念、版本、历史
5. Hadoop核心组成介绍及hdfs、mapreduce体系结构
6. Hadoop独立模式安装和测试
7. Hadoop的集群结构
8. Hadoop伪分布的详细安装步骤
9. 通过命令行和浏览器观察Hadoop
10. Hadoop启动脚本分析
11. Hadoop完全分布式环境搭建
12. Hadoop安全模式、回收站介绍
二、HDFS体系结构和Shell以及Java操作
1. HDFS底层工作原理
2. HDFSdatanode,namenode详解
3. 单点故障(SP0F)和高可用(HA)
4. 通过API访问HDFS
5. 常用压缩算法介绍和安装使用
6. Maven介绍和安装,eclipse中使用Maven,搭建Maven本地仓库
三、Mapreduce学习
1. Mapreduce四个阶段介绍
2. Job、Task介绍
3. 默认工作机制
4. 创建MR应用开发,获取年度的最高气温
5. 在Windows上运行MR作业
6. Mapper、Reducer
7. InputSplit和OutputSplit
8. Shuffle:Sort,Partitioner,Group,Combiner 9. 通过计数器调试程序
10. 在Windows安装Hadoop
11. 在eclipse安装Hadoop插件,访问Hadoop资源
12. 在eclipse中编写ant脚本
13. YARN调度框架事件分发机制
14. 远程调试资源管理器
15. Hadoop的底层google ProtoBuf的协议分析
16. Hadoop底层IPC原理和RPC
四、Hadoop高可用-HA
1. Hadoop2.x集群结构体系介绍
2. Hadoop2.x集群搭建
3. NameNode的高可用性(HA)
4. HDFS Federation
5. ResourceManager的高可用性(HA)
6. Hadoop集群常见问题和解决办法