目录
Hadoop 组成
1. Hadoop 组成
1.1 HDFS 架构概述:分布式文件系统
1.2 YARN 架构概述:资源调度
1.3 MapReduce 架构概述:分布式计算的代码
2. 大数据技术生态体系
Hadoop 组成
1. Hadoop 组成
1.1 HDFS 架构概述:分布式文件系统
- NameNode(nn):存储文件的元数据,如文件名,文件目录结构,文件属性(生成时间、副本数、文件权限),以及每个文件的块列表和块所在的DataNode等。
- DataNode(dn):在本地文件系统存储文件块数据,以及块数据的校验和。
- Secondary NameNode(2nn):用来监控HDFS状态的辅助后台程序,每隔一段时间获取HDFS元数据的快照。
1.2 YARN 架构概述:资源调度

- ResourceManager(RM)主要作用如下
- 处理客户端请求
- 监控NodeManager
- 启动或监控ApplicationMaster
- 资源的分配与调度
- NodelManager(NM)主要作用如下
- 管理单个节点上的资源
- 处理来自ResourceManager的命令
- 处理来自ApplicationMaster的命令
- ApplicationMaster(AM)作用如下
- 负责数据的切分
- 为应用程序申请资源并分配给内部的任务
- 任务的监控与容错
- Container 是YARN中的资源抽象,它封装了某个节点上的多维度资源,如内存、CPU、磁盘、网络等。
1.3 MapReduce 架构概述:分布式计算的代码
- MapReduce 将计算过程分为两个阶段:Map 和 Reduce
- Map 阶段并行处理输入数据。
- Reduce 阶段对 Map 结果进行汇总。
2. 大数据技术生态体系

本文作者:Yui_HTT
本文链接:
版权声明:本博客所有文章除特别声明外,均采用 BY-NC-SA
许可协议。转载请注明出处!