编辑
2019-07-10
编程
00

目录

Hadoop 组成
1. Hadoop 组成
1.1 HDFS 架构概述:分布式文件系统
1.2 YARN 架构概述:资源调度
1.3 MapReduce 架构概述:分布式计算的代码
2. 大数据技术生态体系

Hadoop 组成

1. Hadoop 组成

1.1 HDFS 架构概述:分布式文件系统

  • NameNode(nn):存储文件的元数据,如文件名,文件目录结构,文件属性(生成时间、副本数、文件权限),以及每个文件的块列表和块所在的DataNode等。
  • DataNode(dn):在本地文件系统存储文件块数据,以及块数据的校验和。
  • Secondary NameNode(2nn):用来监控HDFS状态的辅助后台程序,每隔一段时间获取HDFS元数据的快照。

1.2 YARN 架构概述:资源调度

1-YARN-Architecture.png

  • ResourceManager(RM)主要作用如下
    • 处理客户端请求
    • 监控NodeManager
    • 启动或监控ApplicationMaster
    • 资源的分配与调度
  • NodelManager(NM)主要作用如下
    • 管理单个节点上的资源
    • 处理来自ResourceManager的命令
    • 处理来自ApplicationMaster的命令
  • ApplicationMaster(AM)作用如下
    • 负责数据的切分
    • 为应用程序申请资源并分配给内部的任务
    • 任务的监控与容错
  • Container 是YARN中的资源抽象,它封装了某个节点上的多维度资源,如内存、CPU、磁盘、网络等

1.3 MapReduce 架构概述:分布式计算的代码

  • MapReduce 将计算过程分为两个阶段:Map 和 Reduce
    • Map 阶段并行处理输入数据。
    • Reduce 阶段对 Map 结果进行汇总。

2. 大数据技术生态体系

1-2-BigDataTechnologyEcosystem.png

本文作者:Yui_HTT

本文链接:

版权声明:本博客所有文章除特别声明外,均采用 BY-NC-SA 许可协议。转载请注明出处!