CM & CDH 基本介绍

什么是 CDH

Hadoop 是开源项目,所以很多公司在这个基础上进行商业化,不收费的 Hadoop 主要有三个:

  • Apache,最原始的版本,所有发行版均基于这个版本进行

  • Cloudear,全称 Cloudera’s Distribution Including Apache Hadoop,简称 CDH

  • Hortonworks,全称 Hortonworks Data Platform,简称 HDP

什么是 Cloudera Manager

Cloudear Manager,简称 CM,用于管理 CDH 集群,其主要功能是对 CDH 集群进行监控,大大改善原生 Apache Hadoop 的安装、配置复杂度和需要使用第三方开源监控工具所带来的诸多问题,可进行节点安装、配置、诊断、集成并提供 web 界面。

CM 架构

基本组成:

  • Server

  • Agent:安装在每个集群节点上,Server 下发的操作都由 Agent 来实现

  • Management Service:监控报警等功能

  • Database:存储各种服务配置信息和报警信息

  • Cloudera Repoistory:用来分发 Parcels 包的远程仓库

  • Clients

Server 和 Agent 通信方式:默认情况下,Agent 每隔 15s 向 Server 发送心跳。但是当状态发生变化时,为了减少用户等待时间,会加快心跳频率。

CM 术语

  • host 主机

  • rack 机架

  • cluster 集群

  • service 服务,例如 HDFS、YARN 都是一个个服务

  • role 角色,例如 HDFS 的 NameNode 和 DataNode 都可以称为 HDFS 的 角色

  • role group 角色组,将角色划分为一组方便管理

  • host template 主机模板

  • parcel 包

  • static service pool 静态服务池

  • dynamic resource pool 动态资源池