带 RAID 的 HDP 集群？答案

【问题标题】：HDP cluster with RAID?带 RAID 的 HDP 集群？
【发布时间】：2016-09-20 09:40:50
【问题描述】：

您对 HDP 集群上的 RAID1 有何经验？

我有两个选择：

为 master 和 zoo 节点设置 RAID 1，并且根本不要在从节点上使用 RAID，例如 kafka brokers、hbase regionservers 和 yarn nodemanager's。

即使我失去一个从节点，我也会有另外两个副本。在我看来，RAID 只会减慢我的集群速度。

你怎么看？您对 HDP 和 RAID 有什么体验？您如何看待将 RAID 0 用于从节点？

【问题讨论】：

【解决方案1】：

我建议在 Hadoop 主机上根本不使用 RAID。有一个警告，如果您运行像 Oozie 和 Hive 元存储这样在幕后使用关系数据库的服务，raid 可能在数据库主机上很有意义。

在主节点上，假设您有 Namenode、zookeeper 等 - 通常冗余内置于服务中。对于名称节点，所有数据都存储在两个名称节点上。对于 Zookeeper 来说，如果你丢失了一个节点，那么其他两个节点就会拥有所有信息。

Zookeeper 喜欢快速磁盘 - 理想情况下，将完整磁盘专用于 zookeeper。如果你有 namenode HA，给 namenode 编辑目录和每个日志节点一个专用磁盘。

对于从节点，datanode 将跨所有磁盘写入，无论如何都会有效地分条数据。每个“写入”最多是 HDFS 块大小，所以如果你正在写入一个大文件，你可以在磁盘 1 上获得 128MB，然后在磁盘 2 上获得下一个 128MB 等等。

【讨论】：