【问题标题】:HDP cluster with RAID?带 RAID 的 HDP 集群?
【发布时间】:2016-09-20 09:40:50
【问题描述】:
您对 HDP 集群上的 RAID1 有何经验?
我有两个选择:
- 为 master 和 zoo 节点设置 RAID 1,并且根本不要在从节点上使用 RAID,例如 kafka brokers、hbase regionservers 和 yarn nodemanager's。
即使我失去一个从节点,我也会有另外两个副本。
在我看来,RAID 只会减慢我的集群速度。
- 尽管如此,使用 RAID 1 设置所有内容。
你怎么看?您对 HDP 和 RAID 有什么体验?
您如何看待将 RAID 0 用于从节点?
【问题讨论】:
标签:
hadoop
hortonworks-data-platform
raid
bigdata
【解决方案1】:
我建议在 Hadoop 主机上根本不使用 RAID。有一个警告,如果您运行像 Oozie 和 Hive 元存储这样在幕后使用关系数据库的服务,raid 可能在数据库主机上很有意义。
在主节点上,假设您有 Namenode、zookeeper 等 - 通常冗余内置于服务中。对于名称节点,所有数据都存储在两个名称节点上。对于 Zookeeper 来说,如果你丢失了一个节点,那么其他两个节点就会拥有所有信息。
Zookeeper 喜欢快速磁盘 - 理想情况下,将完整磁盘专用于 zookeeper。如果你有 namenode HA,给 namenode 编辑目录和每个日志节点一个专用磁盘。
对于从节点,datanode 将跨所有磁盘写入,无论如何都会有效地分条数据。每个“写入”最多是 HDFS 块大小,所以如果你正在写入一个大文件,你可以在磁盘 1 上获得 128MB,然后在磁盘 2 上获得下一个 128MB 等等。