【发布时间】:2018-06-06 01:46:55
【问题描述】:
我有 10 个 amazon ec2 节点集群用于每天的数据处理,我想将所有 10 个节点用于每天的批处理(仅限 2 小时处理),一旦生成报告数据点,我想关闭 5节点,并在一天的其余时间只让 5 个节点处于活动状态以优化成本。
我的复制因子为 3。
在某些情况下,所有 3 个数据块(实际和复制块)都存储在我要关闭的那 5 个节点中。因此我无法正确读取数据。
我可以在 cloudera manager 中进行一些设置,以将特定数据库或特定表持久保存到给定节点中,这样我在读取只有 5 个节点活动的数据时不会有任何问题。
或任何其他建议将不胜感激。
【问题讨论】:
标签: hadoop hdfs cloudera cloudera-cdh cloudera-manager