【问题标题】:Cloudera hadoop data storage into specific nodeCloudera hadoop 数据存储到特定节点
【发布时间】:2018-06-06 01:46:55
【问题描述】:

我有 10 个 amazon ec2 节点集群用于每天的数据处理,我想将所有 10 个节点用于每天的批处理(仅限 2 小时处理),一旦生成报告数据点,我想关闭 5节点,并在一天的其余时间只让 5 个节点处于活动状态以优化成本。

我的复制因子为 3。

在某些情况下,所有 3 个数据块(实际和复制块)都存储在我要关闭的那 5 个节点中。因此我无法正确读取数据。

我可以在 cloudera manager 中进行一些设置,以将特定数据库或特定表持久保存到给定节点中,这样我在读取只有 5 个节点活动的数据时不会有任何问题。

或任何其他建议将不胜感激。

【问题讨论】:

    标签: hadoop hdfs cloudera cloudera-cdh cloudera-manager


    【解决方案1】:

    您可以使用机架感知(实际上)将您的集群分成 2 个“机架”,并将您定期关闭的 5 个节点放置在单独的“机架”上。复制策略将要求 NN 将副本放置在单独的机架上(如果已配置)。同样,我在这里指的是虚拟意义上的机架。这应该会得到你想要的。

    【讨论】:

    • 感谢您的回复。但我只是想知道是否可以在没有机架意识的情况下进行任何此类设置以仅将数据存储到特定节点中。
    猜你喜欢
    • 2019-12-23
    • 1970-01-01
    • 2023-04-08
    • 1970-01-01
    • 1970-01-01
    • 2013-06-11
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多