【发布时间】:2016-02-06 04:52:56
【问题描述】:
我刚开始接触加缪。
我计划每隔一小时运行一次加缪。我们每小时收到 ~80000000 条消息,平均消息大小为 4KB(我们在 Kafka 中只有一个主题)。
我第一次尝试使用 10 映射器,复制一小时的数据需要大约 2 小时,它创建了 10 个大小约为 7GB 的文件。
然后我尝试了300 映射器,它把时间缩短到了大约 1 小时。但它创建了 11 个文件。后来,我尝试了150 mappers,花了大约 30 分钟。
那么,我该如何选择其中的映射器数量呢?此外,我想在 hadoop 中创建更多文件,因为一种大小增长到 7GB。我必须检查什么配置?
【问题讨论】:
标签: hadoop apache-kafka camus