【发布时间】:2016-07-19 12:53:32
【问题描述】:
我正在使用蜂巢,
我有 24 个 json 文件,总大小为 300MB(在一个文件夹中),所以我创建了一个外部表(即 table1)并将数据(即 24 个文件)加载到外部表中。
当我在该外部表(即 table1)上运行选择查询时,我观察到 3 个映射器和 1 个减速器正在运行。
之后我又创建了一个外部表(即 table2)。
我已经压缩了我的输入文件(包含 24 个文件的文件夹)。
示例:BZIP2
因此它压缩了数据,但创建了 24 个扩展名为“.BZiP2”的文件 (即..file1.bzp2,.....file24.bzp2)。
之后,我将压缩文件加载到我的外部表中。
现在,当我运行 select query 时,它需要 24 个映射器和 1 个减速器。与未压缩的数据(即文件)相比,观察到的 CPU 时间需要更多时间。
如果数据是压缩格式(即 table2 select query ),我如何减少映射器的数量?
如果数据是压缩格式(即 table2 选择查询),我如何减少 CPU 时间? CPU时间将如何影响性能?
【问题讨论】:
标签: hadoop mapreduce hive cloudera hadoop-partitioning