【发布时间】:2013-02-22 00:22:30
【问题描述】:
我想使用 Hadoop Map/Reduce 处理 delimited 协议缓冲区文件,这些文件使用 LZO 以外的其他东西压缩,例如xz 或 gzip。 Twitter 的大象鸟库似乎主要支持读取 LZO 压缩的 protobuf 文件,因此似乎不能满足我的需求。是否有现有的库或标准方法来执行此操作?
(注意:从我选择的压缩算法可以看出,解决方案没有必要使 protobuf 文件可拆分。您的答案甚至不需要指定特定的压缩算法,但至少应该允许我提到的其中一个。)
【问题讨论】:
标签: hadoop gzip protocol-buffers lzo xz