【发布时间】:2016-06-11 14:15:33
【问题描述】:
如何使用 pig 将 hdfs 数据压缩到 bzip2,以便在解压缩时它应该提供与最初相同的 dir 结构。我是 pig 的新手。
我尝试使用 bzip2 进行压缩,但由于生成了许多映射器,它生成了许多文件,因此在相同的 dir 结构中恢复为纯文本文件(初始形式)变得很困难。
就像在 unix 中一样,如果我们使用 tarball 压缩 bzip2,然后在解压缩 bzip2.tar 后,会得到与最初完全相同的数据和文件夹结构。
例如压缩:- tar -cjf compress_folder.tar.bz2 compress_folder/
解压:- tar -jtvf compress_folder.tar.bz2
将给出完全相同的目录。
【问题讨论】:
标签: hadoop apache-pig bzip2