蜂巢不正确的标题检查答案

【问题标题】：hive incorrect header check蜂巢不正确的标题检查
【发布时间】：2018-06-12 19:36:58
【问题描述】：

我想从已导入 hive 表的 .gz 文件中进行查询，但是当我使用一些需要 Map-reduce 作业的查询时，例如：从测试中选择计数（*）；它显示以下错误：

 java.io.IOException: incorrect header check
    at org.apache.hadoop.io.compress.zlib.ZlibDecompressor.inflateBytesDirect(Native Method)
    at org.apache.hadoop.io.compress.zlib.ZlibDecompressor.decompress(ZlibDecompressor.java:228)
    at org.apache.hadoop.io.compress.DecompressorStream.decompress(DecompressorStream.java:111)
    at org.apache.hadoop.io.compress.DecompressorStream.read(DecompressorStream.java:105)

我检查并发现 Z LIB 是默认压缩编解码器。我尝试了 bzip 文件，没问题。但我如何使用 .gz 文件。如何更改可以支持 gz 文件的默认编解码器？

【问题讨论】：

将此link 用作参考。它可能对您有所帮助。

标签： hadoop hive gzip

【解决方案1】：

我遇到了类似的问题，在我的情况下，问题是文件夹中的文件格式不同，比如很少有 csv 文件，而其他文件是镶木地板。一旦我保持单一文件格式，问题就解决了。

【讨论】：

【解决方案2】：

我遇到了同样的错误，虽然我可以读取最初的几条记录，但算不上。记录失败并出现相同错误。

我只是通过将我的普通（未压缩）文件重命名为 .txt 解决了这个问题。以前我的文件名是 ;我将其重命名为 .txt。此外，如果您解压缩任何文件测试，您可以从中读取数据。

如果你想测试上面解释的运行计数记录数，它会做完整的扫描，这会告诉你数据是否正确加载。

我在另一个地方发布了这个解决方案

【讨论】：