【问题标题】:hive incorrect header check蜂巢不正确的标题检查
【发布时间】:2018-06-12 19:36:58
【问题描述】:

我想从已导入 hive 表的 .gz 文件中进行查询,但是当我使用一些需要 Map-reduce 作业的查询时,例如: 从测试中选择计数(*); 它显示以下错误:

 java.io.IOException: incorrect header check
    at org.apache.hadoop.io.compress.zlib.ZlibDecompressor.inflateBytesDirect(Native Method)
    at org.apache.hadoop.io.compress.zlib.ZlibDecompressor.decompress(ZlibDecompressor.java:228)
    at org.apache.hadoop.io.compress.DecompressorStream.decompress(DecompressorStream.java:111)
    at org.apache.hadoop.io.compress.DecompressorStream.read(DecompressorStream.java:105)

我检查并发现 Z LIB 是默认压缩编解码器。 我尝试了 bzip 文件,没问题。 但我如何使用 .gz 文件。 如何更改可以支持 gz 文件的默认编解码器?

【问题讨论】:

  • 将此link 用作参考。它可能对您有所帮助。

标签: hadoop hive gzip


【解决方案1】:

我遇到了类似的问题,在我的情况下,问题是文件夹中的文件格式不同,比如很少有 csv 文件,而其他文件是镶木地板。一旦我保持单一文件格式,问题就解决了。

【讨论】:

    【解决方案2】:

    我遇到了同样的错误,虽然我可以读取最初的几条记录,但算不上。记录失败并出现相同错误。

    我只是通过将我的普通(未压缩)文件重命名为 .txt 解决了这个问题。以前我的文件名是 ;我将其重命名为 .txt。此外,如果您解压缩任何文件测试,您可以从中读取数据。

    如果你想测试上面解释的运行计数记录数,它会做完整的扫描,这会告诉你数据是否正确加载。

    我在另一个地方发布了这个解决方案

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2016-12-20
      • 2022-12-03
      • 1970-01-01
      相关资源
      最近更新 更多