【问题标题】:Is it possible to compress json in hive external table?是否可以在 hive 外部表中压缩 json?
【发布时间】:2016-06-06 09:47:20
【问题描述】:

我想知道如何在 hive 外部表中压缩 json 数据。如何做呢? 我已经创建了这样的外部表:

 CREATE EXTERNAL TABLE tweets (
id BIGINT,created_at STRING,source STRING,favorited BOOLEAN
)ROW FORMAT SERDE "com.cloudera.hive.serde.JSONSerDe" LOCATION "/user/cloudera/tweets";

我已经设置了压缩属性

set mapred.output.compress=true;
set hive.exec.compress.output=true;
set mapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec;
set io.compression.codecs=org.apache.hadoop.io.compress.GzipCodec;

输入文件:测试

{ "id": 596344698102419451, "created_at": "MonApr0101: 32: 06+00002013", "source": "blank", "favorited": false }

之后我将我的 json 文件加载到 hdfs 位置"/user/cloudera/tweets".

但它没有被压缩。

您能告诉我如何在 hive 外部表中进行压缩吗? 有人可以帮我在 hive 外部表中压缩吗?

提前致谢。

【问题讨论】:

    标签: hadoop hive cloudera hiveql hadoop-streaming


    【解决方案1】:

    只需 gzip 文件并将它们按原样 (*.gz) 放入表位置

    【讨论】:

    • 嗨,感谢您的回复.....我已经尝试过并且可以压缩,但是当我在外部表上运行聚合查询时,我收到类似“失败异常 java.io.IOException:org.apache.hadoop.hive.serde2.SerDeException: org.codehaus.jackson.JsonParseException: Unexpected end-of-input: OBJECT 的预期关闭标记"
    • 这似乎与压缩无关。请检查您的文件。每条记录(json 对象)应该只有一行,在 Json 对象中没有 \n。像这一行: {"col1":123, "col2":321}\n
    • 嗨,我的 json 文件中只有一条记录,例如:{"id": 596344698102419451, "created_at": "MonApr0101: 32: 06+00002013", "source": "blank", "favorited": false} ,压缩后我的 .GZ 文件看起来像:0 {"id": 596344698102419451, "created_at": "MonApr0101: 32: 06+00002013", "source": "blank", "favorited": false} 零添加额外但当我在外部表之上运行聚合查询时,我收到如下错误
    • "异常 ava.io.IOException:org.apache.hadoop.hive.serde2 失败。SerDeException: org.codehaus.jackson.map.JsonMappingException: 无法反序列化 java.util.LinkedHashMap 的实例[Source: java.io.StringReader@1cbf4643; line: 1, column: 1]"
    • 让我们在聊天中讨论这个问题
    【解决方案2】:

    在选择 json 之前是否需要解压缩。您不能同时使用 serde(json 和 gzip)

    【讨论】:

      猜你喜欢
      • 2016-10-23
      • 1970-01-01
      • 2019-05-30
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多