【发布时间】:2016-10-05 15:19:19
【问题描述】:
我有几 TB JSON 格式的日志数据,我想将它们转换为 Parquet 格式,以便在分析阶段获得更好的性能。
我已经设法通过编写一个使用parquet-mr 和parquet-avro 的mapreduce java 作业来做到这一点。
我唯一不满意的是,我的 JSON 日志没有固定的架构,我不知道所有字段的名称和类型。此外,即使我知道所有字段的名称和类型,我的模式也会随着时间的推移而发展,例如,将来会添加新的字段。
现在我必须为AvroWriteSupport 提供一个 Avro 架构,而 avro 只允许固定数量的字段。
有没有更好的方法在 Parquet 中存储任意字段,就像 JSON 一样?
【问题讨论】: