【发布时间】:2017-03-19 11:44:32
【问题描述】:
在不支持 Hive 或 Impala 库的情况下,使用 Java 在 HDFS 中创建和填充 Parquet 文件的最佳方法是什么?
我的目标是将简单的 csv 记录(字符串)写入位于 HDFS 中的 Parquet 文件中。
之前提出的所有问题/答案都令人困惑。
【问题讨论】:
在不支持 Hive 或 Impala 库的情况下,使用 Java 在 HDFS 中创建和填充 Parquet 文件的最佳方法是什么?
我的目标是将简单的 csv 记录(字符串)写入位于 HDFS 中的 Parquet 文件中。
之前提出的所有问题/答案都令人困惑。
【问题讨论】:
似乎parquet-mr 是要走的路。它们为 Thrift 和 Avro 提供实现。自己的实现应该基于ParquetOutputFormat,并且可能看起来类似于进行实际转换的AvroParquetOutputFormat 和AvroWriteSupport。
【讨论】: