【发布时间】:2018-08-02 12:27:09
【问题描述】:
我们的数据集在 s3(parquet 文件)中,格式如下,数据根据行号分为多个 parquet 文件。
data1_1000000.parquet
data1000001_2000000.parquet
data2000001_3000000.parquet
...
我们有 2000 多个这样的文件,每个文件都有数百万条记录。所有这些文件都具有相同数量的列和结构。如果我们需要在 hive 中对数据集进行分区,其中一列中包含时间戳。我们如何指向数据集并在其上创建一个单独的 hive 外部表以供我们分析,或者可以使用 spark 进行分析?
谢谢。
【问题讨论】:
标签: hadoop apache-spark hive amazon-emr parquet