【发布时间】:2020-08-28 15:11:09
【问题描述】:
我的 HDFS 上有两个具有相同架构的 parquet 目录。我想将这两个目录合并到一个 parquet 目录中,以便能够从中创建一个外部配置单元表。
我用谷歌搜索了我的问题,但几乎所有结果都是关于将小 parquet 文件合并到更大的 parquet 文件中。
【问题讨论】:
我的 HDFS 上有两个具有相同架构的 parquet 目录。我想将这两个目录合并到一个 parquet 目录中,以便能够从中创建一个外部配置单元表。
我用谷歌搜索了我的问题,但几乎所有结果都是关于将小 parquet 文件合并到更大的 parquet 文件中。
【问题讨论】:
只要 parquet 文件具有相同的架构,您就可以简单地将它们放在同一个目录中。 Hive 将处理它在外部表目录中找到的所有文件(除了一些具有特定名称的特殊文件),因此您只需将数据放在那里,Hive 就会找到它。 (在较旧的 Hive 版本中,非外部表也是如此。但是,在较新的 Hive 版本中,它仅适用于外部表,因此您不应篡改所谓的托管表的内容。)
【讨论】: