【问题标题】:Is it possible to merge two parquet directory on hdfs?是否可以在 hdfs 上合并两个 parquet 目录?
【发布时间】:2020-08-28 15:11:09
【问题描述】:

我的 HDFS 上有两个具有相同架构的 parquet 目录。我想将这两个目录合并到一个 parquet 目录中,以便能够从中创建一个外部配置单元表。

我用谷歌搜索了我的问题,但几乎所有结果都是关于将小 parquet 文件合并到更大的 parquet 文件中。

【问题讨论】:

    标签: hive hdfs parquet


    【解决方案1】:

    只要 parquet 文件具有相同的架构,您就可以简单地将它们放在同一个目录中。 Hive 将处理它在外部表目录中找到的所有文件(除了一些具有特定名称的特殊文件),因此您只需将数据放在那里,Hive 就会找到它。 (在较旧的 Hive 版本中,非外部表也是如此。但是,在较新的 Hive 版本中,它仅适用于外部表,因此您不应篡改所谓的托管表的内容。)

    【讨论】:

      猜你喜欢
      • 2017-11-08
      • 2017-09-05
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2022-06-14
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多