【发布时间】:2018-03-23 19:56:50
【问题描述】:
我正在研究在写入 S3 后自动将表和分区注册到配置单元元存储的东西。
在注册所有分区之前,我需要知道所有分区值。现在我正在做ds.select(partitionColumn).distinct().collectAsList(); 来获取所有分区值。
有没有更好的方法从我的数据集中获取分区值?
【问题讨论】:
-
AWS Glue 已经为您完成了这项工作。
-
我不知道有更好的解决方案,我也是这样做的
-
@ThiagoBaldim 我们看过 AWS Glue,但它似乎不允许我们将它用作外部产品的元存储服务。像 Tableau、Databricks 等...
-
@RaphaelRoth 是的,它有效。但是如果数据集很大,那么它需要一段时间才能完成。我想知道,因为我首先调用
ds.write.partitionBy.save,它已经将数据写入所有分区。不过确实想出了办法。 -
确实如此,这可以让您轻松使用 EMR。但是如果你需要从中获取信息,你可以尝试在 Boto 之上构建一些东西。
标签: apache-spark hive