【问题标题】:Can we set remove column names from s3 partition path and set path to values?我们可以设置从 s3 分区路径中删除列名并将路径设置为值吗?
【发布时间】:2021-07-27 10:50:34
【问题描述】:

我只是好奇,对于使用 Glue sinkFormat 的 Spark,是否可以将文件保存为“2021/05/05/filename.parquet”而不是“year=2021/month=05/day=05/filename.parquet”。我尝试使用“writepath”,但它在记录级别上工作,我相信它会破坏 Spark 保存分区文件的能力。

【问题讨论】:

  • 你有 partitionBy() 吗?
  • 您好,我尝试检查 partitionBy,但是当我想动态更改文件路径时,它会限制所有要保存的记录吗?在这种情况下如何使它工作?
  • @CharmeeLee 你能用你用过的脚本更新你的问题吗?

标签: amazon-web-services scala apache-spark amazon-s3 aws-glue


【解决方案1】:

这是不可能的。

分区删除用于分区的列。 Spark 使用目录结构进行分区发现和正确的结构,因此必须包含列名才能正常工作。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2016-01-23
    • 2013-03-07
    • 2020-05-30
    • 2012-06-30
    • 1970-01-01
    • 2015-12-29
    • 1970-01-01
    相关资源
    最近更新 更多