我们可以设置从 s3 分区路径中删除列名并将路径设置为值吗？

【问题标题】：Can we set remove column names from s3 partition path and set path to values?我们可以设置从 s3 分区路径中删除列名并将路径设置为值吗？
【发布时间】：2021-07-27 10:50:34
【问题描述】：

我只是好奇，对于使用 Glue sinkFormat 的 Spark，是否可以将文件保存为“2021/05/05/filename.parquet”而不是“year=2021/month=05/day=05/filename.parquet”。我尝试使用“writepath”，但它在记录级别上工作，我相信它会破坏 Spark 保存分区文件的能力。

【问题讨论】：

你有 partitionBy() 吗？
您好，我尝试检查 partitionBy，但是当我想动态更改文件路径时，它会限制所有要保存的记录吗？在这种情况下如何使它工作？
@CharmeeLee 你能用你用过的脚本更新你的问题吗？

标签： amazon-web-services scala apache-spark amazon-s3 aws-glue

【解决方案1】：

这是不可能的。

分区删除用于分区的列。 Spark 使用目录结构进行分区发现和正确的结构，因此必须包含列名才能正常工作。

【讨论】：

猜你喜欢

1970-01-01
1970-01-01
2016-01-23
2013-03-07
2020-05-30
2012-06-30
1970-01-01
2015-12-29
1970-01-01

相关资源

下载 2023-03-28
下载 2021-06-05
下载 2023-01-03

最近更新更多

热门标签

Java Python linux javascript Mysql C# Docker 算法前端 SpringBoot Redis Vue spring 设计模式 .net core .net kubernetes c++ 数据库数据结构大数据 js 机器学习微服务 Android Go 程序员面试 JVM ASP.net core 云原生人工智能后端 PHP git CSS golang k8s Nginx Django mybatis 深度学习多线程 React 架构 devops 爬虫云计算 Spring Boot LeetCode