【发布时间】:2021-03-22 03:33:32
【问题描述】:
自从最近宣布 S3 读写强一致性以来,我想尝试新的 S3A 提交者,例如魔法提交者。
根据Spark documentation,我们需要在this commit中添加BindingParquetOutputCommitter和PathOutputCommitProtocol两个类路径。
官方文档建议使用使用 hadoop3.2 配置文件构建的 Spark。有没有办法在不重新编译 Spark 的情况下添加这两个类? (由于某些技术原因,我不能使用已经构建的 Spark)
我使用的是 Spark 3.0.1
我已经检查了this answer,但不幸的是,OP 切换到开源 S3A 提交者以由 EMR 提供。
【问题讨论】:
标签: apache-spark hadoop amazon-s3