【发布时间】:2021-08-19 14:21:47
【问题描述】:
在 Spark SBT 项目中,我关注 https://spark.apache.org/docs/latest/cloud-integration.html 直接访问 s3 上的数据。但是,我得到org.apache.spark#hadoop-cloud_2.12;3.1.2: not found。文档中提到了provided 范围,但由于此作业在本地运行,因此没有 JDK/应用程序容器提供任何东西。在 Maven Central 上,我看到各种供应商发布了各自的版本方案,但没有一个与我的特定 Spark 版本匹配:3.1.2
这些是我的相关依赖项:
// Version.spark is 3.1.2
val spark = Seq(
"org.apache.spark" %% "spark-core" % Version.spark,
"org.apache.spark" %% "spark-sql" % Version.spark,
"org.apache.spark" %% "hadoop-cloud" % Version.spark
)
我应该转而使用hadoop-aws 包吗? https://hadoop.apache.org/docs/current/hadoop-aws/tools/hadoop-aws/index.html
【问题讨论】:
标签: scala apache-spark hadoop