Spark 从 s3 读取数据：如何为 Spark 上下文正确配置“fs.s3a.multipart.size”？答案

【问题标题】：Spark read data from s3: How to config "fs.s3a.multipart.size" correctly for a Spark Context?Spark 从 s3 读取数据：如何为 Spark 上下文正确配置“fs.s3a.multipart.size”？
【发布时间】：2021-04-01 03:52:24
【问题描述】：

我正在创建一个 Spark 作业以从 AWS3 服务器读取数据。这是创建和配置 Spark Session 和 Spark Context 的代码：

spark = SparkSession.builder.appName("mongopipeline").master("local") .config("spark.executor.memory","1g") .config("spark.mongodb.input.uri","mongodb://yourway:yourway2020@13.212.171.210:27017/yourway.job_description?authSource=admin")

.config("spark.executor.extraJavaOptions","-Dcom.amazonaws.services.s3.enableV4=true")

.config("spark.driver.extraJavaOptions","-Dcom.amazonaws.services.s3.enableV4=true")

.getOrCreate()

spark_context = spark.sparkContext

spark_context._jsc.hadoopConfiguration().set("fs.s3a.access.key", "XXXX") spark_context._jsc.hadoopConfiguration().set("fs.s3a.secret.key", "XXXX") spark_context._jsc.hadoopConfiguration().set("fs.s3a.impl", "org.apache.hadoop.fs.s3a.S3AFileSystem")

然后我得到一个错误：: java.lang.NumberFormatException: For input string: "100M"

我搜索了这个问题，发现这是由config"fs.s3a.multipart.size"的值引起的，默认为“100M”。因此，我又添加了一行代码，即：

spark_context._jsc.hadoopConfiguration().set("fs.s3a.multipart.size", "104857600")

但是，我得到另一个错误：java.lang.IllegalArgumentException，这可能是由于添加的配置引起的。那么如何正确设置"fs.s3a.multipart.size"呢？

更多信息：

蟒蛇3.9.2；火花3.1.1；斯卡拉 2.12.13； aws-java-sdk 1.7.4； hadoop-aws 2.7.1

spark-submit cmd：spark-submit --packages com.amazonaws:aws-java-sdk:1.7.4,org.apache.hadoop:hadoop-aws:2.7.1 /path/to/file/main.py

操作系统：macOS BigSur 11.2.3

非常感谢！

【问题讨论】：

标签： amazon-web-services apache-spark hadoop

【解决方案1】：

问题是我没有和spark一起安装hadoop，我想设置的参数属于hadoop的配置。

安装 spark-3.1.1-bin-hadoop2.7 后，我在该文件夹中打开终端并成功运行 spark-submit 命令。

关于安装spark-3.1.1-bin-hadoop2.7的步骤，可以访问： https://www.tutorialspoint.com/pyspark/pyspark_environment_setup.htm

【讨论】：