【发布时间】:2021-06-12 10:57:57
【问题描述】:
所以,我在 Spark 中使用最通用的 S3 读取代码,它将我指定目录中的多个文件读取到单个数据帧中:
val df=spark.read.option("sep", "\t")
.option("inferSchema", "true")
.option("encoding","UTF-8")
.schema(sch)
.csv("s3://my-bucket/my-directory/")
获取从该路径读取的文件数的最佳方法是什么(如果有)?
【问题讨论】:
-
谢谢,但这并不能完全解决我的问题。我想要读取的文件/分区数
标签: scala apache-spark amazon-s3 apache-spark-sql