【发布时间】:2017-02-25 08:27:44
【问题描述】:
如何在 scala 中生成和加载多个 s3 文件路径以便我可以使用:
sqlContext.read.json ("s3://..../*/*/*")
我知道我可以使用通配符来读取多个文件,但是有什么方法可以生成路径吗?例如,我的文件结构如下所示: BucketName/年/月/日/文件
s3://testBucket/2016/10/16/part00000
这些文件都是 jsons。问题是我只需要加载文件的特定持续时间,例如。说 16 天,然后我需要为开始日(10 月 16 日)加载文件:10 月 1 日到 16 日。
同一开始日的持续时间为 28 天,我想从 9 月 18 日开始阅读
有人能告诉我有什么方法吗?
【问题讨论】:
-
问题是动态生成文件路径
标签: json scala apache-spark amazon-s3 filesystems