【发布时间】:2019-03-08 17:58:57
【问题描述】:
我正在使用带有 Spark 和 Scala 的 Databricks 笔记本将数据从 S3 读取到 DataFrame 中:
myDf = spark.read.parquet(s"s3a://data/metrics/*/*/*/)。其中* 通配符代表年/月/日。
或者我只是硬编码:myDf = spark.read.parquet(s"s3a://data/metrics/2018/05/20/)
现在我想在一天之后添加一个小时参数。这个想法是从S3 获取最近可用时间的数据。
如果我选择myDf = spark.read.parquet(s"s3a://data/metrics/2018/05/20/*),那么我将获得 5 月 20 日所有时间的数据。
如何在不硬编码小时的情况下在 Databricks 笔记本中实现这一点?
【问题讨论】:
标签: scala apache-spark amazon-s3 databricks