【发布时间】:2017-04-04 07:06:29
【问题描述】:
我在 spark 中有一个 RDD,它本质上是 (timestamp, id),其中时间戳是 yyyy/MM/dd HH:mm 形式的 joda DateTime。 RDD 是类的;
case class myRDD(timestamp: org.joda.time.DateTime, id: String)
我正在使用 Spark 和 Scala。
我想过滤数据以仅具有某一天,即 2000/01/01,并返回某种形式的内容 (timestamp, id),但我不确定如何将 filter() 与 joda 时间戳一起使用。我已经创建了我想通过以下过滤的间隔的开始和结束;
val start = myFormat.parseDateTime("2000/01/01 00:00")
val end = myFormat.parseDateTime("2000/01/02 00:00”)
但我不知道如何将其应用于 RDD,或者即使这是解决此问题的最佳方法。任何提示将不胜感激。
【问题讨论】:
-
时间戳是一个字符串,还是一个joda DateTime?
-
@soote 时间戳是一个joda DateTime,我创建的类是这样的;
case class rdd(timestamp: org.joda.time.DateTime, id: String)
标签: scala date apache-spark filter jodatime