【问题标题】:Spark Dataset and java.sql.DateSpark 数据集和 java.sql.Date
【发布时间】:2016-08-05 21:29:57
【问题描述】:

假设我有一个像这样的 Spark Dataset

scala> import java.sql.Date
scala> case class Event(id: Int, date: Date, name: String)
scala> val ds = Seq(Event(1, Date.valueOf("2016-08-01"), "ev1"), Event(2, Date.valueOf("2018-08-02"), "ev2")).toDS

我想创建一个只有名称和日期字段的新 Dataset。据我所知,我可以将ds.select()TypedColumn 一起使用,也可以将ds.select()Column 一起使用,然后将DataFrame 转换为Dataset

但是,我无法让前一个选项与 Date 类型一起使用。例如:

scala> ds.select($"name".as[String], $"date".as[Date])
<console>:31: error: Unable to find encoder for type stored in a Dataset.  Primitive types (Int, String, etc) and Product types (case classes) are supported by importing spark.implicits._  Support for serializing other types will be added in future releases.
              ds.select($"name".as[String], $"date".as[Date])
                                                      ^

后一个选项有效:

scala> ds.select($"name", $"date").as[(String, Date)]
res2: org.apache.spark.sql.Dataset[(String, java.sql.Date)] = [name: string, date: date]

有没有办法从Dataset 中选择Date 字段,而无需转到DataFrame 并返回?

【问题讨论】:

    标签: scala apache-spark apache-spark-dataset apache-spark-encoders


    【解决方案1】:

    整天都在为这些问题苦苦挣扎。我认为你可以用一行来解决你的问题:

    implicit val e: Encoder[(String, Date)] = org.apache.spark.sql.Encoders.kryo[(String,Date)]
    

    至少这对我有用。

    编辑

    在这些情况下,问题在于对于大多数 Dataset 操作,Spark 2 需要一个 Encoder 来存储架构信息(可能是为了优化)。架构信息采用隐式参数的形式(并且一堆Dataset 操作具有这种隐式参数)。

    在这种情况下,OP 为 java.sql.Date 找到了正确的架构,因此以下工作:

    implicit val e = org.apache.spark.sql.Encoders.DATE
    

    【讨论】:

    • 这并没有直接解决问题,但它让我走上了正轨。使用implicit val encodeDate = org.apache.spark.sql.Encoders.DATE 解决了这个问题。我不确定为什么默认隐式不处理它。
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多