【发布时间】:2016-08-05 21:29:57
【问题描述】:
假设我有一个像这样的 Spark Dataset:
scala> import java.sql.Date
scala> case class Event(id: Int, date: Date, name: String)
scala> val ds = Seq(Event(1, Date.valueOf("2016-08-01"), "ev1"), Event(2, Date.valueOf("2018-08-02"), "ev2")).toDS
我想创建一个只有名称和日期字段的新 Dataset。据我所知,我可以将ds.select() 与TypedColumn 一起使用,也可以将ds.select() 与Column 一起使用,然后将DataFrame 转换为Dataset。
但是,我无法让前一个选项与 Date 类型一起使用。例如:
scala> ds.select($"name".as[String], $"date".as[Date])
<console>:31: error: Unable to find encoder for type stored in a Dataset. Primitive types (Int, String, etc) and Product types (case classes) are supported by importing spark.implicits._ Support for serializing other types will be added in future releases.
ds.select($"name".as[String], $"date".as[Date])
^
后一个选项有效:
scala> ds.select($"name", $"date").as[(String, Date)]
res2: org.apache.spark.sql.Dataset[(String, java.sql.Date)] = [name: string, date: date]
有没有办法从Dataset 中选择Date 字段,而无需转到DataFrame 并返回?
【问题讨论】:
标签: scala apache-spark apache-spark-dataset apache-spark-encoders