【问题标题】:Apache Spark 2.0: java.lang.UnsupportedOperationException: No Encoder found for java.time.LocalDateApache Spark 2.0:java.lang.UnsupportedOperationException:找不到 java.time.LocalDate 的编码器
【发布时间】:2016-12-08 23:07:29
【问题描述】:

我正在使用 Apache Spark 2.0 并创建 case class 用于提及 DetaSet 的架构。当我尝试根据How to store custom objects in Dataset? 定义自定义编码器时,对于java.time.LocalDate,我遇到了以下异常:

java.lang.UnsupportedOperationException: No Encoder found for java.time.LocalDate
- field (class: "java.time.LocalDate", name: "callDate")
- root class: "FireService"
at org.apache.spark.sql.catalyst.ScalaReflection$.org$apache$spark$sql$catalyst$ScalaReflection$$serializerFor(ScalaReflection.scala:598)
at org.apache.spark.sql.catalyst.ScalaReflection$$anonfun$9.apply(ScalaReflection.scala:592)
at org.apache.spark.sql.catalyst.ScalaReflection$$anonfun$9.apply(ScalaReflection.scala:583)
at scala.collection.TraversableLike$$anonfun$flatMap$1.apply(TraversableLike.scala:241)
at scala.collection.TraversableLike$$anonfun$flatMap$1.apply(TraversableLike.scala:241)
at scala.collection.immutable.List.foreach(List.scala:381)
at scala.collection.TraversableLike$class.flatMap(TraversableLike.scala:241)
............

以下是代码:

case class FireService(callNumber: String, callDate: java.time.LocalDate)
implicit val localDateEncoder: org.apache.spark.sql.Encoder[java.time.LocalDate] = org.apache.spark.sql.Encoders.kryo[java.time.LocalDate]

val fireServiceDf = df.map(row => {
val dateFormatter = java.time.format.DateTimeFormatter.ofPattern("MM/dd /yyyy")
FireService(row.getAs[String](0),  java.time.LocalDate.parse(row.getAs[String](4), dateFormatter))
})

我们如何为 spark 定义第三方 api 的编码器?

更新

当我为整个案例类创建编码器时,df.map.. 将对象映射为二进制,如下所示:

implicit val fireServiceEncoder: org.apache.spark.sql.Encoder[FireService] = org.apache.spark.sql.Encoders.kryo[FireService]

val fireServiceDf = df.map(row => {
 val dateFormatter = java.time.format.DateTimeFormatter.ofPattern("MM/dd/yyyy")
 FireService(row.getAs[String](0), java.time.LocalDate.parse(row.getAs[String](4), dateFormatter))
})

fireServiceDf: org.apache.spark.sql.Dataset[FireService] = [value: binary]

我期待 FireService 的地图,但返回地图的二进制文件。

【问题讨论】:

    标签: scala apache-spark apache-spark-sql apache-spark-dataset apache-spark-encoders


    【解决方案1】:

    正如最后一条评论所说,“如果类包含一个字段 Bar ,则需要对整个对象进行编码器。”您需要为FireService 本身提供一个隐式编码器;否则 Spark 会使用 SQLImplicits.newProductEncoder[T <: Product : TypeTag]: Encoder[T] 为您构建一个。从类型可以看出,它没有使用任何implicit字段的编码器参数,所以它不能使用localDateEncoder的存在。

    可以更改 Spark 以处理此问题,例如使用 Shapeless 库,或直接使用宏;不知道以后有没有这个打算。

    【讨论】:

    • 嘿@Alexey 我明白你的意思了,我还是不明白为什么我们需要完整的对象格式化程序?
    • 我明白你的意思。我也更新了这个问题,因为现在我的数据被转换成二进制。当我使用时间戳而不是 LocalDate 时,dataschema 构建为 FireService,否则构建为二进制。
    • 请作为一个单独的问题提出。一般来说,不要编辑问题来提出不同的问题。
    • @AlexeyRomanov 我面临同样的问题。你有如何编码整个项目的代码示例吗?非常感谢!
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2017-12-24
    • 2021-05-08
    • 1970-01-01
    • 1970-01-01
    • 2017-06-11
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多