【问题标题】:Get a spark Column from a spark Row从 spark Row 中获取 spark Column
【发布时间】:2021-04-09 09:13:42
【问题描述】:

我是 Scala、Spark 的新手,因此在尝试创建地图函数时遇到了困难。 Dataframe a Row 上的 map 函数 (org.apache.spark.sql.Row) 我一直在松散地关注this 文章。

val rddWithExceptionHandling = filterValueDF.rdd.map { row: Row =>
    val parsed = Try(from_avro(???, currentValueSchema.value, fromAvroOptions)) match {
        case Success(parsedValue) => List(parsedValue, null)
        case Failure(ex) => List(null, ex.toString)
    }
    Row.fromSeq(row.toSeq.toList ++ parsed)
}

from_avro 函数想要接受一个列 (org.apache.spark.sql.Column),但是我在文档中看不到从行中获取列的方法。

我完全接受我可能做错了整件事的想法。 最终我的目标是解析来自Structure Stream 的字节。 解析后的记录写入 Delta 表 A,失败的记录写入另一个 Delta 表 B

对于上下文,源表如下所示:

编辑 - from_avro 在“不良记录”上返回 null

有一些 cmets 说如果 from_avro 无法解析“坏记录”,则返回 null。默认情况下from_avro 使用模式FAILFAST,如果解析失败将抛出异常。如果将模式设置为PERMISSIVE,则返回模式形状的对象,但所有属性都为空(也不是特别有用......)。链接到Apache Avro Data Source Guide - Spark 3.1.1 Documentation

这是我原来的命令:

val parsedDf = filterValueDF.select($"topic", 
                                    $"partition", 
                                    $"offset", 
                                    $"timestamp", 
                                    $"timestampType", 
                                    $"valueSchemaId", 
                                    from_avro($"fixedValue", currentValueSchema.value, fromAvroOptions).as('parsedValue))

如果有任何错误行,则作业将通过 org.apache.spark.SparkException: Job aborted. 中止

异常日志的一个sn-p:

Caused by: org.apache.spark.SparkException: Malformed records are detected in record parsing. Current parse Mode: FAILFAST. To process malformed records as null result, try setting the option 'mode' as 'PERMISSIVE'.
    at org.apache.spark.sql.avro.AvroDataToCatalyst.nullSafeEval(AvroDataToCatalyst.scala:111)
    at org.apache.spark.sql.catalyst.expressions.GeneratedClass$GeneratedIteratorForCodegenStage1.processNext(Unknown Source)
    at org.apache.spark.sql.execution.BufferedRowIterator.hasNext(BufferedRowIterator.java:43)
    at org.apache.spark.sql.execution.WholeStageCodegenExec$$anon$1.hasNext(WholeStageCodegenExec.scala:732)
    at org.apache.spark.sql.execution.datasources.FileFormatWriter$.$anonfun$executeTask$2(FileFormatWriter.scala:291)
    at org.apache.spark.util.Utils$.tryWithSafeFinallyAndFailureCallbacks(Utils.scala:1615)
    at org.apache.spark.sql.execution.datasources.FileFormatWriter$.executeTask(FileFormatWriter.scala:300)
    ... 10 more
    Suppressed: java.lang.NullPointerException
        at shaded.databricks.org.apache.hadoop.fs.azure.NativeAzureFileSystem$NativeAzureFsOutputStream.write(NativeAzureFileSystem.java:1099)
        at org.apache.hadoop.fs.FSDataOutputStream$PositionCache.write(FSDataOutputStream.java:58)
        at java.io.DataOutputStream.write(DataOutputStream.java:107)
        at org.apache.parquet.hadoop.util.HadoopPositionOutputStream.write(HadoopPositionOutputStream.java:50)
        at shaded.parquet.org.apache.thrift.transport.TIOStreamTransport.write(TIOStreamTransport.java:145)
        at shaded.parquet.org.apache.thrift.transport.TTransport.write(TTransport.java:107)
        at shaded.parquet.org.apache.thrift.protocol.TCompactProtocol.writeByteDirect(TCompactProtocol.java:482)
        at shaded.parquet.org.apache.thrift.protocol.TCompactProtocol.writeByteDirect(TCompactProtocol.java:489)
        at shaded.parquet.org.apache.thrift.protocol.TCompactProtocol.writeFieldBeginInternal(TCompactProtocol.java:252)
        at shaded.parquet.org.apache.thrift.protocol.TCompactProtocol.writeFieldBegin(TCompactProtocol.java:234)
        at org.apache.parquet.format.InterningProtocol.writeFieldBegin(InterningProtocol.java:74)
        at org.apache.parquet.format.FileMetaData$FileMetaDataStandardScheme.write(FileMetaData.java:1184)
        at org.apache.parquet.format.FileMetaData$FileMetaDataStandardScheme.write(FileMetaData.java:1051)
        at org.apache.parquet.format.FileMetaData.write(FileMetaData.java:949)
        at org.apache.parquet.format.Util.write(Util.java:222)
        at org.apache.parquet.format.Util.writeFileMetaData(Util.java:69)
        at org.apache.parquet.hadoop.ParquetFileWriter.serializeFooter(ParquetFileWriter.java:757)
        at org.apache.parquet.hadoop.ParquetFileWriter.end(ParquetFileWriter.java:750)
        at org.apache.parquet.hadoop.InternalParquetRecordWriter.close(InternalParquetRecordWriter.java:135)
        at org.apache.parquet.hadoop.ParquetRecordWriter.close(ParquetRecordWriter.java:165)
        at org.apache.spark.sql.execution.datasources.parquet.ParquetOutputWriter.close(ParquetOutputWriter.scala:42)
        at org.apache.spark.sql.execution.datasources.FileFormatDataWriter.releaseResources(FileFormatDataWriter.scala:58)
        at org.apache.spark.sql.execution.datasources.FileFormatDataWriter.abort(FileFormatDataWriter.scala:84)
        at org.apache.spark.sql.execution.datasources.FileFormatWriter$.$anonfun$executeTask$3(FileFormatWriter.scala:297)
        at org.apache.spark.util.Utils$.tryWithSafeFinallyAndFailureCallbacks(Utils.scala:1626)
        ... 11 more
Caused by: java.lang.ArithmeticException: Unscaled value too large for precision
    at org.apache.spark.sql.types.Decimal.set(Decimal.scala:83)
    at org.apache.spark.sql.types.Decimal$.apply(Decimal.scala:577)
    at org.apache.spark.sql.avro.AvroDeserializer.createDecimal(AvroDeserializer.scala:308)
    at org.apache.spark.sql.avro.AvroDeserializer.$anonfun$newWriter$16(AvroDeserializer.scala:177)
    at org.apache.spark.sql.avro.AvroDeserializer.$anonfun$newWriter$16$adapted(AvroDeserializer.scala:174)
    at org.apache.spark.sql.avro.AvroDeserializer.$anonfun$getRecordWriter$1(AvroDeserializer.scala:336)
    at org.apache.spark.sql.avro.AvroDeserializer.$anonfun$getRecordWriter$1$adapted(AvroDeserializer.scala:332)
    at org.apache.spark.sql.avro.AvroDeserializer.$anonfun$getRecordWriter$2(AvroDeserializer.scala:354)
    at org.apache.spark.sql.avro.AvroDeserializer.$anonfun$getRecordWriter$2$adapted(AvroDeserializer.scala:351)
    at org.apache.spark.sql.avro.AvroDeserializer.$anonfun$converter$3(AvroDeserializer.scala:75)
    at org.apache.spark.sql.avro.AvroDeserializer.deserialize(AvroDeserializer.scala:89)
    at org.apache.spark.sql.avro.AvroDataToCatalyst.nullSafeEval(AvroDataToCatalyst.scala:101)
    ... 16 more

【问题讨论】:

  • 不确定我是否完全理解您的用例,但我会尝试留在 Dataframe 中(不将其转换为 RDD)并仅应用基于列 fixedValuefrom_avro 方法和一个给定的架构。如果解析不起作用,则 from_avro 函数应返回空值。这意味着,您可以然后根据此空值过滤您的 Dataframe 并将它们写入 Delta 表 B,而您将过滤器结果的另一部分发送到 Delta 表 A。
  • @mike 您的建议是我目前正在做的。但是,如果 from_avro 遇到无法解析的行,它不会返回 null,它会导致整个流式传输作业失败。
  • 查看更新的答案@mike
  • 我看到你引用的行为是当模式 PERMISSIVE 不是默认行为时:spark.apache.org/docs/latest/…

标签: scala apache-spark avro spark-structured-streaming delta-lake


【解决方案1】:

为了从 Row 对象中获取特定列,您可以使用 row.get(i) 或使用带有 row.getAs[T]("columnName") 的列名称。 Here你可以查看Row类的详细信息。

那么您的代码将如下所示:

val rddWithExceptionHandling = filterValueDF.rdd.map { row: Row =>
    val binaryFixedValue = row.getSeq[Byte](6) // or row.getAs[Seq[Byte]]("fixedValue")
    val parsed = Try(from_avro(binaryFixedValue, currentValueSchema.value, fromAvroOptions)) match {
        case Success(parsedValue) => List(parsedValue, null)
        case Failure(ex) => List(null, ex.toString)
    }
    Row.fromSeq(row.toSeq.toList ++ parsed)
}

尽管在您的情况下,您实际上并不需要进入 map 函数,因为当 from_avro 与 Dataframe API 一起使用时,您必须使用原始 Scala 类型。这就是您不能直接从map 调用 from_avro 的原因,因为Column 类的实例只能与 Dataframe API 结合使用,即:df.select($"c1"),这里 c1 是Column 的一个实例。为了使用from_avro,正如您最初的意图,只需输入:

filterValueDF.select(from_avro($"fixedValue", currentValueSchema))

正如@mike 已经提到的,如果from_avro 解析失败,AVRO 内容将返回 null。最后,如果您想将成功的行与失败的行分开,您可以执行以下操作:

val includingFailuresDf = filterValueDF.select(
              from_avro($"fixedValue", currentValueSchema) as "avro_res")
             .withColumn("failed", $"avro_res".isNull)

val successDf = includingFailuresDf.where($"failed" === false)
val failedDf = includingFailuresDf.where($"failed" === true) 

请注意该代码未经测试。

【讨论】:

  • 我看到你引用的行为是当模式 PERMISSIVE 不是默认行为时:spark.apache.org/docs/latest/…
  • 我知道它未经测试,但它非常接近!但是 .isNull 并不完全正确。你得到的是所有属性的结构,但是它们都是空的,所以 $"failed" 总是 false 看起来我应该创建一个 java/scala 函数来扩展 from_avro 一点点更实用。
  • @Oliver 你是对的,这是我错过的借口。我有几个月的时间来使用特定的功能并且已经忘记了一些细节。我会相应地更新答案。
  • @oliver 过滤失败也是正确的。看来您需要对 avro 进行一些低级别的验证。也许您可以使用来自 Spark avro 库的一些现有工具,其中 from_avro 和 to_avro 存在
【解决方案2】:

据我了解,您只需要为一行获取一列。您可以通过使用 row.get() 获取特定索引处的列值来做到这一点

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2018-04-27
    • 1970-01-01
    • 2017-05-21
    • 2017-08-13
    • 1970-01-01
    • 2016-09-23
    相关资源
    最近更新 更多