【问题标题】:Adding custom metadata to DataFrame schema using iceberg table format使用冰山表格式将自定义元数据添加到 DataFrame 模式
【发布时间】:2021-12-31 22:15:31
【问题描述】:

我正在使用 StructField's metadata field 将自定义元数据添加到我的 PySpark 应用程序的 DataFrames 架构中

当我将 parquet 文件直接写入 s3 时,它运行良好。 按预期读取这些 parquet 文件时,自定义元数据可用。

但使用冰山表格格式无法正常工作。没有错误,但df.schema.fields.metadata 始终为空。

有办法解决吗?

【问题讨论】:

    标签: apache-spark apache-spark-sql apache-spark-mllib apache-spark-ml apache-spark-2.0


    【解决方案1】:

    通过确保密钥始终是“评论”来解决

    例如: {'comment': 'my_metadata_info_field'}

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2017-12-19
      相关资源
      最近更新 更多