使用冰山表格式将自定义元数据添加到 DataFrame 模式答案

【问题标题】：Adding custom metadata to DataFrame schema using iceberg table format使用冰山表格式将自定义元数据添加到 DataFrame 模式
【发布时间】：2021-12-31 22:15:31
【问题描述】：

我正在使用 StructField's metadata field 将自定义元数据添加到我的 PySpark 应用程序的 DataFrames 架构中

当我将 parquet 文件直接写入 s3 时，它运行良好。按预期读取这些 parquet 文件时，自定义元数据可用。

但使用冰山表格格式无法正常工作。没有错误，但df.schema.fields.metadata 始终为空。

有办法解决吗？

【问题讨论】：

标签： apache-spark apache-spark-sql apache-spark-mllib apache-spark-ml apache-spark-2.0

【解决方案1】：

通过确保密钥始终是“评论”来解决

例如： {'comment': 'my_metadata_info_field'}

【讨论】：