将 Parquet 文件作为 PySpark 中 Dataframe 的输出写入时，如何在 HDFS 中创建元数据文件？

【问题标题】：How do I create a metadata file in HDFS when writing a Parquet file as output from a Dataframe in PySpark?将 Parquet 文件作为 PySpark 中 Dataframe 的输出写入时，如何在 HDFS 中创建元数据文件？
【发布时间】：2020-08-24 23:58:54
【问题描述】：

我有一个 Spark 转换程序，它读取 2 个 Parquet 文件并创建一个最终数据帧，然后将其写入 HDFS 另一个目录中的 Parquet 文件。

有没有办法在与 HDFS 中的 parquet 相同的目录中创建 Parquet 的元数据/Schema 文件？

我们需要此元数据/架构文件进行另一次处理。

【问题讨论】：

标签： pyspark hdfs schema parquet

【解决方案1】：

假设元文件的使用者不是 parquet 文件的使用者（因为架构以 parquet 格式嵌入，所以元文件是多余的），您可以在数据帧上使用 schema 属性并写下到文件作为字符串。

请注意，您不能将此元文件写入与 parquet 文件相同的路径，因为当您尝试读取 parquet 文件时会出错，但可以将其写入父目录。

【讨论】：