【发布时间】:2020-08-24 23:58:54
【问题描述】:
我有一个 Spark 转换程序,它读取 2 个 Parquet 文件并创建一个最终数据帧,然后将其写入 HDFS 另一个目录中的 Parquet 文件。
有没有办法在与 HDFS 中的 parquet 相同的目录中创建 Parquet 的元数据/Schema 文件?
我们需要此元数据/架构文件进行另一次处理。
【问题讨论】:
标签: pyspark hdfs schema parquet
我有一个 Spark 转换程序,它读取 2 个 Parquet 文件并创建一个最终数据帧,然后将其写入 HDFS 另一个目录中的 Parquet 文件。
有没有办法在与 HDFS 中的 parquet 相同的目录中创建 Parquet 的元数据/Schema 文件?
我们需要此元数据/架构文件进行另一次处理。
【问题讨论】:
标签: pyspark hdfs schema parquet
假设元文件的使用者不是 parquet 文件的使用者(因为架构以 parquet 格式嵌入,所以元文件是多余的),您可以在数据帧上使用 schema 属性并写下到文件作为字符串。
请注意,您不能将此元文件写入与 parquet 文件相同的路径,因为当您尝试读取 parquet 文件时会出错,但可以将其写入父目录。
【讨论】: