【问题标题】:How do I create a metadata file in HDFS when writing a Parquet file as output from a Dataframe in PySpark?将 Parquet 文件作为 PySpark 中 Dataframe 的输出写入时,如何在 HDFS 中创建元数据文件?
【发布时间】:2020-08-24 23:58:54
【问题描述】:

我有一个 Spark 转换程序,它读取 2 个 Parquet 文件并创建一个最终数据帧,然后将其写入 HDFS 另一个目录中的 Parquet 文件。

有没有办法在与 HDFS 中的 parquet 相同的目录中创建 Parquet 的元数据/Schema 文件?

我们需要此元数据/架构文件进行另一次处理。

【问题讨论】:

    标签: pyspark hdfs schema parquet


    【解决方案1】:

    假设元文件的使用者不是 parquet 文件的使用者(因为架构以 parquet 格式嵌入,所以元文件是多余的),您可以在数据帧上使用 schema 属性并写下到文件作为字符串。

    请注意,您不能将此元文件写入与 parquet 文件相同的路径,因为当您尝试读取 parquet 文件时会出错,但可以将其写入父目录。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2022-01-04
      • 2022-01-16
      • 1970-01-01
      • 1970-01-01
      • 2017-08-05
      • 2019-12-06
      • 2021-06-19
      • 1970-01-01
      相关资源
      最近更新 更多