【发布时间】:2019-01-12 18:22:28
【问题描述】:
我是 python 新手,我有一个场景,其中有多个 parquet 文件,文件名按顺序排列。例如:par_file1、par_file2、par_file3 等等,一个文件夹中最多 100 个文件。
我需要从 file1 开始依次读取这些 parquet 文件并将其写入单个 csv 文件。写入 file1 的内容后,file2 的内容应附加到相同的 csv 中,而不需要标题。请注意,所有文件都有相同的列名,只有数据被拆分为多个文件。
我学会了使用 pyarrow 将单个 parquet 转换为 csv 文件,代码如下:
import pandas as pd
df = pd.read_parquet('par_file.parquet')
df.to_csv('csv_file.csv')
但我无法将其扩展为循环多个镶木地板文件并附加到单个 csv。 熊猫中有没有办法做到这一点?或任何其他方法都会有很大帮助。谢谢。
【问题讨论】:
-
您是否在与 parquet 文件相同的目录中运行您的 python 代码?
-
我正在考虑将镶木地板文件复制到本地文件夹并从本地计算机运行 python 代码。我对 python 完全陌生,不知道在哪里运行 python 代码。如果可以在代码中给出 hdfs 文件夹位置并将内容复制到本地的 csv 文件中,那也很好。如果我没有正确理解您的查询,我深表歉意。