【发布时间】:2019-09-12 16:08:24
【问题描述】:
我在 S3 存储桶上以 CSV 格式存储了多个非常大的数据集。我需要将这些 CSV 转换为 Apache Parquet 文件。
我没有(也不想要)任何 Spark 集群,如果我错了,请纠正我,但在我看来,pyspark 没有任何帮助。
基本上,从逐行流式传输 CSV 的迭代器中,我想根据模式生成 Parquet 文件。
据我了解,pyarrow 不能在输入中使用迭代器。
有人有办法解决它吗?
任何帮助表示赞赏!
【问题讨论】:
标签: python python-3.x pyspark parquet pyarrow