【发布时间】:2016-01-01 15:02:09
【问题描述】:
我无法找到允许使用 Python 编写 Parquet 文件的库。如果我可以结合使用 Snappy 或类似的压缩机制,则可以加分。
到目前为止,我发现的唯一方法是使用带有 pyspark.sql.DataFrame Parquet 支持的 Spark。
我有一些脚本需要编写不是 Spark 作业的 Parquet 文件。有什么方法可以在 Python 中编写不涉及pyspark.sql 的 Parquet 文件吗?
【问题讨论】:
-
Parquet格式好像有thirft定义文件不能用这个访问吗?
标签: python apache-spark apache-spark-sql parquet snappy