【发布时间】:2018-04-05 19:50:31
【问题描述】:
我正在努力寻找如何在 Spark API 中指定 parquet 文件编写器的行组大小。
我找到了一种方法,即使用具有此选项的快速镶木地板 python 模块:
从 fastparquet 导入写入
write 有参数: row_group_offsets
另外,row_group size 的最佳数字是多少?
感谢快速镶木地板,我做了一些实验。例如,选择 100 万的 row_groupsize 比 10 000 快十倍。但是如果我选择超过 100 万个,它就会开始减慢我的简单查询速度。
提前感谢您的帮助
【问题讨论】:
标签: apache-spark pyspark parquet fastparquet