【发布时间】:2019-05-24 02:53:49
【问题描述】:
我希望在 RAM 中处理一个大文件 (5 gb),但出现内存不足错误。有没有办法像pandas.read_csv 那样分块处理镶木地板文件?
import pyarrow.parquet as pq
def main():
df = pq.read_table('./data/train.parquet').to_pandas()
main()
【问题讨论】:
-
目前还没有,但是关于添加这个选项还有一些问题。请注意,在即将发布的 0.12 版本中,内存使用将得到显着改善