【发布时间】:2019-09-06 00:27:46
【问题描述】:
我有一个(一组)gzipped parquet 文件,大约有 210 列,其中我将大约 100 列加载到 pandas 数据框中。当文件大小约为 1 MB(约 50 行)时,它运行良好且速度非常快; python3 进程消耗
我目前正在使用 pandas.read_parquet,但我也尝试过 pyarrow.read_table,结果相同。
任何想法可能会发生什么?我只是不明白为什么加载这么多数据会像那样炸毁 RAM 并变得无法使用。我的目标是将镶木地板中的数据加载到数据库中,所以如果有更好的方法来做这件事,我也很高兴知道。
代码如下;这只是 pandas.read_parquet 的简单用法。
import pandas as pd
df = pd.read_parquet(bytesIO_from_file, columns=[...])
【问题讨论】: