【发布时间】:2020-02-17 20:59:19
【问题描述】:
我只想将 csv 的一个子集作为数据框导入,因为它太大而无法导入整个内容。有没有办法在 Pandas 中本地执行此操作,而无需设置类似数据库的结构?
我尝试只导入一个块然后连接,这仍然太大并导致内存错误。我有数百列,因此手动指定 dtypes 可能会有所帮助,但可能会花费大量时间。
df_chunk = pd.read_csv("filename.csv", chunksize=1e7)
df = pd.concat(df_chunk,ignore_index=True)
【问题讨论】:
-
查看文档中的chuncksize。
-
使用
nrows指定您要读取的行数。 -
将
pd.read_csv()与skiprows和nrows一起使用?
标签: python database pandas large-data