【问题标题】:How to read data in chunks in Python dataframe?如何在 Python 数据框中分块读取数据?
【发布时间】:2017-01-16 00:12:37
【问题描述】:

我想将文件 f 分块读取到数据帧中。这是我使用的代码的一部分。

for i in range(0, maxline, chunksize):
df = pandas.read_csv(f,sep=',', nrows=chunksize, skiprows=i)
df.to_sql(member, engine, if_exists='append',index= False, index_label=None, chunksize=chunksize)

我得到错误:

pandas.io.common.EmptyDataError: 没有要从文件中解析的列

该代码仅在块大小 >= maxline(即文件 f 中的总行数)时有效。但是,就我而言,块大小

请告知修复方法。

【问题讨论】:

    标签: python csv pandas dataframe chunks


    【解决方案1】:

    我认为在read_csv 中使用参数chunksize 比较好。另外,将concat 与参数ignore_index 一起使用,因为需要避免index 中的重复:

    chunksize = 5
    TextFileReader = pd.read_csv(f, chunksize=chunksize)
    
    df = pd.concat(TextFileReader, ignore_index=True)
    

    见熊猫docs

    【讨论】:

    • 谢谢!现在我得到 df 作为 TextFileReader。我的代码的下一步要求 df 是一个数据框。如何将 TextFileReader 转换为数据框?
    • 我的实际数据大约是85GB。连接不会使数据帧变大吗?我想使用 chunksize 来读取和写入块。请指教。
    • 是的,它会很大。也许你可以检查question
    • 对于像我这样的新手来说,这看起来很难。 "df = pandas.read_csv(f,sep=',', nrows=chunksize, skiprows=i)" 实际上给出了数据帧。不能对此进行修改以解决我的问题。更新了问题。谢谢!
    • 我前段时间使用了你的解决方案,我得到了同样的错误。不幸的是,我从不使用to_sql,所以我无法为您提供帮助。
    猜你喜欢
    • 2014-01-27
    • 1970-01-01
    • 1970-01-01
    • 2012-04-16
    • 1970-01-01
    • 2012-01-28
    • 2017-07-27
    • 2021-02-09
    • 2017-10-19
    相关资源
    最近更新 更多