【问题标题】:How to speed up pandas read_csv?如何加速熊猫 read_csv?
【发布时间】:2016-02-23 05:14:31
【问题描述】:

我目前使用以下内容解析一个文本文件:

f = lambda s: datetime.datetime.strptime(s, '%Y-%m-%d-%H-%M-%S')
dframe = pd.read_csv(
    fname, sep=' ', header=None,
    names=('A', 'B', 'C', 'D', 'E'),
    use_unsigned=True, parse_dates=True, index_col=0, date_parser=f)

单个文件大约需要 5.70 秒。

我可以加快日期时间解析吗?

文件中的一行如下所示:

2015-04-08-11-23-27 12420.8 12430.3 12527.0 12394.2 A

谢谢,

【问题讨论】:

    标签: parsing csv pandas


    【解决方案1】:

    您应该能够通过手动使用to_datetime 而不是使用您的 lambda 函数来加快速度:

    >>> %time df = pd.read_csv(fname, delim_whitespace=True, header=None, 
              names=('A', 'B', 'C', 'D', 'E'), use_unsigned=True, parse_dates=True, 
              index_col=0, date_parser=f)
    CPU times: user 9.16 s, sys: 39.9 ms, total: 9.2 s
    Wall time: 9.2 s
    

    对比

    >>> %time df2 = pd.read_csv(fname, delim_whitespace=True, header=None, names=('A', 'B', 'C', 'D', 'E'), use_unsigned=True, parse_dates=False, index_col=0)
    CPU times: user 416 ms, sys: 20 ms, total: 436 ms
    Wall time: 435 ms
    >>> %time df2.index = pd.to_datetime(df2.index, format="%Y-%m-%d-%H-%M-%S")
    CPU times: user 2.72 s, sys: 4 ms, total: 2.72 s
    Wall time: 2.72 s
    >>> 
    >>> df.equals(df2)
    True
    >>> (2.72+0.435)/9.2
    0.3429347826086957
    

    (我使用的是delim_whitespace=True,因为在这种情况下这往往会稍微快一些。)

    【讨论】:

    • 你的意思可能是 df2.index = pd.to_datetime(df2.index, format="%Y-%m-%d-%H-%M-%S") ?
    猜你喜欢
    • 2017-08-02
    • 2018-01-27
    • 2016-03-30
    • 2019-07-12
    • 1970-01-01
    • 2012-11-21
    • 2018-07-19
    • 2019-12-31
    • 2020-08-24
    相关资源
    最近更新 更多