【问题标题】:Python, pandas splitting column into twoPython,熊猫将一列分成两列
【发布时间】:2017-04-17 00:52:19
【问题描述】:

我有一个包含多列的数据框,其中一列是日期列。目前该列中的数据采用以下形式:02/01/2012 9:30

但是我想将其分成两个单独的列,日期:02/01/2012 和时间:9:30

我找到了以下解决方案:

df = pd.DataFrame(df.date.str.split(' ',1).tolist(), columns = ['date','time'])

但是,这会创建一个新的数据框,其中仅包含两个新的拆分列,而不包含其他列。

有没有办法在不创建新数据框的情况下拆分现有数据框的列?

解决此问题的计算效率最高的方法是什么? (我正在使用的数据集包含大约 2000 万行)

【问题讨论】:

    标签: python pandas dataframe multiple-columns


    【解决方案1】:

    试试这个:

    df[['date','time']] = df.pop('date').str.split(expand=True)
    

    演示

    In [274]: df
    Out[274]:
                  date
    0  02/01/2012 9:30
    1  02/01/2012 9:30
    2  02/01/2012 9:30
    
    In [275]: df[['date','time']] = df.pop('date').str.split(expand=True)
    
    In [276]: df
    Out[276]:
             date  time
    0  02/01/2012  9:30
    1  02/01/2012  9:30
    2  02/01/2012  9:30
    

    【讨论】:

    • 有一天...我会记得使用pop
    • 这行得通,但是当我运行它时,我的物理内存使用率飙升到几乎 100%,但我猜这只是因为数据集很大。
    【解决方案2】:

    如果您的 date 列是字符串并且您只想拆分它们...那么这应该可以工作

    date_time = df.date.str.split(expand=True).rename(columns={0: 'date', 1: 'time'})
    df = df.drop('date', 1).join(date_time)
    print(df)
    
       A  B        date  time
    0  1  2  02/01/2012  9:30
    

    设置
    假设数据框df

    df = pd.DataFrame(dict(date=['02/01/2012 9:30'], A=[1], B=[2]))
    
    print(df)
    
       A  B             date
    0  1  2  02/01/2012 9:30
    

    但是,假设您的 date 列实际上是日期时间

    df = pd.DataFrame(dict(date=pd.to_datetime(['02/01/2012 9:30']), A=[1], B=[2]))
    
    print(df)
    
       A  B                date
    0  1  2 2012-02-01 09:30:00
    

    然后我们会

    df = df.assign(date=df.date.dt.date, time=df.date.dt.time)
    
    print(df)
    
       A  B                date
    0  1  2 2012-02-01 09:30:00
    

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2021-06-12
      • 1970-01-01
      • 2023-03-16
      • 2019-10-21
      • 1970-01-01
      • 2023-02-10
      • 2022-11-17
      • 1970-01-01
      相关资源
      最近更新 更多