【问题标题】:Renaming Multiple Columns in Pandas在 Pandas 中重命名多个列
【发布时间】:2018-10-27 10:20:04
【问题描述】:

我有一个 CSV 文件,我想在其中重命名一些具有相同名称的列。我的初始代码如下所示

df = pd.read_csv('New.csv')

我使用此代码从数据框中提取了选定的列

df.columns[1::3]

此切片每隔三列获取一次。 现在我想用相同的名称重命名那些每隔三列 但试图像这样重命名我的列 给我一个错误

df.columns[1::3]= ['SomeName']
raise TypeError("Index does not support mutable operations")

有什么方法可以重命名 pandas 中具有相同名称的多个列?

除了手动执行此操作之外,还有其他建议吗?

【问题讨论】:

  • 如果需要动态重命名,新列名的模式是什么?

标签: python pandas dataframe


【解决方案1】:

我认为这里最好使用 rename 和独特的新列名称,例如:

df = pd.DataFrame({'A':list('abcdef'),
                   'B':[4,5,4,5,5,4],
                   'C':[7,8,9,4,2,3],
                   'D':[1,3,5,7,1,0],
                   'E':[5,3,6,9,2,4],
                   'F':list('aaabbb')})

print (df)
   A  B  C  D  E  F
0  a  4  7  1  5  a
1  b  5  8  3  3  a
2  c  4  9  5  6  a
3  d  5  4  7  9  b
4  e  5  2  1  2  b
5  f  4  3  0  4  b

d = dict(zip(df.columns[1::3], range(len(df.columns[1::3]))))
print (d)
{'B': 0, 'E': 1}


df = df.rename(columns=d)
print (df)
   A  0  C  D  1  F
0  a  4  7  1  5  a
1  b  5  8  3  3  a
2  c  4  9  5  6  a
3  d  5  4  7  9  b
4  e  5  2  1  2  b
5  f  4  3  0  4  b

或者:

d = dict(zip(df.columns[1::3], 
             ['name{}'.format(x) for x in range(len(df.columns[1::3]))]))
print (d)
{'B': 'name0', 'E': 'name1'}

df = df.rename(columns=d)
print (df)
   A  name0  C  D  name1  F
0  a      4  7  1      5  a
1  b      5  8  3      3  a
2  c      4  9  5      6  a
3  d      5  4  7      9  b
4  e      5  2  1      2  b
5  f      4  3  0      4  b

不推荐的解决方案是重命名相同的列名:

d = dict.fromkeys(df.columns[1::3], 'Name')
print (d)
{'B': 'Name', 'E': 'Name'}

df = df.rename(columns=d)
print (df)
   A  Name  C  D  Name  F
0  a     4  7  1     5  a
1  b     5  8  3     3  a
2  c     4  9  5     6  a
3  d     5  4  7     9  b
4  e     5  2  1     2  b
5  f     4  3  0     4  b

因为如果想要查看列 Name 它会返回 DataFrame 中的所有列:

print (df['Name'])
   Name  Name
0     4     5
1     5     3
2     4     6
3     5     9
4     5     2
5     4     4

【讨论】:

  • 我想在这里使用相同的列名的原因是,我想对这些列名进行分组。
  • 喜欢d = dict.fromkeys(df.columns[1::3], 'Name') 然后df['name'].sum(axis=1) ?那么就可以使用
  • 不,目标是将该分组列用作不求和的索引。
【解决方案2】:

df.columns 的类型为 pandas.indexes.base.Index,这就是您收到 TypeError 的原因。如果将其转换为列表,则可以使用切片更新(重命名),并将 df.columns 设置为更新后的列表。

这对我有用:

lst = list(df.columns)
lst[1::3] = ['someName']*len(lst[1::3])
df.columns = lst

或拥有唯一的新列名(正如@jezrael 指出的那样,可能不建议使用相同的名称):

lst = list(df.columns)
lst[1::3] = ['someName{}'.format(x) for x in range(len(lst[1::3]))] 
df.columns = lst

【讨论】:

    【解决方案3】:

    基础pandas 索引对象是numpy 数组。

    您可以利用这一事实来使用numpy 约定进行切片和分配。

    来自@jezrael 的数据。 this known issue 需要显式提取值。

    df = pd.DataFrame({'A':list('abcdef'),
                       'B':[4,5,4,5,5,4],
                       'C':[7,8,9,4,2,3],
                       'D':[1,3,5,7,1,0],
                       'E':[5,3,6,9,2,4],
                       'F':list('aaabbb')})
    
    arr = df.columns.values
    arr[1::3] = range(2)
    df.columns = arr
    
    print(df)
    
       A  0  C  D  1  F
    0  a  4  7  1  5  a
    1  b  5  8  3  3  a
    2  c  4  9  5  6  a
    3  d  5  4  7  9  b
    4  e  5  2  1  2  b
    5  f  4  3  0  4  b
    

    【讨论】:

    • 不,而不是。非常糟糕的答案。 stackoverflow.com/questions/43291781/…
    • 在我看来这样做很危险,所以被否决了。但是如果改变答案,我会删除downvote,没问题。
    • pandas 0.23.0中测试还是有问题,所以不要使用它。
    • 在我看来最好不要使用它,因为太奇怪的行为。
    • @jezrael,但我没有使用它。我正在复制这些值,更改它们并重新分配 back.. 这与您的链接问题完全不同。
    猜你喜欢
    • 2020-07-18
    • 1970-01-01
    • 1970-01-01
    • 2021-04-24
    • 2013-10-31
    • 2021-09-15
    • 2017-05-04
    • 1970-01-01
    • 2019-01-07
    相关资源
    最近更新 更多