如何在熊猫数据框中移动一列答案

【问题标题】：How to move a column in a pandas dataframe如何在熊猫数据框中移动一列
【发布时间】：2019-03-08 01:57:16
【问题描述】：

我想将索引为“长度”的列设为我的第二列。它目前作为第 5 列存在。我试过了：

colnames = big_df.columns.tolist()

# make index "length" the second column in the big_df
colnames = colnames[0] + colnames[4] + colnames[:-1] 

big_df = big_df[colnames]

我看到以下错误：

TypeError: 必须是 str，而不是 list

我不确定如何解释这个错误，因为它实际上应该是 list，对吧？

另外，有没有一种通用的方法可以按标签将任何列移动到指定位置？我的专栏只有一个级别，即不涉及MultiIndex。

【问题讨论】：

更一般地说，移动列来组织数据框的最佳做法是什么？
this 的可能重复项，但总而言之，您似乎缺少一些方括号；试试big_df = big_df[[colnames]]
我强烈建议您使用df.columns = colnames 而不是df[[colnames]] 作为__getitem__ triggers a copy operation。但这是微不足道的一点。我还没有看到任何好的基于 NumPy 的重新排序方面的解决方案。

标签： python pandas numpy dataframe indexing

【解决方案1】：

纠正您的错误

我不确定如何解释这个错误，因为它实际上应该是一份清单，对吧？

否：colnames[0] 和 colnames[4] 是标量，而不是列表。您不能将标量与列表连接起来。要列出它们，请使用方括号：

colnames = [colnames[0]] + [colnames[4]] + colnames[:-1]

您可以使用df[[colnames]] 或df.reindex(columns=colnames)：两者都使用necessarily trigger 复制操作，因为无法就地处理此转换。

通用解决方案

但是将数组转换为列表，然后手动连接列表不仅成本高昂，而且容易出错。 related answer 有许多基于列表的解决方案，但基于 NumPy 的解决方案是值得的，因为 pd.Index 对象存储为 NumPy 数组。

这里的关键是通过切片而不是串联来修改 NumPy 数组。只有两种情况需要处理：当期望的位置存在于当前位置之后，反之亦然。

import pandas as pd, numpy as np
from string import ascii_uppercase

df = pd.DataFrame(columns=list(ascii_uppercase))

def shifter(df, col_to_shift, pos_to_move):
    arr = df.columns.values
    idx = df.columns.get_loc(col_to_shift)
    if idx == pos_to_move:
        pass
    elif idx > pos_to_move:
        arr[pos_to_move+1: idx+1] = arr[pos_to_move: idx]
    else:
        arr[idx: pos_to_move] = arr[idx+1: pos_to_move+1]
    arr[pos_to_move] = col_to_shift
    df = df.reindex(columns=arr)
    return df
    
df = df.pipe(shifter, 'J', 1)

print(df.columns)

Index(['A', 'J', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'K', 'L', 'M', 'N',
       'O', 'P', 'Q', 'R', 'S', 'T', 'U', 'V', 'W', 'X', 'Y', 'Z'],
      dtype='object')

性能基准测试

与基于列表的方法相比，使用 NumPy 切片处理大量列时效率更高：

n = 10000
df = pd.DataFrame(columns=list(range(n)))

def shifter2(df, col_to_shift, pos_to_move):
    cols = df.columns.tolist()
    cols.insert(pos_to_move, cols.pop(df.columns.get_loc(col_to_shift)))
    df = df.reindex(columns=cols)
    return df

%timeit df.pipe(shifter, 590, 5)   # 381 µs
%timeit df.pipe(shifter2, 590, 5)  # 1.92 ms

【讨论】：