使用 python pandas 数据框时，如何对列进行分组？答案

【问题标题】：When using python pandas dataframe, how do you group columns?使用 python pandas 数据框时，如何对列进行分组？
【发布时间】：2018-04-13 09:14:36
【问题描述】：

我的输入 excel (xlsx) 文件格式如下：

mz     n     n     n     n     g_1     g_1     g_2     g_2     g_2     
1      2     3     4     5     6       7       8       8       8       
1      2     3     4     5     6       7       8       8       8       
1      2     3     4     5     6       7       8       8       8       
1      2     3     4     5     6       7       8       8       8

当我使用 pd.read_excel 读取文件时，它会以某种方式将数字添加到每一列，例如：

mz     n     n.1     n.2     n.3     g_1     g_1.1     g_2     g_2.1     g_2.2
1      2     3       4       5       6       7         8       8         8
1      2     3       4       5       6       7         8       8         8      
1      2     3       4       5       6       7         8       8         8

所以我无法使用 groupby 将具有“n”、“g_1”等的人分组。有没有办法让 groupby 在特定组上工作？我尝试合并具有相同类型的列标题，但无济于事。

编辑：我选择的答案解决了这个问题。但是，我还有一个额外的问题。当我从答案中添加代码时，生成的分组数据框的列全部乱序。有没有办法保存列名的顺序？谢谢！

【问题讨论】：

stackoverflow.com/questions/39986925/…
我在发布之前确实找到了这篇文章。这篇文章不适用于我，或者我不知道如何将其应用于我的问题。

标签： python pandas dataframe

【解决方案1】：

IIUC，使用split，然后在'.'之前的第一部分分组：

df.groupby(df.columns.str.split('.').str[0], axis=1).sum()

输出：

   g_1  g_2  mz   n
0   13   24   1  14
1   13   24   1  14
2   13   24   1  14

df 在哪里：

   mz  n  n.1  n.2  n.3  g_1  g_1.1  g_2  g_2.1  g_2.2
0   1  2    3    4    5    6      7    8      8      8
1   1  2    3    4    5    6      7    8      8      8
2   1  2    3    4    5    6      7    8      8      8

【讨论】：