【问题标题】:pandas concat ignore_index doesn't work熊猫 concat ignore_index 不起作用
【发布时间】:2015-12-24 10:40:18
【问题描述】:

我正在尝试对数据帧进行列绑定,但遇到了 pandas concat 的问题,因为 ignore_index=True 似乎不起作用:

df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2', 'A3'],
                    'B': ['B0', 'B1', 'B2', 'B3'],
                    'D': ['D0', 'D1', 'D2', 'D3']},
                    index=[0, 2, 3,4])

df2 = pd.DataFrame({'A1': ['A4', 'A5', 'A6', 'A7'],
                    'C': ['C4', 'C5', 'C6', 'C7'],
                    'D2': ['D4', 'D5', 'D6', 'D7']},
                    index=[ 5, 6, 7,3])
df1
#     A   B   D
# 0  A0  B0  D0
# 2  A1  B1  D1
# 3  A2  B2  D2
# 4  A3  B3  D3

df2
#    A1   C  D2
# 5  A4  C4  D4
# 6  A5  C5  D5
# 7  A6  C6  D6
# 3  A7  C7  D7

dfs = [df1,df2]
df = pd.concat( dfs,axis=1,ignore_index=True)     
print df   

结果是

     0    1    2    3    4    5    
0   A0   B0   D0  NaN  NaN  NaN  
2   A1   B1   D1  NaN  NaN  NaN    
3   A2   B2   D2   A7   C7   D7   
4   A3   B3   D3  NaN  NaN  NaN  
5  NaN  NaN  NaN   A4   C4   D4  
6  NaN  NaN  NaN   A5   C5   D5  
7  NaN  NaN  NaN   A6   C6   D6           

即使我使用重置索引

 df1.reset_index()    
 df2.reset_index() 

然后试试

pd.concat([df1,df2],axis=1) 

它仍然产生相同的结果!

【问题讨论】:

  • pd.concat([df1, df2], axis=0, ignore_index=True) 会产生你想要的东西吗?如果没有,你能指定你的预期输出吗?
  • 不,它绑定了行。我想绑定列(追加)。我尝试了追加,这似乎也不起作用。
  • @ajcr,你比较过pd.concat([df1, df2], axis=1, ignore_index=True)pd.concat([df1, df2], axis=1) 的输出了吗?第一个不应该直观地模仿cbind吗?
  • 我认为ignore_index 只会忽略您要加入的轴上的标签,因此它仍然会在索引标签上进行外部连接。我同意函数参数的名称在这里不是最直观的。
  • 是的,我从@Alex 的回答中意识到这一点......但即使使用 ignore_index=False 我也有相同的结果

标签: python pandas append concat


【解决方案1】:

如果我理解正确,这就是你想做的。

import pandas as pd

df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2', 'A3'],
                    'B': ['B0', 'B1', 'B2', 'B3'],
                    'D': ['D0', 'D1', 'D2', 'D3']},
                    index=[0, 2, 3,4])

df2 = pd.DataFrame({'A1': ['A4', 'A5', 'A6', 'A7'],
                    'C': ['C4', 'C5', 'C6', 'C7'],
                    'D2': ['D4', 'D5', 'D6', 'D7']},
                    index=[ 4, 5, 6 ,7])


df1.reset_index(drop=True, inplace=True)
df2.reset_index(drop=True, inplace=True)

df = pd.concat( [df1, df2], axis=1) 

这给出了:

    A   B   D   A1  C   D2
0   A0  B0  D0  A4  C4  D4
1   A1  B1  D1  A5  C5  D5
2   A2  B2  D2  A6  C6  D6
3   A3  B3  D3  A7  C7  D7

实际上,我希望df = pd.concat(dfs,axis=1,ignore_index=True) 给出相同的结果。

这是 jreback 的精彩解释:

ignore_index=True‘ignores’,意思是不在连接轴上对齐。它只是按照传递的顺序将它们粘贴在一起,然后为实际索引重新分配一个范围(例如range(len(index))) 所以加入非重叠索引(假设axis=1在示例中)之间的区别在于,使用ignore_index=False(默认),你得到索引的连接,使用ignore_index=True你得到一个范围。

【讨论】:

  • 哦,那行得通……谢谢!有趣的是,我使用相同的方法在函数内绑定数据帧,而且效果很好!但一个外部功能不是
  • @mau,我已经更新了我的答案,现在使用pd.reset_index()。我认为这是一种更清洁的方式。
  • 我碰巧自己尝试过,如果我早点看到的话,可以节省几个小时 :)。谢谢...df = pd.concat( [df1.reset_index(drop=True), df2.reset_index(drop=True)], axis=1)
【解决方案2】:

ignore_index 选项在您的示例中有效,您只需要知道它忽略了 连接轴,在您的情况下是列。 (也许更好的名称是 ignore_labels。)如果您希望连接忽略索引标签,那么您的轴变量必须设置为 0(默认值)。

【讨论】:

  • 谢谢!这很有帮助(还不能投票,低代表)
  • 确实,这是文档中缺少的有用解释。
【解决方案3】:

同意 cmets,总是最好发布预期的输出。

这就是你想要的吗?

df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2', 'A3'],
                    'B': ['B0', 'B1', 'B2', 'B3'],
                    'D': ['D0', 'D1', 'D2', 'D3']},
                    index=[0, 2, 3,4])

df2 = pd.DataFrame({'A1': ['A4', 'A5', 'A6', 'A7'],
                    'C': ['C4', 'C5', 'C6', 'C7'],
                    'D2': ['D4', 'D5', 'D6', 'D7']},
                    index=[ 5, 6, 7,3])


df1 = df1.transpose().reset_index(drop=True).transpose()
df2 = df2.transpose().reset_index(drop=True).transpose()


dfs = [df1,df2]
df = pd.concat( dfs,axis=0,ignore_index=True)

print df



    0   1   2
0  A0  B0  D0
1  A1  B1  D1
2  A2  B2  D2
3  A3  B3  D3
4  A4  C4  D4
5  A5  C5  D5
6  A6  C6  D6
7  A7  C7  D7

【讨论】:

    【解决方案4】:

    如果要保留左侧数据框的索引,请使用set_index 将 df2 的索引设置为 df1:

    pd.concat([df1, df2.set_index(df1.index)], axis=1)
    

    【讨论】:

      【解决方案5】:

      你可以使用numpy的concatenate来达到效果。

      cols = df1.columns.to_list() + df2.columns.to_list()
      dfs = [df1,df2]
      df = np.concatenate(dfs, axis=1)  
      df = pd.DataFrame(df, columns=cols)
      
      Out[1]: 
          A   B   D  A1   C  D2
      0  A0  B0  D0  A4  C4  D4
      1  A1  B1  D1  A5  C5  D5
      2  A2  B2  D2  A6  C6  D6
      3  A3  B3  D3  A7  C7  D7
      

      【讨论】:

        【解决方案6】:

        感谢您的提问。我遇到过同样的问题。 出于某种原因,“ignore_index=True”对我没有帮助。 我想保留第一个数据集中的索引并忽略第二个索引,这对我有用

        X_train=pd.concat([train_sp, X_train.reset_index(drop=True, inplace=True)], axis=1)
        

        【讨论】:

          猜你喜欢
          • 1970-01-01
          • 2018-10-22
          • 2012-09-29
          • 2019-04-21
          • 2017-11-23
          • 1970-01-01
          • 1970-01-01
          • 2016-10-23
          相关资源
          最近更新 更多