【问题标题】:Merge if possible otherwise concat pandas如果可能,合并,否则 concat pandas
【发布时间】:2021-03-16 19:23:19
【问题描述】:

我有 3 个 df,我想合并其中前 3 列是相同数据(如果存在),之后的列是每个 df 的新列。例如 df[3:] 不同于 df2[3:]

如果它们具有相同的唯一标识符,我想合并它们,否则我想合并。

df1

ID    A     B     2009   2010   
1     A     B        2      3
2     A     C        2      2
3     A     B        3      3

df2

ID    A     B     2011   2012   
2     A     C        2      2
3     A     C        3      4
5     A     B        8      9

df3

ID    A     B     2013   2014   
2     A     C        2      3
4     A     E        3      4
5     A     B        8      9

结果 df

ID    A     B      2009   2010   2011   2012   2013    2014
1     A     B        2      3.     2.     3.      
2     A     C        2      2.     2.     2.      2.     3 
3     A     C        3      3.     3.     4.      
4     A     E                                      3.     4 
5     A     B                      8      9        8.     9

编辑:固定 df 数据。其次,我注意到的一个问题是,当我合并时,我的数据 A 和 B 是重复的,A_X、A_Y、A_Z、B_X、B_Y、B_Z 提前谢谢你

【问题讨论】:

  • 您确定您的数据正确吗?
  • 为什么 2013、2014 的列中有4. 5
  • 修复了它。谢谢

标签: python pandas


【解决方案1】:

结果有问题。

但是合并的代码会是这样的:

from functools import reduce
import pandas as pd
dfs = [df1,df2,df3]

df_merged = reduce(lambda  left,right: pd.merge(left,right,on=['ID'],
                                            how='outer'), dfs)

df_merged:

    ID  2009  2010  2011    2012    2013  2014
0   1   2.0   3.0   2.0     3.0     NaN   NaN
1   2   3.0   4.0   3.0     4.0     2.0   3.0
2   3   4.0   5.0   4.0     5.0     NaN   NaN
3   4   NaN   NaN   NaN     NaN     3.0   4.0
4   5   NaN   NaN   NaN     NaN     8.0   9.0

编辑:

只需使用on=['ID', 'A', 'B']

输出:

    ID  A   B   2009 2010 2011  2012 2013 2014
0   1   A   B   2.0  3.0  NaN   NaN  NaN  NaN
1   2   A   C   2.0  2.0  2.0   2.0  2.0  3.0
2   3   A   B   3.0  3.0  NaN   NaN  NaN  NaN
3   3   A   C   NaN  NaN  3.0   4.0  NaN  NaN
4   5   A   B   NaN  NaN  8.0   9.0  8.0  9.0
5   4   A   E   NaN  NaN  NaN   NaN  3.0  4.0

【讨论】:

  • 嗨,我编辑了我的问题和表格以适应更多我正在做的事情,我注意到当我使用您的代码时,合并列 A、B 在结果数据框中重复为A_x、A_y、A_z。
  • 我在更新 dattime64[ns] 时遇到错误,假设 A 或 B 列是日期时间,我应该如何继续?
  • hm....关于 A 列和 B 列的日期,我该怎么办?
【解决方案2】:

试试pd.concat([df.set_index('ID') for df in [df1, df2, df3]], axis=1).reset_index()

列表理解将ID 设置为每个数据帧的索引。然后我们水平连接。水平连接尝试尽可能匹配索引,否则会添加行。最后,我们重置索引。

【讨论】:

  • 我的 A、B 列在连接中重复出现了 3 次?
  • @Leo 不确定您的列名是什么,但在这种情况下使用set_index(['ID', 'A', 'B'])
猜你喜欢
  • 1970-01-01
  • 2019-03-23
  • 2017-04-05
  • 2020-03-19
  • 1970-01-01
  • 2018-07-24
  • 1970-01-01
  • 1970-01-01
  • 2019-10-20
相关资源
最近更新 更多