【发布时间】:2017-05-07 22:26:48
【问题描述】:
当我合并两个简单的数据框时,一切正常。但是当我将相同的代码应用于我的真实数据帧时,合并无法正常工作:
我想使用左连接将A 列上的df1 和df2 合并。
df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2', 'A3'],
'B': ['B0', 'B1', 'B2', 'B3']})
df2 = pd.DataFrame({'A': ['A0', 'A1', 'A2', 'A3','A4','A5'],
'C': ['C0', 'C1', 'C2', 'C3','C4','C5'],
'D': ['D0', 'D1', 'D2', 'D3','D4','A5']})
result = pd.merge(df1, df2[["A","C"]], how='left', on='A')
在这种情况下结果是正确的(result 中的行数与df1 相同)。
但是,当我在真实数据上运行相同的代码时,result 中的行数远大于df1,并且与df2 更相似。
result = pd.merge(df1, df2[["ID","EVENT"]], how='left', on='ID')
ID 字段的类型为字符串 (astype(str))。
这可能是什么原因?我不能在这里发布真实的数据集,但根据我的解释,也许仍然可以做一些指示。谢谢。
UDPATE:
我检查了数据框result,我可以看到许多具有相同ID 的重复行。为什么?
【问题讨论】:
-
也许你在 df1 或 df2 中有 dup ID