【发布时间】:2020-02-01 21:43:56
【问题描述】:
我有两个 python 数据帧。下面是我的一个场景。 虽然这只是一个例子,但我会有数百万条记录,超过 100 列。基本上,我需要比较 2 个数据帧并创建第三个数据帧,其输出将具有不同的列、列名和两列之间的值。
这里是示例。
数据帧1:
EmpId EmpName LastName Sal Dept BusinessUnit
10020 Victor Oliver 12000 AI Amazon
23100 Jen Len 21220 Oracle Google
41667 Roby Alfredo 15000 Java LinkedIn
55124 Chen Frido 15662 Java Facebook
数据帧2:
EmpId EmpName LastName Sal Dept BusinessUnit
10020 Victor Oliver 12000 AI Amazon
23100 Jen Len 31220 Oracle AAA+
41667 Roby Chan 15000 Java LinkedIn
55124 Chen Frido 15662 Java Facebook
现在 DataFrame3 应该具有以下格式的结果。
("索引/主键")
EmpId Column_name dataFrame1_data dataFrame2_data
23100 Salary 21220 31220
23100 BusinessUnit Google AAA+
41667 LastName Alfredo Chan
【问题讨论】:
-
很难理解您以这种格式共享的数据。此外,您还没有提到您正在使用什么工具(例如 pandas),所以很难给您答案。如果您分享一些代码来演示您如何构建数据框,这将非常有帮助。