【发布时间】:2017-04-05 15:04:36
【问题描述】:
我有一个看起来有点像这样的数据集:
ID Name Address Zip Cost
1 Bob the Builder 123 Main St 12345
1 Bob the Builder $99,999.99
2 Bob the Builder 123 Sub St 54321 $74,483.01
3 Nigerian Prince Area 51 33333 $999,999.99
3 Pinhead Larry Las Vegas 31333 $11.00
4 Fox Mulder Area 51 $0.99
缺少数据是可以的,除非它们很明显可以合并。我的意思是代替上面的数据集,我想合并ID和Name相同的行,并且其他特征可以互相填补空白。例如,上面的数据集将变为:
ID Name Address Zip Cost
1 Bob the Builder 123 Main St 12345 $99,999.99
2 Bob the Builder 123 Sub St 54321 $74,483.01
3 Nigerian Prince Area 51 33333 $999,999.99
3 Pinhead Larry Las Vegas 31333 $11.00
4 Fox Mulder Area 51 $0.99
我考虑过使用df.groupby(["ID", "Name"]),然后将字符串连接起来,因为缺失的值是空字符串,但没有成功。
数据已从网站上删除,因此它们必须经过大量清理才能最终到达这里。我想不出一种优雅的方式来解决这个问题!
【问题讨论】:
标签: python pandas dataframe duplicates