【发布时间】:2016-10-27 07:21:55
【问题描述】:
我有一个数据框,其中某些基本列为 NULL(我需要进一步的机器学习工作)。我有另一个数据框,其中包含类似的数据,我想从中提取缺失值。
例如,df1 是主数据框
id col1 col2 col3 col4 col5
1 A AA 100 5.0 0.9
2 A BB 150 4.2 0.5
3 A CC 100 NaN NaN
4 B AA 300 NaN NaN
5 B BB 100 NaN NaN
6 C BB 50 3.4 0.6
我想在col4 和col5 中填充那些NaN 列的数据框可能像
id col1 col3 col4 col5
100 A 100 4.5 1.0
101 A 100 3.5 0.8
103 B 300 5.0 0.5
105 B 300 5.5 0.8
106 B 100 5.3 0.2
107 C 100 3.0 1.2
所以,我在第二个 df 中没有 col2,并且我可以合并 col1 和 col2 列的重复项。所以,我必须选择col4 值最大的值来填充df1 中的对应值。
例如,df1 填入数据后的正确值为:
id col1 col2 col3 col4 col5
1 A AA 100 5.0 0.9
1 A BB 150 4.2 0.5
1 A CC 100 4.5 1.0
1 B AA 300 5.5 0.8
1 B BB 100 5.3 0.2
1 C BB 50 3.4 0.6
我该怎么做?
【问题讨论】:
-
col5中的最大值是否总是与col4中的最大值出现在同一行中? -
@unutbu 不一定