【发布时间】:2018-08-27 13:41:09
【问题描述】:
我有一个包含多列且缺少数据的数据框:
Unit# Mile Direction
1 of 2 NaN NaN
2 of 2 228.7mi NaN
1 of 2 NaN NaN
2 of 2 229.7mi NaN
1 of 2 NaN NaN
2 of 2 228.7mi NaN
1 of 3 NaN NaN
2 of 3 227.7mi NaN
3 of 3 NaN NaN
我想做两件事,
- 填写 Mile 列以匹配“2 of x”列
- 根据英里列的前进方向,使用向上或向下填写方向列。
理想的输出应该是这样的:
Unit# Mile Direction
1 of 2 228.7mi Up
2 of 2 228.7mi Up
1 of 2 229.7mi Up
2 of 2 229.7mi Up
1 of 2 228.7mi Down
2 of 2 228.7mi Down
1 of 3 227.7mi Down
2 of 3 227.7mi Down
3 of 3 227.7mi Down
我的主要问题是:
- 我如何让它知道我想要替换哪个单元“1 of 2”以及偶尔设置“3”时该怎么办
- 由于这个数据框有 500000+ 行,我该如何遍历整个数据集?我最初的想法是一个循环,但这会非常低效并且需要很长时间。
【问题讨论】:
-
是否有其他唯一标识符来分隔单位?
-
@ScottBoston 如果有帮助,还有一个格式为“YYYY-MM-DD HH:MM:SS.S”的“日期时间”列,但这些是唯一唯一的列
标签: python python-3.x algorithm pandas missing-data