【发布时间】:2021-10-11 20:56:37
【问题描述】:
我有一个包含两列“ID”和“CODCOM”的数据集,大约有 100 万行。第一列“ID”包含重复值。
| ID | CODCOM |
|---|---|
| 10000 | 12 |
| 101010 | 14 |
| 201020 | 11 |
| 201020 | 11 |
| 201020 | 12 |
| 324032 | 43 |
| 324032 | 43 |
| 324032 | 43 |
| 405044 | 51 |
| 323032 | 21 |
我想将“ID”重复值分组到不同的组中,然后计算每个组的模式,之后我想用相关的模式值创建一个新列。像这样的:
| ID | CODCOM | NEW_COL |
|---|---|---|
| 10000 | 12 | 12 |
| 101010 | 14 | 14 |
| 201020 | 11 | 11 |
| 201020 | 11 | 11 |
| 201020 | 12 | 11 |
| 324032 | 43 | 43 |
| 324032 | 43 | 43 |
| 324032 | 43 | 43 |
| 405044 | 51 | 51 |
| 323032 | 21 | 43 |
我怎样才能以简单的方式做到这一点?
非常感谢您提供的任何帮助。
【问题讨论】:
-
或者,如果这些方法不够快,另一种选择:stackoverflow.com/a/29686203/6851825