【发布时间】:2020-12-08 18:31:55
【问题描述】:
我正在尝试执行以下操作。在我的面板数据集中,我观察了一个不同年龄的人。虽然数据不精确,所以我可能会在不同年份重复一个人的相同年龄(例如 [id=1, year=2000, age=40] 和 [id=1, year=2001, age=40]。我想识别这些观察结果并将它们替换为不同的变量,对应于“年份”-“出生年份”。
所以我有类似的东西:
| id | year | age | year_birth | age_dv |
|---|---|---|---|---|
| 1 | 2000 | 40 | 1960 | 40 |
| 1 | 2001 | 40 | 1960 | 41 |
| 1 | 2002 | 42 | 1960 | 42 |
我想替换为:
| id | year | age | year_birth | age_dv |
|---|---|---|---|---|
| 1 | 2000 | 40 | 1960 | 40 |
| 1 | 2001 | 41 | 1960 | 41 |
| 1 | 2002 | 42 | 1960 | 42 |
我之前在 Stata 中做过这个,我会创建一个列,根据 id 和 age 标识重复项(例如,如果它是重复项,则为 1)并使用这个新的“标签”列上的条件替换这些变量。
最终结果如下:
| id | year | age | year_birth | age_dv | duplicate |
|---|---|---|---|---|---|
| 1 | 2000 | 40 | 1960 | 40 | 0 |
| 1 | 2001 | 41 | 1960 | 41 | 1 |
| 1 | 2002 | 42 | 1960 | 42 | 0 |
我可以在 R 中做同样的事情吗?还是有更好的办法?
【问题讨论】:
标签: r duplicates