【发布时间】:2015-12-23 21:54:12
【问题描述】:
我只上 R 入门课程,所以这可能是非常基础的。
我正在使用 Outlook on Life 数据集并对收入感兴趣。受访者必须选择以下 19 个选项之一:
Less than $5,000
$5,000 to $7,499
$7,500 to $9,999
$10,000 to $12,499
$12,500 to $14,999
$15,000 to $19,999
$20,000to $24,999
$25,000 to $29,999
$30,000 to $34,999
$35,000 to $39,999
$40,000 to $49,999
$50,000 to $59,999
$60,000 to $74,999
$75,000 to $84,999
$85,000 to $99,999
$100,000 to $124,999
$125,000 to $149,999
$150,000 to $174,999
$175,000 or more
为了让情节更容易理解,我想将其折叠并简化为以下内容:
- 在贫困线以下 ($0 - 24,999),
- 工薪阶层 ($25,000 - 34,999),
- 中下阶层(35,000 - 60,000 美元),
- 中产阶级(60,000 - 100,000 美元),
- 中上阶层(100,000 - 150,000 美元),
- 前 5%(150,000 美元以上)。
我将如何重新编码?
谢谢!
【问题讨论】:
-
试试剪切功能
-
您的间隔有问题。如果有人赚了 22,000,他们会选择第 7 组(20k - 24,999)。你会希望他们在贫困线以下。但是赚 24k 的人也会选择第 7 组。但他们在工薪阶层。你怎么知道区别?
-
是的,有问题。我可以按摩我想要的分组,以便它们更适合预先设定的间隔。所以我可以让 Under Poverty Line 上升到 24,999。然后是工人阶级 34,999。
-
@Katherine:编辑您的代码/问题,以便它提出一个有合理答案的问题。评论不是修改问题的正确方法。