【发布时间】:2011-03-21 01:13:32
【问题描述】:
在 R 中重新编码变量似乎是我最头疼的问题。您使用哪些功能、软件包和流程来确保获得最佳结果?
我在 Internet 上找到的有用示例很少,它们提供了一种万能的重新编码解决方案,我很想看看你们正在使用什么。
注意:这可能是一个社区 wiki 主题。
【问题讨论】:
-
重新编码因子、数值、将连续变量分箱为离散类别,以上所有(以及更多)?
-
@Chase,这个问题是故意宽泛的,因为我想尽可能多地收集这个常见问题的可能解决方案。
-
Brandon Bertelsen,我只听说过通常意义上的“重新编码”“重命名分类标签/重新排序分类级别/交换级别标签”。永远不要为“将连续变量转换为离散类别”,这是分箱,而不是重新编码。也不用于更改切割阈值或分位数。您需要说明一些特定的用例并显示一些示例代码或数据。否则这是 a) 太模糊和 b) 一个可怕的规范。顺便说一句,谷歌也没有,Wikipedia isn't aware of this meaning of 'recoding'
-
@smci 欢迎您对这个 7 年前的问题提出修改建议。
标签: r