建模分类数据：假人还是因素？答案

【问题标题】：Modelling Categorical Data: Dummies or Factors?建模分类数据：假人还是因素？
【发布时间】：2018-03-31 15:02:31
【问题描述】：

我正在使用 coxph 模型来估计不同的协变量。

我的模型中的一个协变量是一个名为 LOCATION 的分类变量，特别是一个地理变量，它可以有四种状态：

Boston=1

NY=2

MIAMI=3

LA=4

我真的很困惑函数如何处理分类变量。 Klein 和 Moeschberger（2005 年）在他们的《生存分析》一书中写道，人们应该将分类视为假人。因此，我将创建三个虚拟变量：NY、MIAMI 和 LA，其中 BOSTON 将是参考组，我的模型如下所示：

这让我很好奇，因为如果这个模型应该是正确的，那么函数应该会自动理解波士顿是那种情况下的参考群体？

另一方面，我曾经读到可以简单地将 LOCATION 变量转换为一个因素：

老实说，第二个模型对我来说更有意义，但我真的很困惑，因为我引用的那本书说应该像第一个模型一样对待它。（也许这本书太旧了？）

那么现在哪个模型是正确的？

谢谢，

【问题讨论】：

我认为作为一般规则，在R 中您应该使用因子。但是请注意，如果您想要该订单，您必须设置factorargumet levels = c("Boston", "NY", "Miami", "LA")。

标签： r

【解决方案1】：

他们应该给你同样的东西（至少他们在普通的线性回归和 GLM 模型中做）。如果您给 R 一个因子，它将使用您的第一个因子水平作为参考水平“在幕后”创建假人。

包含因子的输出应将因子名称列出 3 次，稍作修改以显示它所指的级别。

【讨论】：