【问题标题】:Modelling Categorical Data: Dummies or Factors?建模分类数据:假人还是因素?
【发布时间】:2018-03-31 15:02:31
【问题描述】:

我正在使用 coxph 模型来估计不同的协变量。

我的模型中的一个协变量是一个名为 LOCATION 的分类变量,特别是一个地理变量,它可以有四种状态:

Boston=1

NY=2

MIAMI=3

LA=4

我真的很困惑函数如何处理分类变量。 Klein 和 Moeschberger(2005 年)在他们的《生存分析》一书中写道,人们应该将分类视为假人。 因此,我将创建三个虚拟变量:NY、MIAMI 和 LA,其中 BOSTON 将是参考组,我的模型如下所示:

  1. coxph(surv(start,event)~NY+MIAMI+LA, data=FNMA) (虚拟模型)

这让我很好奇,因为如果这个模型应该是正确的,那么函数应该会自动理解波士顿是那种情况下的参考群体?

另一方面,我曾经读到可以简单地将 LOCATION 变量转换为一个因素:

  1. coxph(surv(start,event)~factor(LOCATION), data=FNMA) (因子模型)

老实说,第二个模型对我来说更有意义,但我真的很困惑,因为我引用的那本书说应该像第一个模型一样对待它。(也许这本书太旧了?)

那么现在哪个模型是正确的?

谢谢,

KS

【问题讨论】:

  • 我认为作为一般规则,在R 中您应该使用因子。但是请注意,如果您想要该订单,您必须设置factorargumet levels = c("Boston", "NY", "Miami", "LA")

标签: r


【解决方案1】:

他们应该给你同样的东西(至少他们在普通的线性回归和 GLM 模型中做)。如果您给 R 一个因子,它将使用您的第一个因子水平作为参考水平“在幕后”创建假人。

包含因子的输出应将因子名称列出 3 次,稍作修改以显示它所指的级别。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2021-06-29
    • 2021-02-23
    • 2015-02-23
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多