【问题标题】:How to prepare the variables for propensity score matching in R using MatchIt?如何使用 MatchIt 在 R 中准备倾向得分匹配的变量?
【发布时间】:2020-04-26 07:02:03
【问题描述】:

我有一个包含大约 200 列和 100 万行的大型数据集。我有一个治疗组,我正在尝试使用基于大约 15 个不同变量的倾向匹配评分创建一个对照组。

我有两个问题在网上找到了相互矛盾的答案,如果您能帮助我,我将不胜感激。

1) 如何组织数据以最好地运行匹配过程?我的数据混合了数字、字符和因子(一些是有序的,另一些不是)变量,我在网上看到有人说 MatchIt 程序使用字符变量运行分析,而另一些人说它不适用于“最近”功能,但与其他功能一起使用。那么,我是否应该努力将所有内容都转换为数字或因子(我不确定这是否可能),或者我可以使用我的变量运行 MatchIt 吗?

2) 函数 MatchIt 是否已更新为读取未用于匹配函数的变量中的 NA?我看到一些旧帖子说 MatchIt 需要一个完整的数据集,即使对于未用于匹配的变量也是如此,但这些帖子也说它可能会被修复。还是这样吗?

谢谢

【问题讨论】:

    标签: r propensity-score-matching


    【解决方案1】:

    1) 除了数据类型之外,您应该问自己的问题是,将分类数据赋予倾向得分设置有何意义。倾向得分基于观测值之间的距离,计算分类属性之间的距离显然很困难。因此,即使从技术上讲,MatchIt 确实支持其他类型,但数字特征是唯一真正合理的数据输入。您可以选择丢弃数据中的分类数据或将其转换为数字(通过创建虚拟变量和对序数特征进行数字编码)。或者,您可以保留分类特征并使用matchit 函数的exact 参数对这些特征施加精确匹配(请注意,在这种情况下,您实际上不再使用倾向得分匹配......)。

    2) 这个问题在当前的3.0.2版本还没有解决,显然很烦人..

    【讨论】:

      猜你喜欢
      • 2021-02-20
      • 2015-09-25
      • 1970-01-01
      • 1970-01-01
      • 2019-09-24
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多