如何使用 MatchIt 在 R 中准备倾向得分匹配的变量？答案

【问题标题】：How to prepare the variables for propensity score matching in R using MatchIt?如何使用 MatchIt 在 R 中准备倾向得分匹配的变量？
【发布时间】：2020-04-26 07:02:03
【问题描述】：

我有一个包含大约 200 列和 100 万行的大型数据集。我有一个治疗组，我正在尝试使用基于大约 15 个不同变量的倾向匹配评分创建一个对照组。

我有两个问题在网上找到了相互矛盾的答案，如果您能帮助我，我将不胜感激。

1) 如何组织数据以最好地运行匹配过程？我的数据混合了数字、字符和因子（一些是有序的，另一些不是）变量，我在网上看到有人说 MatchIt 程序使用字符变量运行分析，而另一些人说它不适用于“最近”功能，但与其他功能一起使用。那么，我是否应该努力将所有内容都转换为数字或因子（我不确定这是否可能），或者我可以使用我的变量运行 MatchIt 吗？

2) 函数 MatchIt 是否已更新为读取未用于匹配函数的变量中的 NA？我看到一些旧帖子说 MatchIt 需要一个完整的数据集，即使对于未用于匹配的变量也是如此，但这些帖子也说它可能会被修复。还是这样吗？

谢谢

【问题讨论】：

标签： r propensity-score-matching

【解决方案1】：

1) 除了数据类型之外，您应该问自己的问题是，将分类数据赋予倾向得分设置有何意义。倾向得分基于观测值之间的距离，计算分类属性之间的距离显然很困难。因此，即使从技术上讲，MatchIt 确实支持其他类型，但数字特征是唯一真正合理的数据输入。您可以选择丢弃数据中的分类数据或将其转换为数字（通过创建虚拟变量和对序数特征进行数字编码）。或者，您可以保留分类特征并使用matchit 函数的exact 参数对这些特征施加精确匹配（请注意，在这种情况下，您实际上不再使用倾向得分匹配......）。

2) 这个问题在当前的3.0.2版本还没有解决，显然很烦人..

【讨论】：