【发布时间】:2017-10-05 16:51:06
【问题描述】:
我有一个(可能很愚蠢)关于预测缺少预测变量的新实例的问题。
我得到了一个数据。假设我预处理、清理数据,结果,假设还剩下 10 个预测变量。然后,我根据结果数据训练我的模型,因此我准备使用模型进行预测。
现在,如果我想预测一个缺少 1 或 2 个预测变量的新实例,我该怎么办?
【问题讨论】:
标签: machine-learning prediction
我有一个(可能很愚蠢)关于预测缺少预测变量的新实例的问题。
我得到了一个数据。假设我预处理、清理数据,结果,假设还剩下 10 个预测变量。然后,我根据结果数据训练我的模型,因此我准备使用模型进行预测。
现在,如果我想预测一个缺少 1 或 2 个预测变量的新实例,我该怎么办?
【问题讨论】:
标签: machine-learning prediction
至少有两种合理的解决方案。
(1) 以非缺失变量的值为条件,对缺失变量的可能值进行平均输出。也就是说,为每个可能的缺失值计算输出预测(缺失、非缺失)的加权平均值,并根据给定非缺失的缺失概率加权。这本质上是文献中所谓的“多重插补”的多种形式。
首先要尝试通过缺失的无条件分布来加权。如果这看起来太复杂,一个非常粗略的近似值是将缺失的平均值代入预测。
(2) 为每个组合变量建立模型。如果您有 n 个变量,这意味着构建 2^n 个变量。如果 n = 10,那么如今 1024 个模型并不是什么大问题。然后,如果您遗漏了一些变量,只需将模型用于存在的变量即可。
顺便说一句,您可能会在 stats.stackexchange.com 上对这个问题更感兴趣。
【讨论】: