【问题标题】:Predicting new instance with missing predictor预测缺少预测器的新实例
【发布时间】:2017-10-05 16:51:06
【问题描述】:

我有一个(可能很愚蠢)关于预测缺少预测变量的新实例的问题。

我得到了一个数据。假设我预处理、清理数据,结果,假设还剩下 10 个预测变量。然后,我根据结果数据训练我的模型,因此我准备使用模型进行预测。

现在,如果我想预测一个缺少 1 或 2 个预测变量的新实例,我该怎么办?

【问题讨论】:

    标签: machine-learning prediction


    【解决方案1】:

    至少有两种合理的解决方案。

    (1) 以非缺失变量的值为条件,对缺失变量的可能值进行平均输出。也就是说,为每个可能的缺失值计算输出预测(缺失、非缺失)的加权平均值,并根据给定非缺失的缺失概率加权。这本质上是文献中所谓的“多重插补”的多种形式。

    首先要尝试通过缺失的无条件分布来加权。如果这看起来太复杂,一个非常粗略的近似值是将缺失的平均值代入预测。

    (2) 为每个组合变量建立模型。如果您有 n 个变量,这意味着构建 2^n 个变量。如果 n = 10,那么如今 1024 个模型并不是什么大问题。然后,如果您遗漏了一些变量,只需将模型用于存在的变量即可。

    顺便说一句,您可能会在 stats.stackexchange.com 上对这个问题更感兴趣。

    【讨论】:

    • 我立即得到了第二个。但是我花了一点时间才理解第一个。我真的很感谢罗伯特。我参加了几门机器学习课程,并阅读了书籍,但从未见过这样的问题和答案。您能否向我推荐任何涵盖 ML 挑战及其在行业中的解决方案的书籍或课程?
    • 嗯,(1) 是贝叶斯方法。至于书籍,你可以看看 Brian Ripley 的“Pattern Recognition and Neural Networks”,或者 Hastie、Tibshirani 和 Friedman 的“Elements of Statistical Learning”。这两本书都有贝叶斯倾向,总的来说,我认为你会发现贝叶斯方法很有用。
    • 我真的很感激。我一定会考虑你提到的书。
    猜你喜欢
    • 2016-03-13
    • 2017-08-23
    • 2020-11-01
    • 1970-01-01
    • 1970-01-01
    • 2022-01-07
    • 2018-01-19
    • 2019-09-20
    • 1970-01-01
    相关资源
    最近更新 更多