【发布时间】:2015-04-27 20:28:18
【问题描述】:
我手头有问题,我觉得应该有一个相当优雅的解决方案,但在这一点上,我很难找到正确的搜索词或朝着正确的方向迈出第一步。
基础知识: 我有一个 D = 19 的高维数据空间,并且在空间中有大约 100 个点(100 个测量值)。使用 PCA 和维数估计算法,我已经确认点所在的潜在空间是相对低维的(最多 5 维左右)。因此,我认为总的来说,我所要求的并非不可能。
问题: 现在,基于对新点的不完整测量,我想估计缺失值。问题是我不知道哪些值会丢失。基本上所有缺失值的组合都(有点)相似。 -> 我可能有 1 个缺失值、19 个缺失值或介于两者之间。在一个完美的世界中,我正在寻找的算法不仅给出了缺失值的估计,而且还给出了一些错误度量。
为了进一步说明,我附上一张带有原始数据的图片。 x 轴显示 19 个单独的测量参数,y 轴给出这些参数的值。您可以看到测量值高度相关。因此,即使我只指定一个测量/尺寸,我也应该能够对其余部分做出某种可靠的估计。
你们中的任何人对我有什么建议吗?任何想法或建议都会非常有帮助! 谢谢, 托马斯
【问题讨论】:
-
为了澄清,图中的每一行代表一只动物的骨长测量值。这解释了值之间的高度相关性,因为不同动物(不同物种)是相似的,但并不完全相同。所以现在我想使用这个数据集来推断缺失骨骼的骨骼长度。显然,找到/可用哪些骨骼是非常随意的,因此我不想要一个专门针对一组缺失值的模型。
-
我开始玩“期望最大化插补”,这也许可以解决问题。到目前为止,据我所知,缺点是我没有得到任何估计的统计置信度,而且总的来说我有点误用了这个方法。
标签: machine-learning statistics regression correlation missing-data