基于数据的缺失值估计答案

【问题标题】：Data based estimation of missing values基于数据的缺失值估计
【发布时间】：2015-04-27 20:28:18
【问题描述】：

我手头有问题，我觉得应该有一个相当优雅的解决方案，但在这一点上，我很难找到正确的搜索词或朝着正确的方向迈出第一步。

基础知识： 我有一个 D = 19 的高维数据空间，并且在空间中有大约 100 个点（100 个测量值）。使用 PCA 和维数估计算法，我已经确认点所在的潜在空间是相对低维的（最多 5 维左右）。因此，我认为总的来说，我所要求的并非不可能。

问题： 现在，基于对新点的不完整测量，我想估计缺失值。问题是我不知道哪些值会丢失。基本上所有缺失值的组合都（有点）相似。 -> 我可能有 1 个缺失值、19 个缺失值或介于两者之间。在一个完美的世界中，我正在寻找的算法不仅给出了缺失值的估计，而且还给出了一些错误度量。

为了进一步说明，我附上一张带有原始数据的图片。 x 轴显示 19 个单独的测量参数，y 轴给出这些参数的值。您可以看到测量值高度相关。因此，即使我只指定一个测量/尺寸，我也应该能够对其余部分做出某种可靠的估计。

你们中的任何人对我有什么建议吗？任何想法或建议都会非常有帮助！谢谢，托马斯

【问题讨论】：

为了澄清，图中的每一行代表一只动物的骨长测量值。这解释了值之间的高度相关性，因为不同动物（不同物种）是相似的，但并不完全相同。所以现在我想使用这个数据集来推断缺失骨骼的骨骼长度。显然，找到/可用哪些骨骼是非常随意的，因此我不想要一个专门针对一组缺失值的模型。
我开始玩“期望最大化插补”，这也许可以解决问题。到目前为止，据我所知，缺点是我没有得到任何估计的统计置信度，而且总的来说我有点误用了这个方法。

【解决方案1】：

在给定任何已知变量的值的情况下，处理缺失数据的正确方法 (TM) 是对缺失变量进行平均（即积分）。贝叶斯信念网络是这个想法的形式化。如果你能多说一下变量是什么，我可以多说一下如何建立一个合适的信念网络。

【讨论】：

@Thomas 好的，这很有帮助。我的猜测是所有 19 个变量都与所有其他变量相关，没有任何因果方向。除非您做出一些强有力的简化假设，否则这可能有点混乱，例如：变量是联合高斯的。另一个简化假设是，如果中间骨骼的变量已知，则未连接骨骼的变量是独立的。鉴于您拥有少量数据，我的建议是尽可能多地利用先验信息来设置联合分布的参数。
好吧，我认为联合高斯的假设可能没问题。对于另一个我不确定的假设，因为这样我会阻止“信息”流过多个骨骼？不确定您的提议是否可行，但您能否引入某种隐藏/抽象节点。因此，在数据不完整的情况下，人们仍然可以尝试推断这些节点，然后这些节点将依次定义所有骨骼长度。例如，这些节点之一可以定义动物的“大小”。那么可能再增加 1-4 个节点就足以捕获其他（较小的）变化。
@Thomas 引入潜在（未观察到的）变量当然是有意义的。除此之外，请记住，在没有观察到中间变量的值的情况下，通过中间变量连接的两个变量通常（并不总是）依赖。我的建议是先画圆和线（表示变量和它们之间的关系），然后从中推导出代数陈述。网络搜索会找到许多参考资料。一个在这种情况下似乎很有帮助的随机示例：pages.cs.wisc.edu/~dpage/cs731/UndirectedModels.ppt