【问题标题】:Data based estimation of missing values基于数据的缺失值估计
【发布时间】:2015-04-27 20:28:18
【问题描述】:

我手头有问题,我觉得应该有一个相当优雅的解决方案,但在这一点上,我很难找到正确的搜索词或朝着正确的方向迈出第一步。

基础知识: 我有一个 D = 19 的高维数据空间,并且在空间中有大约 100 个点(100 个测量值)。使用 PCA 和维数估计算法,我已经确认点所在的潜在空间是相对低维的(最多 5 维左右)。因此,我认为总的来说,我所要求的并非不可能。

问题: 现在,基于对新点的不完整测量,我想估计缺失值。问题是我不知道哪些值会丢失。基本上所有缺失值的组合都(有点)相似。 -> 我可能有 1 个缺失值、19 个缺失值或介于两者之间。在一个完美的世界中,我正在寻找的算法不仅给出了缺失值的估计,而且还给出了一些错误度量。

为了进一步说明,我附上一张带有原始数据的图片。 x 轴显示 19 个单独的测量参数,y 轴给出这些参数的值。您可以看到测量值高度相关。因此,即使我只指定一个测量/尺寸,我也应该能够对其余部分做出某种可靠的估计。

你们中的任何人对我有什么建议吗?任何想法或建议都会非常有帮助! 谢谢, 托马斯

【问题讨论】:

  • 为了澄清,图中的每一行代表一只动物的骨长测量值。这解释了值之间的高度相关性,因为不同动物(不同物种)是相似的,但并不完全相同。所以现在我想使用这个数据集来推断缺失骨骼的骨骼长度。显然,找到/可用哪些骨骼是非常随意的,因此我不想要一个专门针对一组缺失值的模型。
  • 我开始玩“期望最大化插补”,这也许可以解决问题。到目前为止,据我所知,缺点是我没有得到任何估计的统计置信度,而且总的来说我有点误用了这个方法。

标签: machine-learning statistics regression correlation missing-data


【解决方案1】:

在给定任何已知变量的值的情况下,处理缺失数据的正确方法 (TM) 是对缺失变量进行平均(即积分)。贝叶斯信念网络是这个想法的形式化。如果你能多说一下变量是什么,我可以多说一下如何建立一个合适的信念网络。

【讨论】:

  • @Thomas 好的,这很有帮助。我的猜测是所有 19 个变量都与所有其他变量相关,没有任何因果方向。除非您做出一些强有力的简化假设,否则这可能有点混乱,例如:变量是联合高斯的。另一个简化假设是,如果中间骨骼的变量已知,则未连接骨骼的变量是独立的。鉴于您拥有少量数据,我的建议是尽可能多地利用先验信息来设置联合分布的参数。
  • 好吧,我认为联合高斯的假设可能没问题。对于另一个我不确定的假设,因为这样我会阻止“信息”流过多个骨骼?不确定您的提议是否可行,但您能否引入某种隐藏/抽象节点。因此,在数据不完整的情况下,人们仍然可以尝试推断这些节点,然后这些节点将依次定义所有骨骼长度。例如,这些节点之一可以定义动物的“大小”。那么可能再增加 1-4 个节点就足以捕获其他(较小的)变化。
  • @Thomas 引入潜在(未观察到的)变量当然是有意义的。除此之外,请记住,在没有观察到中间变量的值的情况下,通过中间变量连接的两个变量通常(并不总是)依赖。我的建议是先画圆和线(表示变量和它们之间的关系),然后从中推导出代数陈述。网络搜索会找到许多参考资料。一个在这种情况下似乎很有帮助的随机示例:pages.cs.wisc.edu/~dpage/cs731/UndirectedModels.ppt
猜你喜欢
  • 1970-01-01
  • 2019-05-19
  • 1970-01-01
  • 2014-06-21
  • 2020-04-18
  • 2014-04-12
  • 1970-01-01
  • 2019-08-16
相关资源
最近更新 更多