在一组相关变量中，我如何推断出哪个变量子集最能描述其余变量？答案

【问题标题】：In a group of correlated variables, how can I deduce which subset of variables best describe the remaining variables?在一组相关变量中，我如何推断出哪个变量子集最能描述其余变量？
【发布时间】：2017-01-03 19:11:59
【问题描述】：

我有一个包含 60 个传感器的数据集，进行了 1684 次测量。我希望减少实验期间使用的传感器数量，并使用剩余的传感器数据来预测（使用机器学习）移除的传感器。

我查看了数据（请参阅image）并发现了传感器之间的几个强相关性，这应该可以移除 X 传感器并使用剩余的传感器来预测它们的行为。

我如何“评分”哪一组传感器 (X) 最能预测剩余的一组 (60-X)？

【问题讨论】：

标签： machine-learning statistics correlation prediction information-theory

【解决方案1】：

您熟悉主成分分析 (PCA) 吗？它是方差分析 (ANOVA) 的子代。降维是描述这个过程的另一个术语。

这些通常针对预测单个输出的一组输入，而不是一组对等测量。为了使您的案例适应这些方法，我认为您首先要考虑将 60 个传感器中的每一个依次作为“基本事实”，看看哪些传感器可以最可靠地由其余传感器驱动。删除这些并重复该过程，直到达到所需的相关阈值。

我还建议使用遗传方法进行这种风选；也许随机森林在这个阶段会有所帮助。

【讨论】：

服用 pca。现在我们有两个组，比如说 20 个“in”和 240“out”。从随机分配开始，这应该很不错。现在为两个组取 pca，并提出交换，看看代表组的 pca 是否更接近整个组的 pca。
不是随机创建组，是不是不可能； 1) 计算每个变量的原始数据与第一个主成分 (PC1) 之间的相关性 2) 移除与 PC1 相关性最差的传感器