【问题标题】:In a group of correlated variables, how can I deduce which subset of variables best describe the remaining variables?在一组相关变量中,我如何推断出哪个变量子集最能描述其余变量?
【发布时间】:2017-01-03 19:11:59
【问题描述】:

我有一个包含 60 个传感器的数据集,进行了 1684 次测量。我希望减少实验期间使用的传感器数量,并使用剩余的传感器数据来预测(使用机器学习)移除的传感器。

我查看了数据(请参阅image)并发现了传感器之间的几个强相关性,这应该可以移除 X 传感器并使用剩余的传感器来预测它们的行为。

我如何“评分”哪一组传感器 (X) 最能预测剩余的一组 (60-X)?

【问题讨论】:

    标签: machine-learning statistics correlation prediction information-theory


    【解决方案1】:

    您熟悉主成分分析 (PCA) 吗?它是方差分析 (ANOVA) 的子代。 降维是描述这个过程的另一个术语。

    这些通常针对预测单个输出的一组输入,而不是一组对等测量。为了使您的案例适应这些方法,我认为您首先要考虑将 60 个传感器中的每一个依次作为“基本事实”,看看哪些传感器可以最可靠地由其余传感器驱动。删除这些并重复该过程,直到达到所需的相关阈值。

    我还建议使用遗传方法进行这种风选;也许随机森林在这个阶段会有所帮助。

    【讨论】:

    • 服用 pca。现在我们有两个组,比如说 20 个“in”和 240“out”。从随机分配开始,这应该很不错。现在为两个组取 pca,并提出交换,看看代表组的 pca 是否更接近整个组的 pca。
    • 不是随机创建组,是不是不可能; 1) 计算每个变量的原始数据与第一个主成分 (PC1) 之间的相关性 2) 移除与 PC1 相关性最差的传感器
    猜你喜欢
    • 2017-06-10
    • 2017-08-29
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2019-08-11
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多