相关性在无监督学习（聚类）中是否重要？答案

【问题标题】：Does correlation important factor in Unsupervised learning (Clustering)?相关性在无监督学习（聚类）中是否重要？
【发布时间】：2020-04-17 01:40:18
【问题描述】：

我正在处理大小为 (500, 33) 的数据集。

特别是数据集包含9个特征

[X_High, X_medium, X_low, Y_High, Y_medium, Y_low, Z_High, Z_medium, Z_low]

在视觉上和相关矩阵计算后我观察到

[X_High, Y_High, Z_High] & [ X_medium, Y_medium, Z_medium ] & [X_low, Y_low, Z_low] 高度相关（85% 以上）。

我想执行聚类算法（比如 K 均值或 GMM 或 DBSCAN）。

在这种情况下，

是否有必要去除无监督学习的相关特征？删除相关性或修改功能是否会产生任何影响？

【问题讨论】：

【解决方案1】：

我在这里的假设是您问这个问题是因为在线性建模的情况下，高度共线的变量可能会导致问题。

简短的回答是否定的，您不需要出于共线性问题从聚类中删除高度相关的变量。聚类不依赖于线性假设，因此共线性不会导致问题。

这并不意味着使用一堆高度相关的变量是一件好事。您的功能可能过于冗余，并且您使用的数据可能超出了达到相同模式所需的数据。对于您的数据大小/功能集，这可能不是问题，但对于大数据，您可以通过 PCA/降维利用相关变量来减少计算开销。

【讨论】：

如果我有一个非常小的数据集，比如 (35,45)。在这种情况下，删除特征是一个不错的选择？
我想明确一点，删除特征与我建议的 PCA/降维技术并不完全相同（如果您不熟悉降维）。彻底删除特性是一个复杂的话题——你有什么理由说这些特性无关紧要？删除它们会以某种方式使您的模型产生偏差或导致其假设出现问题吗？这是一个很大的话题，在这里无法完全回答，但它是您的数据大小、计算时间和您对数据的了解之间的权衡。
如果您有一个与其他任何特征高度不相关的特征怎么办？由于缺乏数据链接，此功能是否会成为无监督学习的潜在候选者？