基于自变量和因变量之间的关系模式对数据进行聚类答案

【问题标题】：Clustering data based on relationship patterns between independent variable and dependent variable(s)基于自变量和因变量之间的关系模式对数据进行聚类
【发布时间】：2013-11-29 12:07:53
【问题描述】：

我有兴趣根据因变量和自变量之间的关系对具有一维输出的二维输入数据进行聚类。例如，如果2个独立维度是x，y，因变量是z，并且（x，y）和z之间的关系在xy空间的不同区域是不同的；我想对数据进行聚类，以使 xy 空间中与 z 表现出相同功能关系的区域落入一个聚类中。 xy空间和z之间可以存在的函数关系是未知的。

如果有人可以向我提供指导/参考，说明哪些机器学习技术可以按原样使用或修改以适应这个问题，那就太好了。

【问题讨论】：

标签： machine-learning cluster-analysis pattern-recognition

【解决方案1】：

这个问题没有很好的答案，因为这是聚类和分类技术之间的整个杂交领域的核心概念。因此，已经提出了数十种方法，从对初始数据（在您的情况下是整个 XYZ 空间）进行聚类，到对每个集群中分类模型的可能行为进行独立分析，再到在一个大的优化问题中完全合并两个过程。在我看来，它几乎和问“我有一个 (x,f(x)) 形式的数据并想重构“f”，我该怎么做？”一样广泛。

因此，参考将在谷歌上搜索与聚类和分类混合相关的任何内容，因为您所问的问题相当于为（部分）独立的分类/回归任务建模找到一个好的聚类。

当然，如果你对这种函数关系的形式有所了解，那么整个问题就很容易解决了。例如，如果您知道您的函数关系或多或少是一个高斯函数，您可以简单地将一些高斯混合模型拟合到您的数据中。一般而言，考虑到函数的一些知识，EM（期望最大化）将是一个不错的选择。

【讨论】：