聚类预测答案

【问题标题】：Predict in Clustering聚类预测
【发布时间】：2011-12-28 01:41:10
【问题描述】：

在 R 语言中，在聚类中是否有预测功能，就像我们在分类中的方式一样？除了比较两个集群之外，我们还能从 R 中得到的聚类图结果中得出什么结论？

【问题讨论】：

引自“clustering”标签后面的文字：Clustering有2个含义；除了集群，请使用标签 [Computer-clustering ](en.wikipedia.org/wiki/Computer_cluster) 或 [Data-clustering ](en.wikipedia.org/wiki/Data_clustering)。对于数据聚类，给出大小——Ndata、Ndimension、Ncluster——将有助于人们给出更好的答案。
你需要指定你一直在使用哪些函数。如果这是一个非常笼统的问题，那么您可能应该转至 CRAN 任务视图：cran.r-project.org/web/views/Cluster.html 目前这个问题还很笼统，无法回答，可能应该关闭。

【解决方案1】：

许多包都为集群对象提供predict 方法。其中一个例子是clue，cl_predict。

执行此操作时的最佳做法是应用用于聚类训练数据的相同规则。例如，在 Kernel K-Means 中，您应该计算数据点和集群中心之间的内核距离。最小值决定了集群分配 (see here for example)。在光谱聚类中，您应该将数据点的相异性投影到训练数据的特征函数中，将欧几里德距离与该空间中的 K-Means 中心进行比较，并确定您的聚类分配的最小值 (see here for example)。

【讨论】：

【解决方案2】：

聚类不关注预测能力。它只是试图找到似乎相关的对象。这就是为什么聚类结果没有“预测”功能的原因。

但是，在许多情况下，基于集群的学习分类器可以提高性能。为此，您基本上训练了一个分类器以将对象分配给适当的集群，然后使用仅针对来自该集群的示例进行训练的分类器对其进行分类。当集群是纯的时，你甚至可以跳过这第二步。

原因如下：可能有多个类型用相同的标签进行分类。在完整数据集上训练分类器可能很困难，因为它会尝试同时学习两个集群。将类分成两组，并为每组训练一个单独的分类器，可以显着简化任务。

【讨论】：