【问题标题】:Predict in Clustering聚类预测
【发布时间】:2011-12-28 01:41:10
【问题描述】:

在 R 语言中,在聚类中是否有预测功能,就像我们在分类中的方式一样? 除了比较两个集群之外,我们还能从 R 中得到的聚类图结果中得出什么结论?

【问题讨论】:

  • 引自“clustering”标签后面的文字:Clustering有2个含义;除了集群,请使用标签 [Computer-clustering ](en.wikipedia.org/wiki/Computer_cluster) 或 [Data-clustering ](en.wikipedia.org/wiki/Data_clustering)。对于数据聚类,给出大小——Ndata、Ndimension、Ncluster——将有助于人们给出更好的答案。
  • 你需要指定你一直在使用哪些函数。如果这是一个非常笼统的问题,那么您可能应该转至 CRAN 任务视图:cran.r-project.org/web/views/Cluster.html 目前这个问题还很笼统,无法回答,可能应该关闭。

标签: r cluster-analysis


【解决方案1】:

许多包都为集群对象提供predict 方法。其中一个例子是cluecl_predict

执行此操作时的最佳做法是应用用于聚类训练数据的相同规则。例如,在 Kernel K-Means 中,您应该计算数据点和集群中心之间的内核距离。最小值决定了集群分配 (see here for example)。在光谱聚类中,您应该将数据点的相异性投影到训练数据的特征函数中,将欧几里德距离与该空间中的 K-Means 中心进行比较,并确定您的聚类分配的最小值 (see here for example)。

【讨论】:

    【解决方案2】:

    聚类不关注预测能力。它只是试图找到似乎相关的对象。这就是为什么聚类结果没有“预测”功能的原因。

    但是,在许多情况下,基于集群的学习分类器可以提高性能。为此,您基本上训练了一个分类器以将对象分配给适当的集群,然后使用仅针对来自该集群的示例进行训练的分类器对其进行分类。当集群是纯的时,你甚至可以跳过这第二步。

    原因如下:可能有多个类型用相同的标签进行分类。在完整数据集上训练分类器可能很困难,因为它会尝试同时学习两个集群。将类分成两组,并为每组训练一个单独的分类器,可以显着简化任务。

    【讨论】:

      猜你喜欢
      • 2013-01-24
      • 2015-06-21
      • 2016-02-10
      • 2012-01-01
      • 2013-04-22
      • 2022-12-28
      • 2021-02-11
      • 1970-01-01
      • 2019-09-22
      相关资源
      最近更新 更多