【问题标题】:Fuzzy c- means categorical data模糊 c- 表示分类数据
【发布时间】:2011-12-03 15:57:24
【问题描述】:

fuzzy c-means 可以应用于非数字数据集吗?即分类或混合数字和分类.. 如果是的话(我希望如此 :( ):

  • 我们如何计算聚类中心?

如果否,有什么替代方法..如何对这些数据进行模糊聚类?

我需要回复请帮忙

注意:我已经使用 Jacard 系数来计算 2 点之间的距离,但仍然没有得到计算聚类中心的方法,请参阅附件

【问题讨论】:

  • 为什么它没有用或不清楚?请告诉我

标签: machine-learning cluster-analysis data-mining fuzzy


【解决方案1】:

您必须将数据转换为数字形式。有多种方法可以做到这一点,其中两种是:

  • 使用特征计数向量(常见于文本分类等)
  • 使用 one-hot 表示,其中可以采用 n 个不同值的分类特征表示为 n 位的字符串,只有 i如果特征在其允许范围内具有第 i 个值,则设置第 个位。

这两者都是许多机器学习程序在后台执行的非常常见的转换。此外,您可能希望尝试使用与欧几里得不同的度量。特别是。使用 one-hot 表示,但根据数据,L1 范数(曼哈顿/城市街区距离)可能更合适。

除此之外,只需将给定的公式应用于转换后的数据集。

【讨论】:

  • 感谢您的回答,请您查看更新后的问题
  • @AWRAM:我认为 Jaccard 系数在一般情况下不会产生平均值,因此您需要切换到数字表示或 k-medoids 算法
  • 假设我们将特征转换为二进制表示,例如,我在集群 A 中有 3 个点,每个点都有一个对该集群的成员值,如下 p1(1000,0.5(membership)) p2(0100,0.7) p3(0001,0.4)。在这种情况下如何计算平均值?
  • @AWRAM:特征 1、2 和 4 在您的三个集合中出现一次,而特征 3 没有出现,因此未加权平均值为 [1/3, 1/3, 0, 1/ 3]。加权案例以通常的方式由此而来。
  • 上面提到的集群中心vj可能是什么?
猜你喜欢
  • 2010-12-18
  • 2014-07-23
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2010-09-11
  • 2017-04-04
相关资源
最近更新 更多