【发布时间】:2019-02-23 08:30:55
【问题描述】:
我正在尝试仅使用分类变量运行聚类。由于 Kmeans 仅适用于 Numeric 数据,是否有任何可用的聚类技术?
我有 30 个变量,例如邮政编码、年龄组、爱好、首选渠道、婚姻状况、信用风险(低、中、高)、教育状况等。如果我将这些变量中的每一个都转换为虚拟变量并运行 kmeans,我将有 90 列(30*3 - 假设每个变量有 4 个因子)。这是正确的吗?
【问题讨论】:
-
当前措辞的问题是关于算法细节而不是编程,所以这里是题外话。你应该把这个发到stats.stackexchange.com。
-
附带说明一下,您是否尝试过对分类数据进行编码,然后应用通常的聚类技术?也许这些可以在您的数据上表现良好?
-
看看 k-modes 算法或 Gower 距离矩阵。
-
@VivekKumar 肯定会在那里发帖
-
@user2974951 在 kmodes 中,如何确定可用集群的数量?你能解释一下如何计算高尔距离并将其用于聚类
标签: python python-3.x machine-learning cluster-analysis data-science