【发布时间】:2018-07-07 14:02:39
【问题描述】:
我有一个由大约 30 个特征组成的数据集,除了一个相似和一个类别(生成集群的预处理步骤的结果)之外,所有这些特征都不同
每个集群通常是一组具有相似数值的相似特征,但也经常存在一些异常值 - 见下文。
例如: - 标记为 A、B、C 等的特征
注意:我已将数据中的NAN转换为数字0。
A B C D E F G H …> Cluster
78 0 0 67 48 35 0 0 1
0 67 0 66 45 35 0 0 1
0 0 0 68 44 38 0 0 1
0 0 0 66 43 36 0 0 1
78 50 67 0 0 0 0 0 2
75 55 60 0 0 0 0 0 2
77 54 61 0 0 78 0 0 2
问题:我需要能够输入新的特征集(单行)并预测簇数。鉴于数据中存在这些异常值并且仅大部分相似,对于该任务的最佳分类算法是什么?
【问题讨论】:
-
似乎与此站点无关,但请查看 k-means 聚类。一个简单的事情是计算新行和每个集群(可能是点的质心)之间的欧几里得距离,并将其分类到最近的集群。
-
Thx @pault ,问题:1. 似乎有许多不同的方法和工具可以计算欧几里得,您认为哪一种最适合约 100,000 行点的高维数据? 2. 如何为每个集群创建一个质心?
-
这两个问题都可以通过谷歌搜索来回答。对于 1,请尝试 this post。对于 2,从所有维度的简单平均值开始。您可能还想研究(谷歌)聚类算法和推荐系统。
-
谢谢@pault,感谢您的帮助,如果我使用错误的论坛来解决更一般的问题,我们深表歉意。
标签: python python-3.x machine-learning classification