【发布时间】:2017-06-05 06:14:09
【问题描述】:
我正在研究 kmeans 聚类。 我有 3d 数据集作为 no.days,frequency,food -> 日通过均值和标准偏差(SD)进行标准化,或者更好地说是标准化。这给了我 [-2 到 14] 的范围
->对于频率和食物,我的数据集中的 NOMINAL 数据由 DIVIDE BY MAX ( x/max(x) ) 归一化,这给了我范围 [0 到 1]
问题在于 kmeans 只考虑分组的日轴,因为在这个轴上有明显的 b/w 点并且几乎忽略了频率和食物的另外两个(我认为是因为频率和食物的差距可以忽略不计昏暗)。
如果我仅在日轴 (1D) 上应用 kmeans,我得到的结果与我在 3D(天、频率、食物)上应用的结果完全相同。
“之前,我也做了 x/max(x) 好几天,但不可接受”
所以我想知道是否有任何方法可以标准化频率和食物的其他两个标称数据,并且我们可以根据 DAY 轴进行公平缩放。
食物 => 1,2,3 频率 => 1-36
【问题讨论】:
-
你为什么不规范化一切?
-
我对每件事都进行了规范化......这几天我使用标准化,因为我的定量数据和平均值和 SD 是有意义的......但是对于频率和食物来说它没有意义,因为它们是我的分类数据。
标签: machine-learning cluster-analysis normalization k-means