【发布时间】:2021-10-11 15:15:03
【问题描述】:
我是聚类算法的新手。我有一个包含 200 多部电影和 100 多个用户的电影数据集。所有用户都对至少一部电影进行了评分。值 1 表示好,0 表示差,如果注释者别无选择,则为空白。
我想根据他们的评论对相似的用户进行聚类,这样的想法是,将类似电影评价为好的用户也可能将同一聚类中没有任何用户评价的电影评价为好。我使用了 k-means 聚类的余弦相似度度量。 csv文件如下图:
UserID M1 M2 M3 ............... M200
user1 1 0 0
user2 0 1 1
user3 1 1 1
.
.
.
.
user100 1 0 1
我面临的问题是我不知道如何为该数据集找到最佳数量的集群,然后绘制这些集群的图表。我用 k-means 对它们进行聚类,这没有问题,但我想知道这个数据集最稳定或最佳的聚类数量。
我会很感激一些帮助..
【问题讨论】:
-
通常你使用贝叶斯信息标准来做到这一点
-
@user3684792,你能举个例子吗?
标签: python cluster-analysis k-means euclidean-distance cosine-similarity