【发布时间】:2022-01-03 14:23:18
【问题描述】:
我有一组评论,我用 k-means 对它们进行了聚类,并得到了每条评论所属的集群(例如:1,2,3...)。我还有这些属于哪些集群的真实标签,例如:位置、食物等),我需要将它们与兰德指数进行比较。
由于我有集群编号和集群标签,我如何应用 Rand 索引进行比较?
我应该遵循任何中间步骤吗?
编辑: 我看过Rand Index function (clustering performance evaluation) 的帖子,但它没有回答我的问题。
在那个问题中,你有
labels_true = [1, 1, 0, 0, 0, 0]
labels_pred = [0, 0, 0, 1, 0, 1]
但我所拥有的是如下所示,
labels_true = ['food', 'view', 'room', 'food', 'staff', 'staff']
labels_pred = [0, 0, 0, 1, 0, 1]
非常感谢任何帮助。
【问题讨论】:
-
@RiccardoBucco 谢谢你的评论,但这并不是我想要的
-
你能澄清一下吗?
-
@RiccardoBucco 我已经用一个例子编辑了这个问题。
标签: python performance nlp cluster-analysis k-means