【发布时间】:2019-08-06 13:48:46
【问题描述】:
我目前正在尝试使用 HDBSCAN 对电影数据进行聚类。目标是将相似的电影聚集在一起(基于关键字、流派、演员姓名等电影信息),然后将 LDA 应用于每个集群并获得具有代表性的主题。但是,我很难评估结果(除了可视化分析,随着数据的增长,这并不是很好)。使用 LDA,虽然很难评估它,但我一直在使用连贯性测量。但是,有没有人知道如何评估 HDBSCAN 制作的集群?我还没有找到太多关于它的信息,所以如果有人有任何想法,我将非常感激!
【问题讨论】:
-
有时看 t-sne 图会很有趣。有时它会给你鼓励你的特征是否区分类。我说有时是因为好的 t-sne 情节很好......而不那么好的情节毫无意义。
标签: python cluster-analysis evaluation hdbscan