【发布时间】:2021-03-31 20:27:57
【问题描述】:
要聚类标签(在多标签分类问题中)主要一起出现在数据框中?例如我有这个数据框:
text | genre
===========================
text 1 | [action,mistery,horror,thriller]
text 2 | [drama,romance]
text 3 | [comedy,drama,romance]
text 4 | [scifi,mystery,horror,thriller]
text 5 | [horror,mystery,thriller]
如何将经常一起出现的标签聚类?例如,流派“神秘”、“恐怖”、“惊悚”经常一起出现(3 次),流派“戏剧”、“浪漫”经常一起出现(2次)。
【问题讨论】:
-
预期输出是什么?可以单独列出吗?
-
例如像一个簇,每个簇包含经常一起出现的流派
标签: python dataframe numpy cluster-analysis multilabel-classification