【问题标题】:How to cluster label (in a multilabel classification problem) which mostly appear together in a class如何聚类标签(在多标签分类问题中)大多一起出现在一个类中
【发布时间】:2021-03-31 20:27:57
【问题描述】:

要聚类标签(在多标签分类问题中)主要一起出现在数据框中?例如我有这个数据框:

text     |   genre
===========================
text 1   | [action,mistery,horror,thriller]
text 2   | [drama,romance]
text 3   | [comedy,drama,romance]
text 4   | [scifi,mystery,horror,thriller]
text 5   | [horror,mystery,thriller]

如何将经常一起出现的标签聚类?例如,流派“神秘”、“恐怖”、“惊悚”经常一起出现(3 次),流派“戏剧”、“浪漫”经常一起出现(2次)。

【问题讨论】:

  • 预期输出是什么?可以单独列出吗?
  • 例如像一个簇,每个簇包含经常一起出现的流派

标签: python dataframe numpy cluster-analysis multilabel-classification


【解决方案1】:

我认为您正在寻求执行频繁模式挖掘,也称为关联规则挖掘。有时人们将其称为关联规则学习,这是该概念的 Wikipedia 链接:https://en.wikipedia.org/wiki/Association_rule_learning

频繁模式挖掘领域的算法通常会根据标签组合在数据中出现的频率对它们进行排序。您可以指定模式中标签的最小和最大数量,并选择支持和置信度阈值。如果没有这些约束,输出将包括标签及其计数、支持度和置信度值的所有可能组合。

【讨论】:

    猜你喜欢
    • 2020-10-26
    • 2020-09-27
    • 1970-01-01
    • 2020-12-19
    • 2021-11-21
    • 2018-08-04
    • 1970-01-01
    • 2017-12-28
    • 2019-04-01
    相关资源
    最近更新 更多