【问题标题】:How can I cluster buckets of strings?如何对字符串桶进行聚类?
【发布时间】:2017-09-02 03:04:32
【问题描述】:

我有几个桶。每个桶包含许多标签(字符串)。如何根据相似性或重叠将存储桶聚集在一起?

例如

桶 A:“鸵鸟”、“麻雀”、“蜂鸟”、“斑马”、“蓝鸟”

桶 B:'香蕉'、'西瓜'、'葡萄'、'胡萝卜'

C 桶:'celery', 'lettuce', 'spinach', 'banana', 'carrot'

D桶:'sparrow'、'dog'、'cat'、'lion'、'elephant'、'horse'

在这个非常非常小的示例中,B+C 将组成一个集群(因为香蕉和胡萝卜),而 A 和 D 将各自在自己的集群中,因为没有足够的数据来集群它们。

【问题讨论】:

    标签: cluster-analysis k-means data-analysis hierarchical-clustering


    【解决方案1】:

    您可以使用基于集合的距离,例如带有层次聚类的 Jaccard。

    【讨论】:

      猜你喜欢
      • 2021-10-30
      • 2013-03-07
      • 2021-08-30
      • 2015-08-31
      • 1970-01-01
      • 2021-04-19
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多