聚类非数字组答案

【问题标题】：Clustering non-numeric groups聚类非数字组
【发布时间】：2016-02-05 14:53:18
【问题描述】：

我正在尝试将我正在使用的数据集的各个部分组合在一起。我有一群人使用各种不同的技能工作。这个想法是获得最大百分比的代理和技能代表。

因此，在一个完美的场景中，最好获得包含 85-90% 记录的代理样本以及代表 85-90% 记录的一组技能。基本上，我希望获得最大百分比的样本，而不是让一小部分代理只使用少数技能或只有极少数代理使用的技能。

我正在尝试找到一种更具统计性的方法来执行此操作，并考虑了聚类。但据我了解，聚类需要距离定义。我不确定这些数据是否符合这个要求。

以下是数据的小样本：

      Agent          Skill
        1            Claims
        1            Benefits
        2            Claims
        2              -
        3            Other

【问题讨论】：

标签： statistics cluster-analysis k-means hierarchical-clustering

【解决方案1】：

您正在为这个问题寻找错误的工具。

您尝试做的是 set cover 问题的变体，而不是聚类。

除了你不是在寻找一个最小的封面，而是一个近似的上封面。

您需要决定何时某个解决方案优于另一个解决方案。您对此的描述过于模糊 - 它允许保留所有内容的简单解决方案：100% 覆盖。

然后反复尝试：

删除代理
移除技能

取决于产生最佳改进的方法。

但同样，您需要有一个正式的质量标准。

【讨论】：

感谢您的建议。我去对此做了一些研究，我认为你是对的。有没有一种简单的方法可以在 python 中构建它？我只是不知道从哪里开始
先解决问题做什么。那么实际的代码应该很简单。