【发布时间】:2016-02-05 14:53:18
【问题描述】:
我正在尝试将我正在使用的数据集的各个部分组合在一起。我有一群人使用各种不同的技能工作。这个想法是获得最大百分比的代理和技能代表。
因此,在一个完美的场景中,最好获得包含 85-90% 记录的代理样本以及代表 85-90% 记录的一组技能。基本上,我希望获得最大百分比的样本,而不是让一小部分代理只使用少数技能或只有极少数代理使用的技能。
我正在尝试找到一种更具统计性的方法来执行此操作,并考虑了聚类。但据我了解,聚类需要距离定义。我不确定这些数据是否符合这个要求。
以下是数据的小样本:
Agent Skill
1 Claims
1 Benefits
2 Claims
2 -
3 Other
【问题讨论】:
标签: statistics cluster-analysis k-means hierarchical-clustering