【发布时间】:2020-06-10 05:10:53
【问题描述】:
我在下面使用 Ward 在 R 中的最小方差的层次聚类中发现了一种聚类模式。我根据个人特征是否有意义,凭经验确定了五个聚类数量。即使我使用了一个高度(在图中用“切割”线表示,我仍然得到相同的 4 个集群,但是第 5 个集群(蓝色的)又减少了两个集群。
问题:我的问题是,是否必须在特定高度上切割第 5 个集群,即使根据基于研究的知识它没有意义?或者我可以凭经验决定保留 5 个集群吗?它会在分析中引入任何偏差吗?
【问题讨论】:
我在下面使用 Ward 在 R 中的最小方差的层次聚类中发现了一种聚类模式。我根据个人特征是否有意义,凭经验确定了五个聚类数量。即使我使用了一个高度(在图中用“切割”线表示,我仍然得到相同的 4 个集群,但是第 5 个集群(蓝色的)又减少了两个集群。
问题:我的问题是,是否必须在特定高度上切割第 5 个集群,即使根据基于研究的知识它没有意义?或者我可以凭经验决定保留 5 个集群吗?它会在分析中引入任何偏差吗?
【问题讨论】:
集群在一定程度上是主观的(甚至比监督学习更重要),因为没有人知道有多少集群的真实答案,或者它们是否真的不同到足以被放入不同的类别。如果您认为根据您的领域知识,第 5 类没有意义,那么您可以选择不将其拆分为该类。只要确保你清楚地写下来,这样人们就会知道你做了什么以及为什么。
【讨论】: