【发布时间】:2020-10-04 19:01:12
【问题描述】:
DBSCAN(epsilon, minPts = 2) 与单链接聚类和 HDBSCAN(minPts = 2) 也与单链接聚类有关。
我的问题是: 如何使用这些设置获得相同的聚类结果? 还是需要在HDBSCAN中设置其他参数(hdbscan库中参数很多)?
【问题讨论】:
标签: hierarchical-clustering dbscan hdbscan
DBSCAN(epsilon, minPts = 2) 与单链接聚类和 HDBSCAN(minPts = 2) 也与单链接聚类有关。
我的问题是: 如何使用这些设置获得相同的聚类结果? 还是需要在HDBSCAN中设置其他参数(hdbscan库中参数很多)?
【问题讨论】:
标签: hierarchical-clustering dbscan hdbscan
DBSCAN 和 HDBSCAN 在边界点的处理上有所不同,因此实际上不可能从它们那里得到完全相同的答案。尽管如此,您还是可以采取一些措施来获得类似于 DBSCAN 的 HDBSCAN 结果。
clusterer = hdbscan.HDBSCAN(
min_samples=2, match_reference_implementation=True
).fit(X)
clusters = clusterer.single_linkage_.get_clusters(
cut_distance=0.25, min_cluster_size=2
)
您可以将cut_distance 更改为所需的值(DBSCAN 中的等效参数为epsilon。请注意,您可以运行一次 HDBSCAN,然后选择您想要的任何cut_distance(非常便宜的计算)。
【讨论】: