【发布时间】:2023-03-23 09:09:02
【问题描述】:
我正在使用 Sander 等人。 1998 确定 MinPts 和 epsilon 以在我的数据集上使用 DBSCAN。 正如 Sanders 等人所建议的那样, minpts=dim*2-1=k (在我的例子中是 9 维 --> minpts=k=17)。 在论文中应该选择“第一个山谷”。我可以看到两个山谷,但哪个是第一个?你会为 epsilon 选择什么值? kdistplot_with_duplicates
由于 Sanders 还建议仅在没有重复项的情况下才应使用此方法,而没有重复项:(尽管我认为在这种情况下这无关紧要) kdistplot_without_duplicates。 哪个山谷应该被认为是“第一个”山谷?
使用的代码:
ns = 17
nbrs = NearestNeighbors(n_neighbors=ns, metric='euclidean').fit(data)
distances, indices = nbrs.kneighbors(data)
distanceDec = sorted(distances[:,ns-1], reverse=True)
plt.plot(list(range(1,683+1)), distanceDec)
【问题讨论】:
标签: python parameters scikit-learn cluster-analysis dbscan