【发布时间】:2023-03-15 04:00:01
【问题描述】:
我有一组点。它们的几何形状(SRID:4326)存储在数据库中。 我得到了一个代码,旨在用 DBSCAN 对这些点进行聚类。参数设置如下:eps=1000,min_points=1。
我获得了距离小于 1000 米的集群。我相信距离小于 1000 米的两个点属于同一个集群。 epsilon 真的是以米为单位吗?
代码如下:
self.algorithm='DBSCAN'
X=self.data[:,[2,3]]
if self.debug==True:
print 'Nbr of Points: %d'% len(X)
# print X.shape
# print dist_matrix.shape
D = distance.squareform(distance.pdist(X,'euclidean'))
# print dist_matrix
# S = 1 - (D / np.max(D))
db = DBSCAN(eps, min_samples).fit(D)
self.core_samples = db.core_sample_indices_
self.labels = db.labels
目的不是找到另一种运行方式,而是真正了解 eps 的价值。它在距离方面代表什么。 Min_sample 设置为 1,因为我接受确实有 1 个样本大小的集群。
【问题讨论】:
-
不要使用
'euclidean'。您的数据不在欧几里得向量空间中。在欧洲和美国的大部分地区,距离将被扭曲超过 30%(更北的地方更糟);并且欧几里得距离不理解坐标系的-180°环绕。还要避免计算距离矩阵,这需要O(n^2)内存和运行时。使用索引加速快速找到邻居。
标签: python cluster-analysis data-mining scikit-learn dbscan