【发布时间】:2017-04-11 00:20:46
【问题描述】:
我的数据有 100 万个经纬度坐标对。我正在使用带有半正弦距离测量的 DBSCAN 算法。但是,到目前为止,该算法仅针对 8000 条记录的数据子集运行,如果我尝试在整个数据集上运行,则会在几秒钟内耗尽内存。有人可以帮忙吗?
【问题讨论】:
标签: python parameters dbscan
我的数据有 100 万个经纬度坐标对。我正在使用带有半正弦距离测量的 DBSCAN 算法。但是,到目前为止,该算法仅针对 8000 条记录的数据子集运行,如果我尝试在整个数据集上运行,则会在几秒钟内耗尽内存。有人可以帮忙吗?
【问题讨论】:
标签: python parameters dbscan
通常,您会在点之间的距离上使用epsilon,即纬度和经度。
然后 count 根本没有使用。
请阅读generalized DBSCAN 的自定义,以便将 DBSCAN 应用于此类数据。常规 DBSCAN(或任何其他聚类算法)将对您的数据进行开箱即用。您可能还想研究空间自相关。
【讨论】: