【发布时间】:2013-02-06 05:36:23
【问题描述】:
我有一个点数据集;
lat |long | time
34.53 -126.34 1
34.52 -126.32 2
34.51 -126.31 3
34.54 -126.36 4
34.59 -126.28 5
34.63 -126.14 6
34.70 -126.05 7
...
(更大的数据集,但这是一般结构。)
我想根据距离和时间对点进行聚类。 DBSCAN 似乎是个不错的选择,因为我不知道有多少个集群。
我目前使用的是分钟/5500(我相信大约是 20 米,按比例缩放。)
library(fpc)
results<-dbscan(data,MinPts=3,eps=0.00045,method="raw",scale=FALSE,showplot=1)
由于我有原始数据,我无法理解如何确定缩放/距离。我可以猜测缩放或未缩放时的 eps 值,但我不清楚缩放是做什么的,或者正在使用什么距离度量(也许是欧几里德距离?)在某个地方有这方面的文档吗?
(这不是要找到一种自动选择方式(如Choosing eps and minpts for DBSCAN (R)?),而是关于不同值的含义。说“您首先需要一个距离函数”并不能解释所使用的距离函数是什么,或如何创建...)
【问题讨论】:
-
dbscan来自哪个包?是fpc还是RWeka还是别的什么? -
@mnel 来自 fpc 包。
-
我认为这与标记为重复的问题有些不同。我不确定这是一个编程问题还是一个统计问题,但它与重复的问题不同。