【问题标题】:Average data points within a range of each other?一个范围内的平均数据点?
【发布时间】:2016-03-25 12:22:27
【问题描述】:

我有一个包含以下列的 Pandas 数据框:

lat1    lon1    lat2    lon2

latlon 变量是以度为单位的纬度和经度。许多点彼此非常非常接近。我想将此数据框划分为“集群”,例如,将彼此相距 60 英尺以内的所有数据点组合在一起。我知道我可以使用geopy.distance.vincenty 来获取点之间的距离。但我不确定如何根据彼此的距离循环遍历数据框以聚类点。

【问题讨论】:

  • 查看this question。这是一种不同的语言,但同样的问题。
  • 您想对彼此固定距离内的数据点进行分组(例如在您的示例中为 60 英尺),还是希望您的分组更具动态性?您可以查看后者的“基于密度的聚类”算法。
  • 您可以查看this
  • 我原本打算走固定距离,但我喜欢你们提到的动态方法的想法。试试看,谢谢!

标签: python pandas cluster-analysis


【解决方案1】:

问题是你的任务没有很好的定义。

考虑点 a、b、c。设距离为:a 到 b:40,b 到 c:40,a 到 c 80。

现在,如果您想对 60 以内的点进行平均,那么您需要用 a 和 c 来平均 b,而不是用 a 和 c!

您需要在这里更精确。也许是单链路聚类,但也许你想要完整的链路,或者平均链路,或者病房,或者 DBSCAN,或者......

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2020-11-19
    • 2012-08-02
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2015-06-04
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多