【发布时间】:2017-02-13 08:45:05
【问题描述】:
目标
聚合商店位置 GPS 信息(经度、纬度)
周边商店区域的总人口规模(例如 1,000,000 居民)
- 使用 K-means 确定最佳配送中心, 给定商店 GPS 数据和当地人口(即配送中心 与农村商店相比,它们更靠近城市商店,因为更高 需求)。
问题
- 我一直在researching 讨论如何将加权变量添加到 k-means 算法,但不确定加权变量的实际过程。例如,如果我有 [纬度、经度和人口(以千计)](例如“纽约”=
[40.713, 74.005, 8406]),这不会在 3 维空间中构建质心吗?如果是这样,距离会不会不正确地倾斜并错误地代表仓库配送中心的最佳位置? - Additional research 暗指 UPGMA,“未加权对组方法”,其中考虑了集群的大小。但是,我还没有完全回顾这种方法以及与这种方法相关的复杂性。
参考文献
参考 1:http://cs.au.dk/~simina/weighted.pdf(第 5 页)
也可以看出,其他几个类似k-means的算法,即k-median和k-mediods也是 重量可分离。详细信息见附录。观察到所有这些流行的目标函数都是高度 对体重有反应。
参考 2:https://www-users.cs.umn.edu/~kumar/dmbook/ch8.pdf(第 39 页:“处理不同集群大小的能力”
【问题讨论】:
标签: python numpy statistics k-means