【发布时间】:2020-01-13 01:26:10
【问题描述】:
-
我的原始数据如下:
df = long lat long lat long lat long lat 1 11 6 15 19 23 27 30 34 2 12 7 16 20 24 28 31 35 3 13 8 17 21 25 29 32 36 ... 96 14 9 18 22 26 30 33 37其中:
1,2,3,..,96的列是“taxi_id”。这意味着我们有96汽车。其他列表示汽车的位置,假设它们是一对。
示例:带有标签
1的出租车的位置为(11,6)(15,19)(23,27)(30,34) -
所以,我需要对它们进行聚类以查看最常用的轨迹 这些出租车司机。
为此,我计算了“一些”距离矩阵,然后计算了它的相似度矩阵并将最终矩阵应用于Affinity Propagation
-
亲和传播代码:
from sklearn.cluster import AffinityPropagation af = AffinityPropagation(preference=-6).fit(X) cluster_centers_indices = af.cluster_centers_indices_ labels = af.labels_ # Some code to calculate number of clusters (3 in this case) # Some code to check which "taxi_id" related to clusters -
最终数据如下:
final_df = long lat 1 11 22 0 2 33 44 3 55 66 ... ... ... 45 12 13 2 46 14 15 47 16 17
我想评估我的聚类。我不知道怎么做。我没有预测任何事情,那么我该如何使用sklearn 评估指标呢?我什至找不到逻辑(究竟要评估什么)?也许两个集群(CD)之间的距离?您有任何想法或解决方案代码如何进行吗?
【问题讨论】:
标签: python cluster-computing evaluation