【发布时间】:2019-08-13 06:29:01
【问题描述】:
我使用此链接的高尔距离功能:https://sourceforge.net/projects/gower-distance-4python/files/。我的数据 (df) 是这样的,每一行都是一笔交易,每一列都是特征。由于它包含大量分类数据,因此我使用高尔距离转换数据以测量“相似性”......我希望这是正确的(如下......):
D = gower_distances(df)
distArray = ssd.squareform(D)
hierarchal_cluster=scipy.cluster.hierarchy.linkage(distArray, method='ward', metric='euclidean', optimal_ordering=False)
然后我从上面将hierarchical_cluster绘制成树状图:
plt.title('Hierarchical Clustering Dendrogram (truncated)')
plt.xlabel('sample index or (cluster size)')
plt.ylabel('distance')
dendrogram(
hierarchal_cluster,
truncate_mode='lastp', # show only the last p merged clusters
p=15, # show only the last p merged clusters
leaf_rotation=90.,
leaf_font_size=12.,
show_contracted=True # to get a distribution impression in truncated branches
)
我无法显示它,因为我没有足够的特权点,但在树状图上我可以看到不同的颜色。
区分它们的主要鉴别器是什么?
我怎样才能找到这个?
如何使用 PCA 提取有用的特征?
我是否将我的“hierarchal_cluster”传递给 PCA 函数?
像下面的东西..?
pca = PCA().fit(hierarchal_cluster.T)
plt.plot(np.arange(1,len(pca.explained_variance_ratio_)+1,1),pca.explained_variance_ratio_.cumsum())
【问题讨论】:
标签: python-3.x cluster-analysis data-science feature-extraction hierarchical-clustering