【发布时间】:2014-10-28 07:05:18
【问题描述】:
我使用一个函数来计算一对文档之间的相似度,并希望使用这种相似度度量进行聚类。
到目前为止的代码
Sim=np.zeros((n, n)) # create a numpy arrary
i=0
j=0
for i in range(0,n):
for j in range(i,n):
if i==j:
Sim[i][j]=1
else:
Sim[i][j]=simfunction(list_doc[i],list_doc[j]) # calculate similarity between documents i and j using simfunction
Sim=Sim+ Sim.T - np.diag(Sim.diagonal()) # complete the symmetric matrix
AggClusterDistObj=AgglomerativeClustering(n_clusters=num_cluster,linkage='average',affinity="precomputed")
Res_Labels=AggClusterDistObj.fit_predict(Sim)
我担心的是,我在这里使用了相似度函数,并且我认为根据文档它应该是一个相异矩阵,我怎样才能将其更改为相异矩阵。 还有什么是更有效的方法来做到这一点。
【问题讨论】:
标签: python scikit-learn hierarchical-clustering