【发布时间】:2017-02-09 14:13:30
【问题描述】:
我有一个带有产品名称的未标记数据集。比如棒球衫、飞行员夹克、现役经典拳击手等。
我用数据创建了一个 tf-idf 矩阵,然后我在矩阵上运行了 k-means。我绘制了一个簇内平方和,以找到最好的 k,即 5。
聚类后我发现了文档之间的余弦相似度
# cosine similarity between each document
from sklearn.metrics.pairwise import cosine_similarity
dist = 1.0 - cosine_similarity(tfidf_matrix)
print dist
然后我在 dist 上使用 MDS 将其缩减为二维,以便我可以绘制集群
from sklearn.manifold import MDS
mds = MDS(n_components=2, dissimilarity="precomputed", random_state=1)
xs, ys = pos[:, 0], pos[:, 1]
除了圆周之外,聚类图看起来还不错。它这样做有什么原因吗?其余的集群似乎都聚集在一个相似的区域周围。
【问题讨论】:
标签: python scikit-learn cluster-analysis k-means tf-idf