【发布时间】:2020-11-30 12:55:10
【问题描述】:
我有以下数据框:
print(df)
document embeddings
1 [-1.1132643 , 0.793635 , 0.8664889]
2 [-1.1132643 , 0.793635 , 0.8664889]
3 [-0.19276126, -0.48233205, 0.17549737]
4 [0.2080252 , 0.01567003, 0.0717131]
我想对它们进行聚类和可视化以查看文档之间的相似之处。执行此操作的最佳方法/步骤是什么?
这只是一个小数据框,原始数据框有超过 2 万个文档。
【问题讨论】:
-
嵌入的维度是多少?
-
@AkshaySehgal 是 768
-
每个文档的向量长度为 768?
-
@AkshaySehgal 是的!
-
请检查我的答案以了解某些方向。希望有帮助
标签: python cluster-analysis embedding