【发布时间】:2019-04-08 04:00:59
【问题描述】:
我正在做一个项目来聚类相似的文本标记。目标是对可能是拼写错误的标记和拼写相似的标记进行分组。这是我的数据的 sn-p 和预期的聚类:
John (cluster 1)
Mike (cluster 2)
Joe (cluster 1)
Jon (cluster 1)
Jony (cluster 1)
Ajon (cluster 1)
Brown (cluster 3)
我只是在进行集群化,所以我不确定如何才能实现这一目标。通过 ScikitLearn 中的各种聚类技术,我遇到了 AffinityPropagation 来预先计算相似性,但它对于大型数据集是不可行的(我有大约 20 万个令牌)。所有其他聚类算法都需要向量,但我不确定如何从这些标记中生成特征。
这里的任何指导都会非常感激。
谢谢
【问题讨论】:
-
这些令牌的来源是什么?例如,您可以为每个标记生成一个嵌入(浮点值的密集向量),并将这些向量用作聚类算法的输入
标签: text scikit-learn cluster-analysis