【发布时间】:2018-06-11 00:01:02
【问题描述】:
我正在尝试使用 ELKI DBSCAN 对词向量进行聚类。我希望使用余弦距离来聚类 300 维的词向量。数据集的大小为 19,000 个单词(19000*300 大小的矩阵)。这些是使用 gensim word2vec 计算的词向量,列表输出保存为 CSV
下面是我在 UI 中传递的命令
KDDCLIApplication -dbc.in "D:\w2v\vectors.csv" -parser.colsep '","' -algorithm clustering.DBSCAN -algorithm.distancefunction CosineDistanceFunction -dbscan.epsilon 1.02 -dbscan.minpts 5 -vis。 window.single
我使用了 epsilon 值,同时尝试了 3 个值 0.8、0.9、1.0。 对于 0.8 和 0.9 - 我得到“发现的邻居很少。Epsilon 可能太小了。” 而对于 1.0 - 我得到“找到了很多邻居。Epsilon 可能太大了。”
我在这里做错了什么?我对 ELKI 还很陌生,因此感谢您提供任何帮助
【问题讨论】:
标签: cluster-analysis dbscan elki