【发布时间】:2011-01-14 10:58:48
【问题描述】:
首先,感谢您阅读我的问题。
我使用了TF/IDF,然后在这些值上,我计算了余弦相似度,看看有多少文档更相似。您可以看到以下矩阵。列名与 doc1、doc2、doc3 类似,行名与 doc1、doc2、doc3 等相同。借助以下矩阵,我可以看到 doc1 和 doc4 具有 72% 的相似性(0.722711142)。即使我看到它们相似的两个文件也是正确的。我有 1000 个文档,我可以看到每个文档的频率。在矩阵中查看其中有多少是相似的。 我使用了不同的聚类,比如 k-means 和 agnes (hierarchy) 来组合它们。它制造了集群。例如 Cluster1 有 (doc4, doc5, doc3) 因为它们的值 (0.722711142, 0.602301766, 0.69912109) 分别更接近。但是当我手动查看这三个文件是否真的相同时,它们不是。 :( 我在做什么或者我应该使用集群以外的其他东西??????
1 0.067305859 -0.027552299 0.602301766 0.722711142
0.067305859 1 0.048492904 0.029151952 -0.034714695
-0.027552299 0.748492904 1 0.610617214 0.010912109
0.602301766 0.029151952 -0.061617214 1 0.034410392
0.722711142 -0.034714695 0.69912109 0.034410392 1
P.S:值可能是错误的,这只是给你一个想法。 如果您有任何问题,请务必提出。 谢谢
【问题讨论】:
-
任何提示??任何帮助????????????????????????
-
小问题:无法应用该问题的现有解决方案,或者您为什么要从头开始开发它?我的感觉是lucene(或solr)也应该实现这个......
-
嗯,lucene 或 solr 是做什么的。我已经做到了。现在我有 CSV 文件,但我的问题不同。如果你能解释你的问题。我可以用更好的方式回答它
-
矩阵似乎有些不对劲。它有一些奇怪的非对称性。对于您的示例集群 m[3,4] 是 -0.062 但 m[4,3] 是 0.611 而 m[3,5] 是 0.035 但 m[5,3] 是 0.699。
-
GeoffReedy 请阅读我的最后一行。我说我编辑这个矩阵让你知道我想做什么。值可能有问题
标签: java math cluster-analysis classification