【发布时间】:2018-08-30 06:48:39
【问题描述】:
我有两个文件,例如:
Doc1 = {'python','numpy','machine learning'}
Doc2 = {'python','pandas','tensorflow','svm','regression','R'}
而且我还知道每对单词的similarity(相关性),例如
Sim('python','python') = 1
Sim('python','pandas') = 0.8
Sim('numpy', 'R') = 0.1
衡量两个文档相似度的最佳方法是什么?
在这种情况下,传统的Jaccard distance 和cosine distance 似乎不是一个好的指标。
【问题讨论】:
-
您的文档的数据类型是什么?字符串还是列表?
-
@AkshayNevrekar 您可以将文档视为问题中提到的一组字符串,在我的情况下重复并不重要
-
这太宽泛了。对于这种类型的问题,您可能想尝试cs.stackexchange.com,这并不是真正的 Python 问题。
-
@kabanus thx 提醒,我会将我的问题重新发布到 stackexchange
-
@Ken.W 没问题。复制后不要忘记在此处删除它,以免创建跨站点副本。
标签: python-3.x nlp similarity