【问题标题】:Similarity of a group of text documents一组文本文档的相似度
【发布时间】:2017-05-16 15:30:02
【问题描述】:

我正在寻找一种尝试检查的算法

1) 文档中句子的相似度(约 5000 个)

2) 多个文档(约 5000 个)彼此之间的相似度

我需要相同的,因为我正在尝试评估属于特定类别的文本文档/句子是否以任何方式彼此相似。是否有任何现有的方法可以做到这一点。

【问题讨论】:

  • 有(正如@Anony-Mousse 指出的以下几种方法,标准一种是 TF-IDF 归一化然后计算余弦相似度。您尝试过吗?您打算使用什么语言(R, Python等)?你只是想要一个特定方向的指针还是你有更具体的问题?

标签: data-mining text-mining sentence-similarity


【解决方案1】:

标准方法是使用余弦相似度和 TF-IDF 归一化。

这有很多变体,您需要尝试最适合您的方法。

【讨论】:

    猜你喜欢
    • 2011-01-21
    • 2015-07-02
    • 2019-10-23
    • 2014-02-25
    • 1970-01-01
    • 2020-07-30
    • 2017-04-18
    • 2019-03-14
    • 2020-07-29
    相关资源
    最近更新 更多