【发布时间】:2012-02-12 15:05:25
【问题描述】:
我想计算许可证的 txt 文件之间的相似性,这样我就可以根据 license.txt 确定它对应的许可证。我应该使用什么样的信息检索技术?一旦我对 tf-idf 进行了编程,但我不确定这是否适用于此。你有什么建议?
【问题讨论】:
标签: file text information-retrieval similarity
我想计算许可证的 txt 文件之间的相似性,这样我就可以根据 license.txt 确定它对应的许可证。我应该使用什么样的信息检索技术?一旦我对 tf-idf 进行了编程,但我不确定这是否适用于此。你有什么建议?
【问题讨论】:
标签: file text information-retrieval similarity
我在这个问题上工作了 3 年多,让我告诉你它远非微不足道,而且你不会用单一算法来解决它,更不用说 tf-idf 和余弦相似度了。
有很多挑战,我写了一些:
你最终会使用多种方法,不幸的是没有灵丹妙药。
【讨论】:
您可以使用Lucene 将所有许可证索引为文档(每个 Lucene 文档都是一个许可证)。当你有一个新的 license.txt 你想检查它对应的许可证时,你可以使用整个 license.txt 作为查询来查询 lucene。
那将使用 TF-IDF 和所有 IR 的东西。但您也可以针对问题使用更具体的方法,例如检查特定关键字。
【讨论】: