【发布时间】:2008-09-28 10:12:25
【问题描述】:
我需要一种算法,它可以比较两个文本文件并突出它们的差异,并且(甚至更好!)可以以有意义的方式计算它们的差异(比如两个相似文件的相似度分数应该高于两个不同文件的相似度分数,用 word “类似”用正常术语定义)。这听起来很容易实现,但实际上并非如此。
实现可以是c#或python。
谢谢。
【问题讨论】:
-
澄清一下,你问的是文本相似度还是语义相似度?
-
文字相似度。我认为语义相似性还有很长的路要走:)
-
这并不难。一个简单的词袋模型有很长的路要走。