【发布时间】:2014-01-11 18:19:47
【问题描述】:
我有 20,000 篇大师文章集,每天我会收到大约 400,000 篇一两页的文章。现在,我正在尝试查看这 40 万篇文章中的每一篇是否都是我的大师文章集的副本或修改版本(抄袭率超过 60% 的阈值对我来说是可以的) 我应该使用哪些算法和技术以非常有效和及时的方式解决问题。 谢谢
【问题讨论】:
-
好吧 here's one relevant paper 不确定它是否对你有用。
标签: string-comparison bulk article plagiarism-detection