【问题标题】:Find plagiarism in bulk articles [closed]在散装文章中查找抄袭[关闭]
【发布时间】:2014-01-11 18:19:47
【问题描述】:

我有 20,000 篇大师文章集,每天我会收到大约 400,000 篇一两页的文章。现在,我正在尝试查看这 40 万篇文章中的每一篇是否都是我的大师文章集的副本或修改版本(抄袭率超过 60% 的阈值对我来说是可以的) 我应该使用哪些算法和技术以非常有效和及时的方式解决问题。 谢谢

【问题讨论】:

标签: string-comparison bulk article plagiarism-detection


【解决方案1】:

对文章进行指纹识别(即根据词频对文章进行智能哈希),然后寻找指纹之间的统计联系。然后,如果对某些数据集有预感,请对这些数据集进行暴力搜索以查找匹配的字符串。

【讨论】:

  • 不错的答案:+1,但是蛮力的拼写错误,请修复它。
  • 您建议使用哪种算法进行散列?你的意思是什么样的统计联系?余弦相似度是个好主意吗?
  • 嗯,一个简单的散列是按长度对每个文档中的单词进行排序,然后忽略所有常见单词(或其中大部分)。然后可能找出一些不太常见的单词之间的单词距离。这会给你一个粗略的指纹/哈希,(属性列表)。然后你需要一种方法来查看一个哈希是否与另一个相似。并排取两个哈希。查看一致的大词距离的数量并给它某种加权分数,然后对每个属性执行此操作并将分数加在一起。 ...明白了吗?
猜你喜欢
  • 1970-01-01
  • 2014-03-22
  • 2013-12-12
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2012-01-23
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多