在散装文章中查找抄袭[关闭]

【问题标题】：Find plagiarism in bulk articles [closed]在散装文章中查找抄袭[关闭]
【发布时间】：2014-01-11 18:19:47
【问题描述】：

我有 20,000 篇大师文章集，每天我会收到大约 400,000 篇一两页的文章。现在，我正在尝试查看这 40 万篇文章中的每一篇是否都是我的大师文章集的副本或修改版本（抄袭率超过 60% 的阈值对我来说是可以的）我应该使用哪些算法和技术以非常有效和及时的方式解决问题。谢谢

【问题讨论】：

好吧 here's one relevant paper 不确定它是否对你有用。

标签： string-comparison bulk article plagiarism-detection

【解决方案1】：

对文章进行指纹识别（即根据词频对文章进行智能哈希），然后寻找指纹之间的统计联系。然后，如果对某些数据集有预感，请对这些数据集进行暴力搜索以查找匹配的字符串。

【讨论】：

不错的答案：+1，但是蛮力的拼写错误，请修复它。
您建议使用哪种算法进行散列？你的意思是什么样的统计联系？余弦相似度是个好主意吗？
嗯，一个简单的散列是按长度对每个文档中的单词进行排序，然后忽略所有常见单词（或其中大部分）。然后可能找出一些不太常见的单词之间的单词距离。这会给你一个粗略的指纹/哈希，（属性列表）。然后你需要一种方法来查看一个哈希是否与另一个相似。并排取两个哈希。查看一致的大词距离的数量并给它某种加权分数，然后对每个属性执行此操作并将分数加在一起。 ...明白了吗？

猜你喜欢

1970-01-01
2014-03-22
2013-12-12
1970-01-01
1970-01-01
1970-01-01
2012-01-23
1970-01-01
1970-01-01

相关资源

下载 2022-12-03
下载 2022-12-09
下载 2021-06-05

最近更新更多

热门标签

Java Python linux javascript Mysql C# Docker 算法前端 SpringBoot Redis Vue spring 设计模式 .net core .net kubernetes c++ 数据库数据结构大数据 js 机器学习微服务 Android Go 程序员面试 JVM ASP.net core 云原生人工智能后端 PHP git CSS golang k8s Nginx Django mybatis 深度学习多线程 React 架构 devops 爬虫云计算 Spring Boot LeetCode