【发布时间】:2009-12-04 23:59:47
【问题描述】:
我正在尝试一些文本比较/基本抄袭检测,并希望在网站到网站的基础上进行尝试。但是,我有点难以找到处理文本的正确方法。
您将如何处理和比较两个网站的抄袭内容?
我在想类似这样的伪代码:
// extract text
foreach website in websites
crawl website - store structure so pages are only scanned once
extract text blocks from all pages - store this is in list
// compare
foreach text in website1.textlist
compare with all text in website2.textlist
我意识到这个解决方案可以非常快速地积累大量数据,所以它可能只适用于非常小的网站。
我还没有决定实际的文本比较算法,但现在我更感兴趣的是让实际的过程算法首先工作。
我认为最好将所有文本提取为单独的文本片段(从段落、表格、标题等),因为文本可以在页面上移动。
我正在用 C#(可能是 ASP.NET)来实现它。
我对您可能提出的任何意见或建议非常感兴趣,所以请拍摄! :)
【问题讨论】:
-
也可以使用第三方服务以您自己的逻辑实现此pourpse。我可以在 api.copyleaks.com 上向您推荐,它可以与 .NET 实现一起使用(通过 Nuget 或 Github)。在这里阅读更多:github.com/Copyleaks/.NET-Plagiarism-Checker
标签: c# algorithm optimization comparison plagiarism-detection