【发布时间】:2017-02-03 19:08:02
【问题描述】:
我有一个抓取网络并截取网页截图的系统。目前我只是简单地散列图像文件(存储为 png )。但是,这不适用于博客文章中包含 cmets 计数的页面。或查看次数。
所以我的问题是检测这些变化的最佳方法是什么?哪种算法效果最好?
【问题讨论】:
-
不清楚你真正想要做什么......在大多数情况下,比较页面的文本标记比图像处理要简单得多。
-
html 标记可以非常不同,但生成相同的页面。例如。页面上的链接可能非常不同。正如我提到的,我想检测相似的页面,以便我可以将其作为一个登录页面而不是多个看起来相同的页面显示给用户。
-
"如果你能推荐完美的 java 库。" - 要求图书馆推荐与 SO 无关。我建议您编辑该行,因为它会吸引密切投票。
-
@samgak,我在其中添加了 Java,因为人们可能会给我提供的解决方案不是我需要的语言。但是我现在已经删除了它。
标签: java algorithm image-processing