【发布时间】:2012-05-08 02:25:46
【问题描述】:
我目前正在开发一个可以生成大量文本内容的流式 API。正如预期的那样,API 给出了很多重复数据,我们也有过滤接近重复数据的业务需求。
我对数据流中的重复检测进行了一些研究,并阅读了有关 Stable Bloom Filters 的信息。稳定布隆过滤器是用于在数据流中进行重复检测的数据结构,具有误报率上限。
但是,我想识别近似重复,我还研究了用于最近邻问题和近似重复检测的散列算法,如 LSH 和 MinHash。
我有点卡住,正在寻找关于如何进行的指示以及我可以查看的文件/实施?
【问题讨论】:
-
你能提供一些关于文本内容的信息吗?内容是大文档还是小文档(100-1K 字符),是只有英文,还是混合语言,是文本还是 html 或 xml 还是...,每小时生成多少文档,时间窗口多长你需要重复数据删除吗?
-
您好,文字内容只是小文字!可能少于 200 个字符。每秒大约有 100-200 个文档。希望有帮助
标签: streaming duplicates filtering bloom-filter