【发布时间】:2015-06-05 16:48:30
【问题描述】:
我的集合中的元素数量超过十亿 230。我打算计算集合中每个元素的出现次数。为此,我想使用 count-min 草图。请建议如何选择散列函数。我的申请可以容忍最多 5% 的误报率。
【问题讨论】:
-
取值范围是多少?你有关于值分布的任何信息吗?
-
范围集是由 4 个字母组成的字符串的集合。换句话说,宇宙是一组长度最多为 15 的四元串
标签: data-structures hash language-agnostic count-min-sketch