布隆过滤器主要用于判断一个元素是否在一个集合中,它可以使用一个位数组简洁的表示一个数组。它的空间效率和查询时间远远超过一般的算法,但是它存在一定的误判的概率,适用于容忍误判的场景。如果布隆过滤器判断元素存在于一个集合中,那么是可能存在在集合中(称之为误判);如果它判断元素不存在一个集合中,那么一定不存在于集合中。常常被用于大数据去重。

  • 优点:由于存放的不是完整的数据,所以占用的内存很少,而且新增,查询速度够快;
  • 缺点:随着数据的增加,误判率随之增加;无法做到删除数据;只能判断数据是否一定不存在,而无法判断数据是否一定存在。

 

算法原理

  布隆过滤器算法主要思想就是利用k个哈希函数计算得到不同的哈希值,然后映射到相应的位数组的索引上,将相应的索引位上的值设置为1。判断该元素是否出现在集合中,就是利用k个不同的哈希函数计算哈希值,看哈希值对应相应索引位置上面的值是否是1,如果有1个不是1,说明该元素不存在在集合中。但是也有可能判断元素在集合中,但是元素不在,这个元素所有索引位置上面的1都是别的元素设置的,这就导致一定的误判几率。Java进阶(七)布隆过滤器

 

实例验证

1.数据量为100万,设定误判率为0.01 ,要验证的数据和布隆过滤器的数据完全不一样,此时打印结果:【总共的误判数:10314  耗时:150】

 1 public class BloomTest {
 2 
 3     private static int size = 1000000;// 预计要插入多少数据
 4 
 5     private static double fpp = 0.01;// 期望的误判率
 6 
 7     private static BloomFilter<Integer> bloomFilter = null;
 8 
 9     public static void main(String[] args) {
10         bloomFilter = BloomFilter.create(Funnels.integerFunnel(), size, fpp);
11         // 插入数据
12         for (int i = 0; i < size; i++) {
13             bloomFilter.put(i);
14         }
15         int errorCount = 0;
16         Long startTime = System.currentTimeMillis();
17         for (int i = 0; i < size; i++) {
18             if (bloomFilter.mightContain(i)) {
19                 errorCount++;
20 //                System.out.println(i + "误判了");
21             }
22         }
23         Long endTime = System.currentTimeMillis();
24         System.out.println("总共的误判数:" + errorCount + "  耗时:" + (endTime - startTime));
25     }
26 }
BloomTest

相关文章:

猜你喜欢
  • 2021-10-27
  • 2021-12-15
  • 2021-07-11
  • 2021-12-31
相关资源
相似解决方案