Java进阶（七）布隆过滤器

　　布隆过滤器主要用于判断一个元素是否在一个集合中，它可以使用一个位数组简洁的表示一个数组。它的空间效率和查询时间远远超过一般的算法，但是它存在一定的误判的概率，适用于容忍误判的场景。如果布隆过滤器判断元素存在于一个集合中，那么是可能存在在集合中（称之为误判）；如果它判断元素不存在一个集合中，那么一定不存在于集合中。常常被用于大数据去重。

优点：由于存放的不是完整的数据，所以占用的内存很少，而且新增，查询速度够快；
缺点：随着数据的增加，误判率随之增加；无法做到删除数据；只能判断数据是否一定不存在，而无法判断数据是否一定存在。

算法原理

　　布隆过滤器算法主要思想就是利用k个哈希函数计算得到不同的哈希值，然后映射到相应的位数组的索引上，将相应的索引位上的值设置为1。判断该元素是否出现在集合中，就是利用k个不同的哈希函数计算哈希值，看哈希值对应相应索引位置上面的值是否是1，如果有1个不是1，说明该元素不存在在集合中。但是也有可能判断元素在集合中，但是元素不在，这个元素所有索引位置上面的1都是别的元素设置的，这就导致一定的误判几率。 Java进阶（七）布隆过滤器

实例验证

1.数据量为100万，设定误判率为0.01 ，要验证的数据和布隆过滤器的数据完全不一样，此时打印结果：【总共的误判数:10314 耗时:150】

 1 public class BloomTest {
 2 
 3     private static int size = 1000000;// 预计要插入多少数据
 4 
 5     private static double fpp = 0.01;// 期望的误判率
 6 
 7     private static BloomFilter<Integer> bloomFilter = null;
 8 
 9     public static void main(String[] args) {
10         bloomFilter = BloomFilter.create(Funnels.integerFunnel(), size, fpp);
11         // 插入数据
12         for (int i = 0; i < size; i++) {
13             bloomFilter.put(i);
14         }
15         int errorCount = 0;
16         Long startTime = System.currentTimeMillis();
17         for (int i = 0; i < size; i++) {
18             if (bloomFilter.mightContain(i)) {
19                 errorCount++;
20 //                System.out.println(i + "误判了");
21             }
22         }
23         Long endTime = System.currentTimeMillis();
24         System.out.println("总共的误判数:" + errorCount + "  耗时:" + (endTime - startTime));
25     }
26 }

BloomTest