环球即时看！布隆过滤器：后端开发者必学的知识点！

2023-04-17 14:12:55来源：博客园

摘要：对于后端程序员来讲，学习和理解布隆过滤器有很大的必要性。来吧，我们一起品味布隆过滤器的设计之美。

本文分享自华为云社区《品味布隆过滤器的设计之美》，作者：勇哥java实战分享。

布隆过滤器是一个精巧而且经典的数据结构。

你可能没想到： RocketMQ、 Hbase 、Cassandra 、LevelDB 、RocksDB 这些知名项目中都有布隆过滤器的身影。

(资料图片)

对于后端程序员来讲，学习和理解布隆过滤器有很大的必要性。来吧，我们一起品味布隆过滤器的设计之美。

1 缓存穿透

我们先来看一个商品服务查询详情的接口：

public Product queryProductById (Long id){   // 查询缓存   Product product = queryFromCache(id);   if(product != null) {     return product ;   }   // 从数据库查询   product = queryFromDataBase(id);   if(product != null) {       saveCache(id , product);   }   return product;}

假设此商品既不存储在缓存中，也不存在数据库中，则没有办法回写缓存，当有类似这样大量的请求访问服务时，数据库的压力就会极大。

这是一个典型的缓存穿透的场景。

为了解决这个问题呢，通常我们可以向分布式缓存中写入一个过期时间较短的空值占位，但这样会占用较多的存储空间，性价比不足。

问题的本质是："如何以极小的代价检索一个元素是否在一个集合中？"

我们的主角布隆过滤器出场了，它就能游刃有余的平衡好时间和空间两种维度。

2 原理解析

布隆过滤器（英语：Bloom Filter）是1970年由布隆提出的。它实际上是一个很长的二进制向量和一系列随机映射函数。

布隆过滤器可以用于检索一个元素是否在一个集合中。它的优点是空间效率和查询时间都远远超过一般的算法，缺点是有一定的误识别率和删除困难。

布隆过滤器的原理：当一个元素被加入集合时，通过 K 个散列函数将这个元素映射成一个位数组中的 K 个点，把它们置为 1。检索时，我们只要看看这些点是不是都是 1 就（大约）知道集合中有没有它了：如果这些点有任何一个 0，则被检元素一定不在；如果都是 1，则被检元素很可能在。

简单来说就是准备一个长度为 m 的位数组并初始化所有元素为 0，用 k 个散列函数对元素进行 k 次散列运算跟 len (m) 取余得到 k 个位置并将 m 中对应位置设置为 1。

如上图，位数组的长度是８，散列函数个数是 3，先后保持两个元素ｘ，ｙ。这两个元素都经过三次哈希函数生成三个哈希值，并映射到位数组的不同的位置，并置为1。元素 x 映射到位数组的第０位，第４位，第７位，元素ｙ映射到数组的位数组的第１位，第４位，第６位。

保存元素 x 后，位数组的第4位被设置为1之后，在处理元素 y 时第4位会被覆盖，同样也会设置为 1。

当布隆过滤器保存的元素越多，被置为 1 的 bit 位也会越来越多，元素 x 即便没有存储过，假设哈希函数映射到位数组的三个位都被其他值设置为 1 了，对于布隆过滤器的机制来讲，元素 x 这个值也是存在的，也就是说布隆过滤器存在一定的误判率。

▍ 误判率

布隆过滤器包含如下四个属性：

k : 哈希函数个数
m : 位数组长度
n : 插入的元素个数
p : 误判率

若位数组长度太小则会导致所有 bit 位很快都会被置为 1 ，那么检索任意值都会返回”可能存在“ ，起不到过滤的效果。位数组长度越大，则误判率越小。

同时，哈希函数的个数也需要考量，哈希函数的个数越大，检索的速度会越慢，误判率也越小，反之，则误判率越高。

从张图我们可以观察到相同位数组长度的情况下，随着哈希函数的个人的增长，误判率显著的下降。

我们会预估布隆过滤器的误判率 p 以及待插入的元素个数 n 分别推导出最合适的位数组长度 m 和哈希函数个数 k。

▍ 布隆过滤器支持删除吗

布隆过滤器其实并不支持删除元素，因为多个元素可能哈希到一个布隆过滤器的同一个位置，如果直接删除该位置的元素，则会影响其他元素的判断。

▍ 时间和空间效率

布隆过滤器的空间复杂度为 O(m) ，插入和查询时间复杂度都是 O(k) 。存储空间和插入、查询时间都不会随元素增加而增大。空间、时间效率都很高。

▍哈希函数类型

Murmur3，FNV 系列和 Jenkins 等非密码学哈希函数适合，因为 Murmur3 算法简单，能够平衡好速度和随机分布，很多开源产品经常选用它作为哈希函数。

3 Guava实现

Google Guava是 Google 开发和维护的开源 Java开发库，它包含许多基本的工具类，例如字符串处理、集合、并发工具、I/O和数学函数等等。

1、添加Maven依赖

    com.google.guava    guava    31.0.1-jre<

2、创建布隆过滤器

BloomFilter filter = BloomFilter.create(  //Funnel 是一个接口，用于将任意类型的对象转换为字节流，  //以便用于布隆过滤器的哈希计算。  Funnels.integerFunnel(),   10000,  // 插入数据条目数量  0.001   // 误判率);

3、添加数据

@PostConstructpublic void addProduct() {    logger.info("初始化布隆过滤器数据开始");    //插入4个元素     filter.put(1L);     filter.put(2L);     filter.put(3L);     filter.put(4L);     logger.info("初始化布隆过滤器数据结束");}

4、判断数据是否存在

public boolean maycontain(Long id) {    return filter.mightContain(id);}

接下来，我们查看 Guava 源码中布隆过滤器是如何实现的？

static  BloomFilter create(Funnel funnel, long expectedInsertions, double fpp, BloomFilter.Strategy strategy) {    // 省略部分前置验证代码     // 位数组长度    long numBits = optimalNumOfBits(expectedInsertions, fpp);    // 哈希函数次数    int numHashFunctions = optimalNumOfHashFunctions(expectedInsertions, numBits);    try {      return new BloomFilter(                    new LockFreeBitArray(numBits),                     numHashFunctions,                     funnel,                    strategy      );    } catch (IllegalArgumentException e) {      throw new IllegalArgumentException("Could not create BloomFilter of " + numBits + " bits", e);    }}//计算位数组长度//n:插入的数据条目数量//p:期望误判率@VisibleForTestingstatic long optimalNumOfBits(long n, double p) {   if (p == 0) {     p = Double.MIN_VALUE;   }   return (long) (-n * Math.log(p) / (Math.log(2) * Math.log(2)));}// 计算哈希次数@VisibleForTestingstatic int optimalNumOfHashFunctions(long n, long m) {    // (m / n) * log(2), but avoid truncation due to division!    return Math.max(1, (int) Math.round((double) m / n * Math.log(2)));}

Guava 的计算位数组长度和哈希次数和原理解析这一节展示的公式保持一致。

重点来了，Bloom filter 是如何判断元素存在的？

方法名就非常有 google 特色， ”mightContain“ 的中文表意是：”可能存在“ 。方法的返回值为 true ，元素可能存在，但若返回值为 false ，元素必定不存在。

public  boolean mightContain(    @ParametricNullness T object,    //Funnel 是一个接口，用于将任意类型的对象转换为字节流，    //以便用于布隆过滤器的哈希计算。    Funnel funnel,      //用于计算哈希值的哈希函数的数量    int numHashFunctions,    //位数组实例，用于存储布隆过滤器的位集    LockFreeBitArray bits) {  long bitSize = bits.bitSize();  //使用 MurmurHash3 哈希函数计算对象 object 的哈希值，  //并将其转换为一个 byte 数组。  byte[] bytes = Hashing.murmur3_128().hashObject(object, funnel).getBytesInternal();  long hash1 = lowerEight(bytes);  long hash2 = upperEight(bytes);  long combinedHash = hash1;  for (int i = 0; i < numHashFunctions; i++) {    // Make the combined hash positive and indexable    // 计算哈希值的索引，并从位数组中查找索引处的位。    // 如果索引处的位为 0，表示对象不在布隆过滤器中，返回 false。    if (!bits.get((combinedHash & Long.MAX_VALUE) % bitSize)) {      return false;    }    // 将 hash2 加到 combinedHash 上，用于计算下一个哈希值的索引。    combinedHash += hash2;  }  return true;}

4 Redisson实现

Redisson 是一个用 Java 编写的 Redis 客户端，它实现了分布式对象和服务，包括集合、映射、锁、队列等。Redisson的API简单易用，使得在分布式环境下使用Redis 更加容易和高效。

1、添加Maven依赖

   org.redisson   redisson   3.16.1

2、配置 Redisson 客户端

@Configurationpublic class RedissonConfig { Bean public RedissonClient redissonClient() {    Config config = new Config();    config.useSingleServer().setAddress("redis://localhost:6379");    return Redisson.create(config); } }

3、初始化

RBloomFilter bloomFilter = redissonClient.                                      getBloomFilter("myBloomFilter");//10000表示插入元素的个数，0.001表示误判率bloomFilter.tryInit(10000, 0.001);//插入4个元素bloomFilter.add(1L);bloomFilter.add(2L);bloomFilter.add(3L);bloomFilter.add(4L);

4、判断数据是否存在

public boolean mightcontain(Long id) {    return bloomFilter.contains(id);}

好，我们来从源码分析 Redisson 布隆过滤器是如何实现的？

public boolean tryInit(long expectedInsertions, double falseProbability) {    // 位数组大小    size = optimalNumOfBits(expectedInsertions, falseProbability);    // 哈希函数次数    hashIterations = optimalNumOfHashFunctions(expectedInsertions, size);    CommandBatchService executorService = new CommandBatchService(commandExecutor);    // 执行 Lua脚本，生成配置    executorService.evalReadAsync(configName, codec, RedisCommands.EVAL_VOID,            "local size = redis.call("hget", KEYS[1], "size");" +                    "local hashIterations = redis.call("hget", KEYS[1], "hashIterations");" +                    "assert(size == false and hashIterations == false, "Bloom filter config has been changed")",                    Arrays.

环球即时看！布隆过滤器：后端开发者必学的知识点！

1 缓存穿透

2 原理解析

3 Guava实现

4 Redisson实现

5 实战要点

6 总结

环球即时看！布隆过滤器：后端开发者必学的知识点！

视点！北仑区气象台发布大风黄色预警【Ⅲ级/较重】

世界短讯！日均近六十万人！无家可归顽疾暴露美社会深层次问题

视焦点讯！我找到了阅读GitHub项目源码的最佳姿势，太舒服了！

每日视讯：看中医把脉上午好还是下午好_看中

环球热讯:住房100平、买个包2万8？“炫富女”如何通过层层审核喜提公租房

环球观速讯丨王者荣耀钟馗要删了吗（王者荣耀钟馗要删了吗视频）

世界讯息：羽绒服应该怎么清洗_羽绒服的清洗方法

百事通！百度美的电压力锅使用方法_美的电压力锅使用方法

全球速递！车祸如何定损流程

全球微动态丨首届大湾区制造业高质量发展暨电子信息产业转型升级高峰论坛在深圳举行

全球观热点：青海可可西里：被救助藏羚羊幼仔茁壮成长

快报：72.4米！广西发现中国岩溶地区最高树

全球速读：疾病突然“好转”是假象？这9种情况，可能是更危重了！

世界播报:贾巴里-史密斯：恩比德MVP，每次拿球都被包夹

今日精选：白衣服穿久了发黄怎么能洗干净白衣服发黄不要扔

天天热消息：为什么中老年人不能经常喝“黄芪泡水”，会有什么影响？

快看点丨2023 B2B营销带动式增长MLG白皮书2.0（附下载）

环球热门:“中国预制菜第一市”花落山东莱阳

环球热推荐：中宠股份与分众传媒战略合作正式签约

环球即时看！省运会竞技体育组女足乙A组比赛湛江队获得第三名

每日热讯!黑虎虾是属于淡水虾还是海水虾(黑虎虾是淡水虾还是海水虾)

天天要闻：江夏区交通运输局开展“局长走流程”活动

【全球热闻】城以港兴，港因城生｜港产城融合发展讲座在青举办

今日报丨华帝股份获中信证券“买入”评级，目标价为9元/股

天天日报丨内江市资中县接受四川省教育厅教育装备质量抽检监测

笔记本

环球即时看！布隆过滤器：后端开发者必学的知识点！

1 缓存穿透

2 原理解析

3 Guava实现

4 Redisson实现

5 实战要点

6 总结

环球即时看！布隆过滤器：后端开发者必学的知识点！

视点！北仑区气象台发布大风黄色预警【Ⅲ级/较重】

世界短讯！日均近六十万人！无家可归顽疾暴露美社会深层次问题

视焦点讯！我找到了阅读GitHub项目源码的最佳姿势，太舒服了！

每日视讯：看中医把脉上午好还是下午好_看中

环球热讯:住房100平、买个包2万8？“炫富女”如何通过层层审核喜提公租房

环球观速讯丨王者荣耀钟馗要删了吗（王者荣耀钟馗要删了吗视频）

世界讯息：羽绒服应该怎么清洗_羽绒服的清洗方法

百事通！百度美的电压力锅使用方法_美的电压力锅使用方法

全球速递！车祸如何定损流程

全球微动态丨首届大湾区制造业高质量发展暨电子信息产业转型升级高峰论坛在深圳举行

全球观热点：青海可可西里：被救助藏羚羊幼仔茁壮成长

快报：72.4米！广西发现中国岩溶地区最高树

全球速读：疾病突然“好转”是假象？这9种情况，可能是更危重了！

世界播报:贾巴里-史密斯：恩比德MVP，每次拿球都被包夹

今日精选：白衣服穿久了发黄怎么能洗干净 白衣服发黄不要扔

天天热消息：为什么中老年人不能经常喝“黄芪泡水”，会有什么影响？

快看点丨2023 B2B营销带动式增长MLG白皮书2.0（附下载）

环球热门:“中国预制菜第一市”花落山东莱阳

环球热推荐：中宠股份与分众传媒战略合作正式签约

环球即时看！省运会竞技体育组女足乙A组比赛 湛江队获得第三名

每日热讯!黑虎虾是属于淡水虾还是海水虾(黑虎虾是淡水虾还是海水虾)

天天要闻：江夏区交通运输局开展“局长走流程”活动

【全球热闻】城以港兴，港因城生｜港产城融合发展讲座在青举办

今日报丨华帝股份获中信证券“买入”评级，目标价为9元/股

天天日报丨内江市资中县接受四川省教育厅教育装备质量抽检监测

笔记本

今日精选：白衣服穿久了发黄怎么能洗干净白衣服发黄不要扔

环球即时看！省运会竞技体育组女足乙A组比赛湛江队获得第三名