案例3
有一个包含20亿个全是32位整数的大文件,在其中找到出现次数最多的数,但内存限制只有2G
大数据(2)
解决思路
大数据(2)
下再用哈希表依次处理各个文件,统计每种数出现的次数,此时肯定不会溢出。
大数据(2)

案例4
大数据(2)
先分析哈希表思路:
大数据(2)
bitmap思路:
大数据(2)
大数据(2)
找到这个技术不足的区间,假设为a
再遍历一次40亿个数,此时只关注区间a上的数,并用bitmap统计区间a上的数的出现情况。
占用差不多8m空间
大数据(2)

案例5
大数据(2)
大数据(2)
机器数n取决于面试官的给定
大数据(2)

案例6
大数据(2)
大数据(2)

为解决上述问题,下介绍一致性哈希算法
大数据(2)
哈希值环形,数据入环,顺时针寻找机器归属。
添加机器:
大数据(2)
大数据(2)
由此可见,添加机器3,只有右上角部分数据需要进行迁移,代价小了很多

相关文章:

  • 2021-07-24
  • 2021-08-09
  • 2021-09-09
  • 2022-01-22
  • 2022-03-07
  • 2021-10-05
  • 2021-12-18
  • 2021-10-05
猜你喜欢
  • 2022-01-16
  • 2021-09-18
  • 2021-12-16
  • 2021-11-09
  • 2021-07-07
  • 2021-08-25
  • 2021-08-27
相关资源
相似解决方案