大型数仓的问题

存储费用

随着数据量的增大,存储费用越来越高,并且要注意到存储费用并不只是存储硬件的费用,还包括相应的处理硬件和软件的费用

利用率

数据越多的时候数据利用率越低

多级存储

  • 人工
    有人来对多种存储介质中数据进行同步
  • HSM
    系统全量同步
  • CMSM
  • 行级同步,就是根据当前请求自动去加载数据.就有点像操作系统的分页算法,站在调用方看似乎所有的数据都ready了等待读取,其他是真正读取的时候才从下一级的存储读到上一次存储.

性能优化

根据实际情况来平衡多方面指标
数据仓库一书的感悟与批判-大型数据仓库
数据仓库一书的感悟与批判-大型数据仓库

相关文章: