前言
随着大数据时代的到来,数据量的膨胀式发展,对数仓建设提出的新的挑战和要求,为了实现资源的合理化配置和利用,提高资源使用率,通过半衰期的分级存储,应用于数仓建设,可以在一定程度上解决资源配置不合理,资源使用效率不高等问题。
引言
全球知名咨询公司麦肯锡全球研究院发表的一篇名为《大数据:创新、竞争和生产力的下一个新领域》报告中可以看到数据的增长是有多么迅速以及庞大。从宏观角度看,全球数据实现爆炸式增长;从微观角度看,企业管理数据也在高速增长,商业数据更是呈指数级增长。随着数据的增长同时,也对数据仓库的建设提出了更高的技术要求,架构要求,部分需求已经不能很好的满足于新的业务和需求场景的应用,不能够支撑大数据的分析和预测。
数据架构
MPP架构
概念
数据仓库MPP(massively parallel processing)是将任务并行地分散到多个服务器和节点上,在每个节点上计算完成后,將各自部分的结果汇总在一起得到最终结果。
架构图演示
在 MPP 系统中,每个节点内的CPU不能直接访问另一个节点的内存,节点之间信息交互通过节点互联网络实现。
特点
①通过Scale-Out的方式扩展计算能力,存储也同步线性扩展;
②适用于结构化数据,支持TB级数据分析预测;③存储空间扩容价格昂贵,多采用软硬件绑定的模式销售。
分级存储
随着数据的增长,单纯的通过增加服务器的数量,可以满足一部分业务需求以及场景的需要,但是不一定能满足所有,尤其在本篇博客提到的存储能力上。体现在以下两个方面:
①服务器及存储设备的大量增加,会大幅降低数据分析能力,运行效率快速下降,无法实现数据快速响应的要求;
②MPP架构的服务器和存储设备必须由厂商提供,价格非常昂贵。为了保证数据及时和快速响应,在早期数据仓库建设中,并未考虑数据分级存储。
研究现状
有很多研究以及解决方案,本篇只对代表性的几个进行简要概述。
杨文晖对海量空间数据的特点和日常数据应用规律,提出了基于访问热度和聚类关联的海量空间数据分级存储模型,该模型主要包括热点数据分级、关联数据分级、数据迁移3部分。
吴洪桥等针对数据中心在线、近线和离线的多级存储体系架构,提出了开展多源、异构影像数据分级存储与数据迁移规则的研究,依据影像数据产品链与生命周期,提出了分级存储原则、价值评估要素、分级存储策略与方法。
史敏鸽则从数据分级如何在图书馆领域应用进行了研究。
本篇是基于半衰期的分级存储的相关内容介绍,所以依据数据生命周期管理,提出的针对于分级存储的方案,从B-K算法角度,进行展示如何进行分级存储。
B-K模型分级存储算法
下次继续