【数据库系统】数据库系统概论====第十六章 数据仓库与联机分析处理技术

16.1数据仓库技术

  1. 数据仓库定义
    数据仓库是一个用以更好地支持企业(或组织)决策分析处理的、面向主题的、集成的、不可更新的、随时间不断变化的数据集合。
    本质上和数据库一样,是长期储存在计算机内的、有组织、可共享的数据集合。
  2. 数据仓库的基本特征
    ①数据仓库的数据是面向主题的
    面向主题的数据组织方式是根据分析要求将数据组织成一个完备的分析域,即主题域。
    ②数据仓库的数据是集成的
    数据仓库的数据是从原有的分散的数据库中抽取出来的,数据在进入数据仓库前要进行加工与集成,统一于综合。
    ③数据仓库的数据是不可更新的
    数据仓库主要供决策分析之用,所涉及的数据操作主要是数据查询,一般情况下并不进行修改操作。是指用户进行分析处理时不进行数据更新,不是说数据仓库的整个生命周期中数据不变。
    ④数据仓库的数据是随时间不断变化的
    随时间变化数据内容不断增加。
    随时间变化旧的数据内容被删除。
    随时间变化数据被不断地重新组合。
  3. 数据仓库的数据组织
    【数据库系统】数据库系统概论====第十六章 数据仓库与联机分析处理技术
  4. 数据仓库系统的体系结构
    【数据库系统】数据库系统概论====第十六章 数据仓库与联机分析处理技术

16.2联机分析处理技术

  1. 多维数据模型
    数据分析时用户的数据视图,是面向分析的数据模型,用于给分析人员提供多种观察的视角和面向分析的操作。
    例:电器商品销售数据按地区、时间、电器商品种类、销售额直观表示。
    【数据库系统】数据库系统概论====第十六章 数据仓库与联机分析处理技术
  2. 多维分析操作
    常用的OLAP多维分析操作有切片(slice)、切块(dice)、旋转(pivot)、向上综合(roll-up)、向下钻取(drill-down)等。
  3. OLAP的实现方式
    按照多维数据模型的不同实现方式,分为MOLAP结构、ROLAP结构、HOLAP结构。
    ①MOLAP结构:以多维立方体CUBE来组织数据。
    ②ROLAP结构:用关系的表来组织和存储多维数据,星形模式个雪片模式。
    ③HOLAP结构是MOLAP结构和ROLAP结构的混合。

16.3数据挖掘技术

  1. 数据挖掘的概念
    数据挖掘是从大量数据中发现并提取隐藏在内的、人们事先不知道的但又有可能有用的信息和知识的一种新技术。目的是帮助决策者寻找数据间潜在的关联,发现经营者被忽略的要素。
  2. 数据挖掘和传统分析方法的区别
    本质区别:数据挖掘是在没有明确假设的前提下去挖掘信息,发现知识。数据挖掘所得到的信息应具有事先未知、有效和可实用3个特征。
  3. 数据挖掘的数据源
    从数据仓库中来、从数据库中来。

16.4大数据时代的新型数据仓库

  1. 系统需求的变化
    ①数据量急剧增长,由TB升至PB升至ZB,并仍爆炸式增长。
    ②数据类型多样,必须能够处理大量的结构化和半结构化的数据。
    ③决策分析复杂,由常规分析转为深度分析。
    ④底层硬件环境变化,多核处理器、大内存、高速网络。
  2. 传统数据仓库所面临的问题
    ①数据移动代价过高。
    ②不能快速适应变化。
  3. 大数据时代的新型数据仓库
    新型数据仓库需具备以下的特性:
    【数据库系统】数据库系统概论====第十六章 数据仓库与联机分析处理技术

16.5小结

  1. 数据仓库定义、基本特征、数据组织、体系结构。
  2. 联机分析处理技术。多维数据模型、多维分析操作、OLAP的实现方式。
  3. 数据挖掘技术。数据挖掘的概念,数据挖掘和传统分析方法的区别,数据挖掘的数据源。
  4. 新型数据仓库需具备的特性。

相关文章: