数据可视化是什么
可视化过程
明确主题
现在是数据爆炸的时代,同样的数据不同主题的主题展现的方式是不一样的。首先我们要分析这次可视化的出发点和要达到什么样的效果也就是目标。目前遇到了什么问题、要展示什么信息、最后想得出什么结论、验证什么假说等等。
一个看似很小的问题其实就可以作为一个主题,比如最近双11某城市不同城区的消费金额,双11包裹的配送时效等等。
分析处理数据
当我们明确主题之后,在面对数据我们可以要进行细致的分析,可以采用5W1H的方式
- why:为什么要搜集这些数据,我想从中获得什么
- who:谁采集的数据,数据是由谁产生的
- where:数据是在什么地域范围内采集的,或者说数据的来源是哪
- when:数据是在什么时间段采集的
- what:这是什么业务产生的数据
- how:这些数据是怎么样采集的,数据的采集方式直接影响到数据的时效性,准确性等
之后我们要对数据进行查漏补缺清洗、去噪等处理并且还要明确几个问题
-
数据指标
表达一项业务状况会有不同的角度,也就意味着有多个衡量指标。不同的组织方式得出来的可视化结果也是截然不同的 。比如要考评某快递点,数据指标就有,寄件数量,快递运输时效,配送时效,上门取件时间,等等 -
明确数据之间的关系
基于最终的目的不同,数据之间的相关关系也截然不同。这本质上是在进行数据的维度选择。‘比如对于寄件数量来说,有月寄件量,周寄件量,不同区域寄件量等等,时间,区域都是对于寄件量这一数据指标的不同维度。
通常,数据之间的相互关系包含如下几类:趋势型:
通常研究的是某一变量随另一变量的变化趋势,常见的有时间序列数据的可视化。
对比型:
对比两组或者两组以上的数据,通常用于分类数据的对比。
比例型:
数据总体和各个构成部分之间的比例关系。
分布型:
展现一组数据的分布情况,如描述性统计中的集中趋势、离散程度、偏态与峰度等。
区间型:
显示同一维度上值的不同分区差异,常用来表示进度情况。
关联型:
用于直观表示不同数据之间的相互关系,如包含关系、层级关系、分流关系、联结关系等。
地理型:
通过数据在地图上的地理位置,来展示数据在不同地理区域上的分布情况,根据空间维度不同,通常分为二维地图和三维地图。 -
重点数据指标
由于可视化终端屏幕大小有限,并有时候收到观看者时间的限制,以及观看者注意力的问题。如何在在短时间内把最重要的信息让客户直观快速的获取,是我们要考虑的非常重要的一件事情,所以我们要明确哪些是重点的数据指标是观看者十分关注的。
确定图表
确定好数据之间的关系之后,就是要选择相应的图标进行数据展示了。常见的数据关系图表的对应关系如下图:
可视化设计
可视化设计主要包括两方面,一是进行可视化布局的设计,二是数据图形化的呈现。
布局设计
布局设计要大致遵遵循三个原则
- 聚集
通过合理的排版布局,把重要的数据指标放到最重要的区域或者通过大区域的展示,让其突然出来,让观看者能迅速的获取到重要信息 - 平衡
要合理的利用可视化的设计空间,在确保重要信息位于可视化空间视觉中心的情况下,保证整个页面的不同元素在空间位置上处于平衡,提升设计美感。 - 简洁
要有轻重之分,不要为了展现更多的数据导致画面过于臃肿,反而让观看者感到混乱。
数据图形化呈现(图表制作)
影响图表呈现效果的,主要有两个影响因素,一个是数据层面的,一个是非数据层面的。
- 数据层面
若数据中存在极端值或过多分类项等,会极大影响可视化的效果呈现 - 非数据层面
非数据层面,但是影响图表呈现效果的因素,通常在设计过程中就可以解决。
比如图表的背景颜色、网格线的深浅有无、外边框等等,这类元素是辅助用户理解图表的次要元素,但如 果不加处理全部放出,视觉上就不够聚焦,干扰到你真正想展示的数据信息。
因此,对于此类非数据层面,但是影响图表视觉呈现的元素,应该尽量隐藏和弱化。
可视化映射
可视化元素由3部分组成:可视化空间+标记+视觉通道
可视化空间
数据可视化的显示空间,通常是二维。三维物体的可视化,通过图形绘制技术,解决了在二维平面显示的问题,如3D环形图、3D地图等。
标记
标记,是数据属性到可视化几何图形元素的映射,用来代表数据属性的归类。
根据空间自由度的差别,标记可以分为点、线、面、体,分别具有零自由度、一维、二维、三维自由度。如我们常见的散点图、折线图、矩形树图、三维柱状图,分别采用了点、线、面、体这四种不同类型的标记。
视觉通道
数据属性的值到标记的视觉参数呈现的映射,叫做视觉通道,通常用于展示数据属性的定量信息。
常用的视觉通道包括:标记的位置、大小(长度、面积、体积…)、形状(三角形、圆、立方体…)、方向、颜色(色调、饱和度、亮度、透明度…)等。