最近在做一个数据项目,采集到大量的数据,对数据进行了各种分类和预处理分析。但是当我回过头来对项目数据质量做一个可量化的评估的时候,一直没有一个合适的框架来承载。基于自己实际的项目经验,按照以下维度做了一个评估。
- 数据齐全
- 数据有效(数据的类型,范围是否满足物理量定义,满足算法需求)
- 数据在时间上面的稳定性(是否存在数据缺失情况)
- 数据的准确性(是实际采集的物理量保持一致几个维度去衡量项目数据)
毕竟都是自己想的,没有权威从方法论上保证自己的维度和评估方式是准确可靠。特意上网做了一个调研,找到一个数据质量评估六维度文档,觉得不错。分享给大家。
链接: https://pan.baidu.com/s/1R12E3qQ2GSMnWXoXAMDwAQ 密码: ukhq