该笔记参考《数据挖掘导论(完整版)》
可见个人博客:
https://tingshushaw.github.io/2019/05/16/Data Mining/Data Mining(0)/#more
什么是数据挖掘
数据挖掘是在大型数据库存储库中,自动的发现有用信息的过程。数据挖掘是一种技术,它将传统的
数据分析方法与处理大量数据的算法相结合。
数据挖掘与知识发现
数据挖掘是数据库中知识发现(knowledge discovery in database, KDD)不缺少的部分。
- 数据预处理的目的是将未加工的输入数据转换成适合分析的形式。
- 数据预处理一般处理过程包括: 1. 数据整合(融合来自多个数据源的数据) 2. 数据清洗(消除噪音和重复的观测值) 3. 数据规约(数据的规范化)
- 一般后处理是确保将有效的数据挖掘的结果集成到决策支持的系统当中去。在该阶段中,还能使用统计度量或假设检验删除虚假数据挖掘结果。
数据挖掘需要解决的问题
- 可伸缩:如果数据挖掘算法要处理海量的数据,则算法必须是可伸缩的。
- 高维性:数据越高维,计算复杂性迅速增加。
- 异种数据和复杂数据:随着技术的发展,非传统数据类型越来越多(半结构文本化,web页面集,具有三维的DNA数据等等。)
- 数据所有权与分布:有时候需要挖掘的数据存放站点并非一个,这就需要进行分布式数据挖掘技术。
- 非传统的分析:传统分析是基于假设-检验模式。当前的数据分析需要自动地产生假设以及自动评估,这促使大家开发一些数据挖掘技术。
数据挖掘的任务
四种主要任务:聚类分析、预测建模、关联分析、异常检测