数据挖掘的基本流程:
- 商业理解
- 数据分析的最终目的是带来客户,带来效益。所以数据挖掘的第一步应该从商业的角度考虑数据的合理性
- 数据理解
- 收集各种信息,尝试将文字化的信息数字化
- 数据准备
- 数据清洗、数据集成,做好的数据一定是模型适用的类型
- 模型建立
- 尝试建立各种模型,优化,得到最好的模型
- 模型评估
- 模型的输出是否符合预定的商业目标
- 上线发布
- 模型最后呈现出来的可以是一份可行性报告,也可以是可以重复使用的数据挖掘过程。如果数据挖掘是日常运营的一部分,那么后续的监控和维护就会变得很重要。
数据挖掘十大算法:
- 分类算法
-
C4.5,朴素贝叶斯(Naive Bayes),SVM,KNN,Adaboost,CART
-
- 聚类算法
-
K-Means,EM
-
- 关联分析
-
Apriori
-
- 连接分析
-
PageRank
-
数据挖掘的数学原理:
- 概率论、统计学
- 线性代数
- 图论
- 最优化方法