一、数据挖掘方法论
CRISP-DM方法论
1、商业理解;数据理解;数据准备;建立模型;模型评估;结果部署
商业理解:确定商业目标、确定数据挖掘目标;
数据理解:数据初步采集、数据描述、数据探索性分析;
数据准备:数据清洗、数据构建(衍生变量)、整合数据;
建立模型:选择建模技术、生成检验、建模、评估模型;
模型评估:评估结果、过程回顾;
结果部署:生成最终报告、项目回顾。
二、数据的统计描述
1、连续变量的统计描述
集中趋势描述:
算术均数(不适用严重偏态分布的变量)、中位数、几何均数(适用于原始数据不是对称分布,经过对数转换后呈对数分布的数据)、截尾均数(去掉两端的数据再计算的均数,通常两端去掉5%的数据)等。
2、离散趋势描述:
全距(极差)、方差和标准差(受极端值的影响,有明显的极端值不宜使用)、百分位数、四分位数和四分位距(方差和标准差不适用时可以使用)、变异系数(比较两组数据的离散程度大小,变异系数是没有单位的,cv=标准差/均值)
3、分布特征描述:
偏度(skewness):右拖尾为正偏,偏度>0,均数大于中位数;左拖尾为负偏,偏度<0,均数小于中位数。
峰度(kurtosis):峰度>0,峰的形状尖,<0,峰的形状平坦,=0,正态峰。
三、连续变量参数估计
1、点估计
矩估计和极大似然估计(估计值受异常值的影响显著、对数据得分布有一定的要求)、稳健估计(受异常值影响小)、Bootstrap法(与稳健估计类似)
2、区间估计
根据中心极限定理,当样本n足够大时(n>50),任何分布的抽样均数都会近似服从正态分布。
总体样本的标准差是未知的,用抽样样本的标准查代替
四、分类变量的描述
频数分布、众数、比、构成比、率
五、单变量图
1、连续变量
直方图(x轴将连续数据分段,y轴表示相应的计数)、箱图、p-p图
2、分类变量
饼图、条图、Pareto(帕累托)图
六、假设检验
1、单变量假设检验
目的:考察该变量所抽取的样本所在总体的某方面特征是否符合我们所给出的假设。
1.1 数据独立性或者随机性检验
游程检验(非参数检验):二分变量的随机检验,判断数据的顺序是否随机,H0:是随机的
1.2 分布类型检验
二项分布检验
卡方检验:检验分类变量是否有关联,H0:没有关联
k-s检验:检验数据是否符合某个分布(二项、指数、均匀、泊松和正态分布)H0:是服从指定的分布
1.3 假定分布类型后针对某个分布参数的检验
单样本wilcoxon符号秩和检验:检验数据是否符合指定的中位数的总体分布,将数据按指定中位数分成两部分,计算两部分数据与中位数的距离,然后计算两部分数据秩和,如果确实满足指定的分布,则两部分秩和应该相差不大,否则拒绝原假设。
单样本t检验:检验某个数据的均值是等于指定的值,H0:等于指定的值
2、双变量假设检验
2.1无序分类因变量
2.11 无序分类自变量:交叉表—>卡方检验
2.12 连续自变量:logistic回归
2.2 有序分类因变量
2.21 无序分类自变量:秩和检验(检验两组数据是否有显著性差异、数据不符合正态分布)
2.22 连续自变量:logistics回归
2.3 连续因变量
2.31 二分类自变量:t检验(连续变量服从正态分布、方差齐(没有异方差,残差的方差相等),否则需要矫正后检验)
2.32 多分类无序自变量:单因素方差分析(ANOVA,单因素指因变量只有一个,连续变量服从正态分布,方差齐)
2.32 连续自变量:回归
2.33 多分类有序自变量:单因素方差分析,随后解释时再考虑时序信息。
七、变量之间的相关分析
1、无序分类变量之间:交叉表——>相关性——>phi系数、不确定系数等(0~1)
2、有序分类变量之间:分析一致性,Gamma统计量,kendall's等系数(-1~1)
3、连续变量之间:person系数(-1~1)
4、无序分类和连续变量之间:Eta指标。
八、多因变量分析
多因变量方差分析(要求因变量之间存在数量关联)
九、广义线性模型和混合线性模型
1、广义线性模型(GLM):因变量分布范围从正态分布扩展到二项分布、泊松分布、负二项分布等指数分布簇;
把因变量取值范围变换到自变量的线性预测的取值范围。
2、广义估计方程(GEE):处理纵向数据(貌似就是面板数据)的模型。
3、混合线性模型(MLM):当Y为分类因变量时,如性别分为男、女,婚姻状态为已婚、未婚,学生成绩是及格、不及格等,这就形成一个层次结构,高层为城市、中层为学校、低层为学生。显然,同一城市或同一学校的学生各方面的特征应当更加相似。也就是基本的观察单位聚集在更高层次的不同单位中,如同一城市的学生数据具有相关性。一个简单的例子:点击打开链接
十、回归
1、曲线直线化
2、加权最小二乘法(处理方差不齐)
3、岭回归(处理共线性,参数估计是有偏的)
4、最优尺度回归(优化分类自变量的建模)
九、其他模型
1、生存分析模型(cox回归):研究对象寿命超过某一时间的概率,生存时间的长短与许多因素有联系,研究这些因素与生存时间的联系有无及程度大小,cox回归方程如下
ho(t)为基准风险率,即不存在xi影响下的风险率,h(t,x)为存在xi影响下的风险率,h(t,x)/h0(t)为比例风险(与逻辑回归类似,实际上logistics是cox回归的特殊情况),因此cox回归也称为比例风险模型,由于不需要假定h0(t),cox回归也可以求出系数,也被称为半参数模型,但cox回归因变量必须包含状态分类变量,时间连续变量。cox也可用来分析客户保持购买(生存)的时间,即客户流失因素分析。点击打开链接
2、对数线性模型:把交叉表频数的对数表示为各表量及交互项的线性模型,然后用类似方差分析的方法检验各变量及交互项的作用大小
分析不同分类变量之间是否会有影响,即判断这两个分类变量之间是否存在交互作用,卡方检验只能检验两个分类变量是否相关,无法给出具体的变量之间的影响关系。
3、时间序列模型:ARIAM模型
十、多元统计分析模型
1、pca、因子分析
2、典型相关分析
3、聚类分析
4、判别分析:线性判别分析(LDA),有监督的降维手段(降维用的较多,降维后的维数和原来的分类数量K有关,和样本特征数量无关,一般只能降到K-1维及以下);分类算法的一种,基本思想:“投影后,类内方差小,类间方差大”,LDA假设各个类别数据服从高斯分布,利用LDA投影后,利用极大似然估计计算各个类别投影数据的均值和方差,进而得到各个类别的高斯分布概率密度函数,新样本进入后,LDA投影,得到样本特征,带入各类别的概率密度函数,那个类别概率大,就分到哪个类别。(感觉像KNN)
5、对应分析:数据典型格式为交叉表,降维的一种,转为对应分析图。点击打开链接
6、多维尺度分析:分析多个对象的相似程度,数据为主体对不同对象的评分(两两评价,如茶和咖啡的相似度评分为3),通过分析产生感知图,以此判断主体对不同对象的相似度评价,可用于社会关系分析、市场分析等(有点像K-means,但是用spss分析可以得到感知图,这个很重要)。点击打开链接
十一、数据挖掘分析模型
1、树模型
2、神经网络
3、支持向量机
4、贝叶斯网络
5、KNN
6、关联规则分析(Apriori、FP-growth):购物篮分析,从数据库中寻找隐藏的关联,并将这种关联以规则的形式给出。关联规则表示:X——>Y,支持度s:(XUY)占全部事务(样本)的比,控制候选集的增长,置信度c:X事务中包含XUY的比值;如果一个项集的支持度s大于指定的支持度阈值,则称该项集为频繁项集。分析过程:1、找出数据库所有的频繁项集 2、在这些频繁项集中找到大于指定的置信度的规则。剪枝要点:子项如果是非频繁的,那么父项一定也是非频繁的;父项如果是频繁的,那么子项一定也是频繁的
根据支持度剪枝,找到最大的项集(如图是acde、bcde最大)
根据置信度剪枝找规则,上图中所有"=>"右侧包含a的全部剪掉,如ab、ac、abc等
注:调高支持度和置信度,可以过滤强规则的组合,同时也缩小了样本的数量。
完。