机器学习数据网站:http://archive.ics.uci.edu/ml/index.php
认识变量度量类型
在数据分析之前,先明确变量的度量类型(名义、 等级、连续)
名义变量:比如饮料类型、性别、名族(数值、字符型均可)
等级:比如饮料包装大小、中小学(数值、字符型均可)
连续:年龄(数值型),差值是有意义的,可解释的
描述名义变量的分布:
描述连续变量的分布:
均值容易被极值带偏
众数不容易被带偏,但一般不用。因为要求数据干净。
连续数据的位置
数据对称,用均值,不对成,调成对称。或用中位数
常见连续变量分布:正态分布通常存在于自然生长的
其它常见连续分布形式:社会科学:金融、工资,对数正态右偏最严重。
工资:描述性的统计分析不用处理。如果需要预测,建模时则取对数。均值、中位数
网络点击:泊松分布
经济损失:伽玛分布,精算
数据的离散程度:最常用方差和标准差
自由度:一个数据集有多少个观测,就有多少个自由度