机器学习数据网站:http://archive.ics.uci.edu/ml/index.php


认识变量度量类型

在数据分析之前,先明确变量的度量类型(名义、 等级、连续)

名义变量:比如饮料类型、性别、名族(数值、字符型均可)

等级:比如饮料包装大小、中小学(数值、字符型均可)

连续:年龄(数值型),差值是有意义的,可解释的


描述名义变量的分布:

描述性统计分析基础笔记(1)

描述连续变量的分布:

描述性统计分析基础笔记(1)

描述性统计分析基础笔记(1)

均值容易被极值带偏

众数不容易被带偏,但一般不用。因为要求数据干净。

连续数据的位置

描述性统计分析基础笔记(1)

数据对称,用均值,不对成,调成对称。或用中位数

描述性统计分析基础笔记(1)

常见连续变量分布:正态分布通常存在于自然生长的

描述性统计分析基础笔记(1)

其它常见连续分布形式:社会科学:金融、工资,对数正态右偏最严重。

工资:描述性的统计分析不用处理。如果需要预测,建模时则取对数。均值、中位数

网络点击:泊松分布

经济损失:伽玛分布,精算

描述性统计分析基础笔记(1)


数据的离散程度:最常用方差和标准差

描述性统计分析基础笔记(1)

自由度:一个数据集有多少个观测,就有多少个自由度

 

 

 

相关文章: