有监督学习
基础知识
分类
-
评价标准
精确率–以二分类为例,在测试样本集上,预测结果:
正例预测为正类(TP),负例预测为正类(FP)。如, A–>A(TP正确预测),B–>A(FP错误预测)P=\francTPTP+FP
负例预测为负类(TN),正例预测为负类(FN)。如, B–>B(TN正确预测),A–>B(FN错误预测)P=\francTNTN+FN
召回率–针对原来的样本而言,表示样本中预测正确的正例有多少
原来的正例预测为正类(TP),原来的正例预测为负类(FN)P=\francTPTP+FN
准确率–预测正确/所有样本P=\francTP+TNTP+FP+TN+FN -
sklearn分类库
sklearn库中的分类算法放在不同的子模块中,主要包括:
k近邻
朴素贝叶斯
支持向量机
决策树
神经网络模型
…
回归
- 回归定义
了解两个或多个变量间是否相关、研究其相关方向与强度,并建立数学模型以便观察特定变量;
回归分析帮助人们了解在自变量变化时因变量的变化量;
适合对带有时序信息的数据进行预测或趋势拟合(如金融领域、交通数据)
- sklearn回归库
sklearn.linear_model–>线性回归函数–>
普通线性回归
岭回归
Lasso
非线性回归–>
多项式回归
sklearn.preprocessing子模块
实例分析
## 实例说明 ##
对传感器采集的大量数据分析与建模,通过各项特征的数值进行用户状态的判断,根据用户所处的状态提供给用户更加精准、便利的服务
## 数据介绍 ##
ABCDE 用户可穿戴设备的传感器数据,数据集包括:特征文件(a.feature)标签文件(a.label)
特征文件:每行–一个时刻的所有传感器数值
标签文件:每行–与特征文件对应时刻,标记过的用户姿态
两文件行数相同,相同行之间互相对应
特征数值介绍
41列特征
- 温度数据
反映活动剧烈程度:
静止状态时,温度稳定在36.5度上下;
高于37度时,可能为短时间剧烈运动
- 加速度数据
两个型号加速度传感器,互相印证,保证完整性和准确性
加速度传感器对应的三个数值,xyz三个轴上对应的加速度
- 陀螺仪数据
角运动检测常用数据,判断身体角度水平、倾斜、垂直
- 磁场数据
用户周围磁场强度和数值大小,帮助理解用户周围环境
磁场改变,用户的位置和场景发生变化
标签数据介绍
每行代表与特征文件中对应行的用户姿态类别,共25种
标签文件作为训练集的标准参考准则,可以进行特征的监督学习
## 任务介绍 ##
1.出现新用户,如何根据传感器数据,判断用户状态?
2.同一用户,根据当前数据,判断新数据的用户状态?