提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档
机器学习03 Multiple Linear Regression
提示:
多元线性回归;LabelEncoder; OneHotEncoder
提示:以下是本篇文章正文内容,下面案例可供参考
一、代码问题
示例:pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。
二、使用步骤
1.引入库
将类别型变量进行One-Hot 编码过程中代码出现问题,进行如上修改即可以运行,参考链接:添加链接描述
2.LabelEncoder VS OneHotEncoder
代码如下(示例):
参考链接如下:
添加链接描述
解释: LabelEncoer因为过多的考虑了类别不同赋予不同的值,将原始类别变量引入数值大小的比较,所以可考虑OneHotEncoder,并且实际操作中需要先将变脸转为Label后再转为OneHot
添加链接描述
解释: 类比两者的差异,着重讲述OneHot, 理解enc.n_values_,enc.feature_indices_,通过理解enc.feature_indices_,可以知道onehot也存在问题,使得数据变得比较稀疏。
添加链接描述
解释: 了解什么是虚拟变量陷阱,对虚拟变量的解释可以看PPT添加链接描述,对于这个案例来说,存在所谓的虚拟变量陷阱。意思就是:其实state只有3种取值,理论上2位二进制就可以表示,而这里用100,010,001三种表示。其实若把第一位统一去掉,变为00,10,01也是可以区分的。所以这里需要做一个处理:
躲避虚拟变量陷阱,把第一列去掉了
X = X[: , 1:]
该处使用的url网络请求的数据。