简述机器学习中的特征工程

何为特征工程？

特征工程是利用数据领域的相关知识来创建能够使机器学习算法达到最佳性能的特征的过程，用一系列工程化的方式从原始数据中筛选出更好的数据特征，以提升模型的训练效果。业内有一句广为流传的话是：数据和特征决定了机器学习的上限，而模型和算法是在逼近这个上限而已。由此可见，好的数据和特征是模型和算法发挥更大的作用的前提。特征工程通常包括数据预处理、特征选择、降维等环节。

特征工程的重要性

特征越好，灵活性越强
特征越好，构建的模型越简单
特征越好，模型的性能越出色

一、数据预处理

数据预处理是特征工程中最为重要的一个环节，良好的数据预处理可以使模型的训练达到事半功倍的效果。数据预处理旨在通过数据清洗、归一化、标准化、正则化等方式改进不完整、不一致、无法直接使用的数据。具体方法有：

去除唯一属性

唯一属性通常是一些id属性，这些属性并不能刻画样本自身的分布规律，所以简单地删除这些属性即可。

处理缺失值

1. 删除数据：根据缺失情况，按行删除或者按列删除

2.度量填补缺失值：可以根据数据属性，采用均值、中位数、众数等中心度量值来填补缺失数据（字符串类型数据一般采用众数处理方式）

3.预测填补缺失值：可以将缺失属性作为因变量，建立分类或回归模型，对缺失值进行建模填补

归一化

归一化是对数据集进行区间缩放，缩放到[0,1]的区间内，把有单位的数据转化为没有单位的数据，即统一数据的衡量标准，消除单位的影响。这样方便了数据的处理，使数据处理更加快速、

敏捷。Skearn中最常用的归一化的方法是：MinMaxScaler。此外还有对数函数转换（log），反余切转换等。

标准化

标准化是在不改变原数据分布的前提下，将数据按比例缩放，使之落入一个限定的区间，使数据之间具有可比性。但当个体特征太过或明显不遵从高斯正态分布时，标准化表现的效果会比较差。标准化的目的是为了方便数据的下一步处理，比如：进行的数据缩放等变换。常用的标准化方法有z-score标准化、StandardScaler标准化等。

离散化

离散化是把连续型的数值型特征分段，每一段内的数据都可以当做成一个新的特征。具体又可分为等步长方式离散化和等频率的方式离散化，等步长的方式比较简单，等频率的方式更加精准，会跟数据分布有很大的关系。代码层面，可以用pandas中的cut方法进行切分。总之，离散化的特征能够提高模型的运行速度以及准确率。

二值化

特征的二值化处理是将数值型数据输出为布尔类型。其核心在于设定一个阈值，当样本书籍大于该阈值时，输出为1，小于等于该阈值时输出为0。我们通常使用preproccessing库的Binarizer类对数据进行二值化处理。

哑编码

我们针对类别型的特征，通常采用哑编码（One_Hot Encodin）的方式。所谓的哑编码，直观的讲就是用N个维度来对N个类别进行编码，并且对于每个类别，只有一个维度有效，记作数字1 ；其它维度均记作数字0。但有时使用哑编码的方式，可能会造成维度的灾难，所以通常我们在做哑编码之前，会先对特征进行Hash处理，把每个维度的特征编码成词向量。

以上介绍了几种较为常见、通用的数据预处理方式，但只是浩大特征工程中的冰山一角。往往很多特征工程的方法需要我们在项目中不断去总结积累比如：针对缺失值的处理，在不同的数据集中，用均值填充、中位数填充、前后值填充的效果是不一样的；对于类别型的变量，有时我们不需要对全部的数据都进行哑编码处理；对于时间型的变量有时我们有时会把它当作是离散值，有时会当成连续值处理等。所以很多情况下，我们要根据实际问题，进行不同的数据预处理。

二、特征选择

不同的特征对模型的影响程度不同，我们要自动地选择出对问题重要的一些特征，移除与问题相关性不是很大的特征，这个过程就叫做特征选择。特征的选择在特征工程中十分重要，往往可以直接决定最后模型训练效果的好坏。常用的特征选择方法有：过滤式（filter）、包裹式（wrapper）、嵌入式（embedding)等。

　　1 . 过滤方法（Filter approaches）

过滤方法，也被称为分类器独立的方法。它独立于任何归纳算法，基于距离、信息、依赖性和一致性四种不同的评价标准进行评价，利用数据的内在特征对特征进行评价和排序，根据训练数据的共同特征来选择合适的特征，而不涉及任何特定的学习器。

基于滤波器的方法可以分为单变量方法和多变量方法。在单变量中，特征的重要性是单独计算的，而忽略了特征之间的关系，而在多变量中，将考虑特征的相互作用和依赖关系。其优点是速度快、计算简单、经济，更适合于解决高维数据集问题。

最流行的为特征相关性进行评分的标准之一是皮尔逊相关系数，计算公式为：

其中， $x_{i}$ 为第i个特征，