李宏毅机器学习三天速成~~~第五课~~~Classification：Probabilistic Generative Model

1.利用Regression来分类

示例：

当有上图右小角的点的时候，这些点会大幅改变分类线的位置。这时候就会导致整体的回归结果变差。当把多分类当成回归问题，类别分别为1，2,3,4……，因为回归的问题是预测具体的值，这样定义类别就默认这些数据之间有相应的关系。如果数据间没有具体的这些数字关系，就会导致最后的回归结果变差。

下图中，可以利用一些Model进行分类，根据结果划分分类，同时损失函数为分类结果错误的个数

常见的分类方法有SVM（支持向量机）

李宏毅机器学习三天速成~~~第五课~~~Classification：Probabilistic Generative Model

x的概率，下面有两个分类

李宏毅机器学习三天速成~~~第五课~~~Classification：Probabilistic Generative Model

下面对Pokemon进行分类实验：

pokemon的分类中，每个pokemon用一个向量vector表示，每个属性即特征Feature。

李宏毅机器学习三天速成~~~第五课~~~Classification：Probabilistic Generative Model

假设pokemon的分布符合高斯分布（正太分布），

利用最大似然法得到样本点的高斯分布：

最大可能性

李宏毅机器学习三天速成~~~第五课~~~Classification：Probabilistic Generative Model

计算结果得到样本的最大可能分布：

李宏毅机器学习三天速成~~~第五课~~~Classification：Probabilistic Generative Model

接下来利用样本得到的概率模型可以对一些未知的pokemon进行分类：

李宏毅机器学习三天速成~~~第五课~~~Classification：Probabilistic Generative Model

分类结果（不好）：

下面的颜色表示不同的概率：

李宏毅机器学习三天速成~~~第五课~~~Classification：Probabilistic Generative Model

模型的改进

利用不同的mean和Covariance来确定高斯分布，会由于参数的过多导致结果不好，实际上这是由于参数多导致的overfitting,可以通过减少参数的方法来改进模型。

下面利用相同的的Covariance来预测模型

李宏毅机器学习三天速成~~~第五课~~~Classification：Probabilistic Generative Model

相同的covariance通过加权平均计算得到

李宏毅机器学习三天速成~~~第五课~~~Classification：Probabilistic Generative Model

模型效果：

李宏毅机器学习三天速成~~~第五课~~~Classification：Probabilistic Generative Model