1. SVM的原理是什么
svm是一种二分类模型,是一种在特征空间中寻找间隔最大化的分离超平面的线性分类器。
- 线性可分样本:可以通过硬间隔最大化学习线性分类器实现。
- 近似线性可分:通过引入松弛变量,通过软间隔最大化,学习线性分类器;
- 非线性样本:通过核技巧与软间隔最大化学习非线性支持向量机;
2. SVM为什么采用间隔最大化
利用间隔最大化求得的最优分离超平面是唯一的。分离超平面产生的分类结果是最鲁棒的,泛化能力最强。(采用其他策略可能得到的分类面有无数个,无法判断哪一个最优)
3. 函数间隔、几何间隔、点到超平面的距离
函数间隔:样本点到超平面的函数间隔为y*(w*x + b),可以用来表示分类预测的正确性及确信度。
几何间隔:为了防止函数间隔随超参数的等比例变化,对法向量w进行约束,即函数间隔除以w的L2范数,为y*(w*x + b)/||w||2。
点到超平面的距离为:(w*x + b) / ||w||2
4. SVM为什么要引入核函数?有哪些核函数?
当样本在原始空间线性不可分时,可将样本从原始空间映射到一个更高维的特征空间,使得样本在这个特征空间内线性可分。核函数可以实现这种映射。
**常见的核函数:**RBF径向基函数核(高斯核函数是RBF的特例),多项式核函数,线性核函数,sigmod核函数。
5. 为什么要将求解SVM的原始问题转换为其对偶问题
对偶问题往往更容易求解。同时更方便的讲约束条件与目标函数融合起来方便优化。
6. SVM的优缺点
优点:
- 适合于线性分类或者非线性分类;
- 低的泛化误差;
缺点:
- 对参数和核函数的选择比较敏感;
- 对大规模训练样本难以实施;