11.1 Linear Models for Classification - Binary Classification

stochastic 随机的

机器学习基石(林轩田)第十一章 笔记与感悟总结

linear classification是一个NP hard问题,因此如何找到一种方法,能够使相对容易的linear regression 和 logistics regression 来帮助求解linear classification,就比较有意义了。

机器学习基石(林轩田)第十一章 笔记与感悟总结

我们想将error function稍稍整合一下,串起来。

对于linear classification而言,我们又两个动作,一是求出H,而是看err怎么样

我们用机器学习基石(林轩田)第十一章 笔记与感悟总结来表示,其中s是打分,y是真实的分类。 

因为y只有正负1取值的可能。

因此实际上的推导过程中,左右两侧同乘y,进行形式变换。

其中ys的物理意义是,y是正确的,s是打分,故相乘总体代表了correctness score

机器学习基石(林轩田)第十一章 笔记与感悟总结

我们对logistics regression进行了缩放,目的是为了将其正好在(0,1)上相切。

机器学习基石(林轩田)第十一章 笔记与感悟总结


最后能够证明,只要我们将logistic regression / linear classification做的很好,那么我们也能够将linear classification 做的很好。

  机器学习基石(林轩田)第十一章 笔记与感悟总结

因为linear regression的在两侧的变化实在是太大,因此往往只是用来做初始值的设置。

机器学习基石(林轩田)第十一章 笔记与感悟总结

机器学习基石(林轩田)第十一章 笔记与感悟总结

11.2 Linear Models for Classification - Stochastic Grad. Descent

PLA每一轮只需要看一个点,是否正确来进行模型的修正,故时间复杂度为O(1)。

logistic regression是要每一轮,要遍历所有的数据后再处理,故要花O(N)的时间复杂度。

我们想让logistics regression 和PLA一样的快!!!

机器学习基石(林轩田)第十一章 笔记与感悟总结

我们看到logistics regression 的梯度方向是计算了所有的点。我们不想计算所有的点,只想计算一个点就足够了。

技术性手段,将机器学习基石(林轩田)第十一章 笔记与感悟总结用随机抽样的方法来进行替换。我们只抽取一个数据,用他来代替总体的平均。

这个数据叫做随机梯度。

机器学习基石(林轩田)第十一章 笔记与感悟总结

随机梯度可以看成是真实的梯度方向和噪音方向的加权和。

随机梯度的好处在于简单并且耗费低,适用于大数据和在线学习、

坏处是不稳定。

机器学习基石(林轩田)第十一章 笔记与感悟总结


yita 是一种经验值,一般选择为0.1。


机器学习基石(林轩田)第十一章 笔记与感悟总结

机器学习基石(林轩田)第十一章 笔记与感悟总结



11.3 Linear Models for Classification - Stochastic Grad. Descent

我们如何从是非题变成多类别的选择题?

比如我们做四个类别的辨识。

思路是不断的进行二分类。

但是有不好的地方。

例如上面的三角 两边都说是自己。

中间的正方形区域都说不是自己。

机器学习基石(林轩田)第十一章 笔记与感悟总结

我们想用逻辑回归方式,用可能性来度量。

注意最后的机器学习基石(林轩田)第十一章 笔记与感悟总结 是灰色的 机器学习基石(林轩田)第十一章 笔记与感悟总结是logistics 函数,是一个单调的,再求最大值的时候可以不用经过这一步。

机器学习基石(林轩田)第十一章 笔记与感悟总结

OVA, 一个类别对其他所有类别的一种。把多类别的问题变成了多个二分类的问题。

好处:很有效率,很快,应用广。

坏处:类别太多,100个类别,我们把o当成一个类别,其他全是x的话,很容易造成logistics regression选择全部认为是x,这种情况的发生。

延伸:将会讲一些方法克服这些问题。

机器学习基石(林轩田)第十一章 笔记与感悟总结

机器学习基石(林轩田)第十一章 笔记与感悟总结


11.4 Linear Models for Classification - Multiclass via Binary

我们想的是,两个两个的比较,不要1和其他比较。4个不同的,两两比较总共比较6次。

但是我们如何知道那些重叠区域,到底属于啥呢?

回答是用投票的方式选择最有可能,属于哪一个类。

机器学习基石(林轩田)第十一章 笔记与感悟总结

机器学习基石(林轩田)第十一章 笔记与感悟总结

OVO,一对一的比较、

优点:很有效率,虽然比较次数多,但是每轮比较的少。同时应用比较广泛。

坏处:存储空间会加多。会变慢

机器学习基石(林轩田)第十一章 笔记与感悟总结

机器学习基石(林轩田)第十一章 笔记与感悟总结

机器学习基石(林轩田)第十一章 笔记与感悟总结

相关文章:

  • 2021-06-02
  • 2021-10-24
  • 2021-05-12
  • 2021-08-03
  • 2021-06-27
  • 2021-07-20
  • 2021-10-21
  • 2021-04-03
猜你喜欢
  • 2021-09-13
  • 2021-10-22
  • 2021-11-09
  • 2021-04-18
  • 2021-10-22
  • 2021-12-08
  • 2021-09-23
相关资源
相似解决方案