概率论与数理统计
数理统计与机器学习有什么关系呢?哪些地方需要用到数理统计?
实际上,二者关心的是同一件事,即我们从数据中学到了什么。事件的概率是衡量该事件发生的可能性的量度。虽然在一次随机试验中某个事件的发生是带有偶然性的,但那些可在相同条件下大量重复的随机试验却往往呈现出明显的数量规律。
机器学习除了处理不确定量,也需处理随机量。不确定性和随机性可能来自多个方面,使用概率论来量化不确定性。 概率论在机器学习中扮演着一个核心角色,因为机器学习算法的设计通常依赖于对数据的概率假设。
例如,在机器学习(Andrew Ng)的课中,会有一个朴素贝叶斯假设,就是条件独立的一个例子。该学习算法对内容做出假设,用来分辨电子邮件是否为垃圾邮件。假设无论邮件是否为垃圾邮件,单词\(x\)出现在邮件中的概率条件独立于单词\(y\)。很明显这个假设是非一般性的,因为某些单词几乎总是同时出现。然而,最终结果是,这个简单的假设对结果的影响并不大,且无论如何都可以让我们快速判别垃圾邮件。
拓展概括,更直白的说吧:
- 线性代数提供了数据的表示;
- 概率论与统计提供了问题的假设;
- 微积分提供了问题的解决方案。
目前为止,我们已经知道了数据的表示及变换等,接下来进入第二个环节,有关问题的假设,即数理统计部分。
1. 什么是统计?什么是概率?
从一个不搞笑的笑话开始吧
某次生物课考试,有一道题是看动物的脚,猜该动物的名称,一考生实在是不会做,愤怒的把试卷撕掉就往外走,老师见了,抓住他大声说道:“你哪个班的,这么嚣张”。该学生把裤腿一提,说道:“你猜呀,你猜呀”!扬长而去~
工科男就是笑点低,这也能叫做笑话~服气