why machine learning works

文章目录

令人头大的

框架定义
概率
机器学习的概率

令人头大的

近日在看why machine learning works 这篇paper，就看懂了点皮毛。里面涉及大量的概率推导，层层定理引用。paper奉上，why machine learning works

框架定义

paper里面把所有machine learnig 定义为一个在有限空间中搜索目标的框架。将机器学习问题定义为搜索问题。
why machine learning works

那么什么样的搜索是有效，这里就引出了搜索的成功概率；

概率

paper里面把搜索成功的概率通过信息熵和贝叶斯来表示；
why machine learning works

$D(P_{T} || U_{T})$ 是目标t的分布于uniform分布的KL散度衡量；表示目标的可预测性如何，越接近uniform分布，预测性越差，如果spike越多，那么我们可以集中精力在spike上面，预测难度下降；
$I(T;F)$ 是目标和信息源（可以看做特征）的互信息，互信息越高则可以推断的可能性越高；
$I_{\Omega}$ 是目标维度与搜索空间维度的关系，代表找到目标的难度。
具体论证过程可以在paper里面找；

机器学习的概率

那么为什么机器学习能提高这个概率呢；
why machine learning works
$I_{L}$ 信息损失，$ I(T;F) − I(T;X)$ 从F里面抽取出信息X，这一步中损失的信息量
$E_{X} [D(P_{T|Z=1,X})||U_{T|Z=1,X}]$ 表示是structural predictability （这里没怎么看懂）
$C_{r}$ 可以看做是为了使得概率分布在0-1上面而进行的操作