令人头大的

近日在看why machine learning works 这篇paper,就看懂了点皮毛。里面涉及大量的概率推导,层层定理引用。paper奉上,why machine learning works

框架定义

paper里面把所有machine learnig 定义为一个在有限空间中搜索目标的框架。将机器学习问题定义为搜索问题。
why machine learning works

那么什么样的搜索是有效,这里就引出了搜索的成功概率;

概率

paper里面把搜索成功的概率通过信息熵和贝叶斯来表示;
why machine learning works

  • D(PTUT)D(P_{T} || U_{T})是目标t的分布于uniform分布的KL散度衡量;表示目标的可预测性如何,越接近uniform分布,预测性越差,如果spike越多,那么我们可以集中精力在spike上面,预测难度下降;
  • I(T;F)I(T;F) 是目标和信息源(可以看做特征)的互信息,互信息越高则可以推断的可能性越高;
  • IΩI_{\Omega}是目标维度与搜索空间维度的关系,代表找到目标的难度。
    具体论证过程可以在paper里面找;

机器学习的概率

那么为什么机器学习能提高这个概率呢;
why machine learning works
ILI_{L} 信息损失,$ I(T;F) − I(T;X)$ 从F里面抽取出信息X,这一步中损失的信息量
EX[D(PTZ=1,X)UTZ=1,X]E_{X} [D(P_{T|Z=1,X})||U_{T|Z=1,X}]表示是structural predictability (这里没怎么看懂)
CrC_{r}可以看做是为了使得概率分布在0-1上面而进行的操作

相关文章: