1.列举常见的一些范数及其应用场景,如L0,L1,L2,L∞,Frobenius范数
norm-regularization
2.简单介绍一下贝叶斯概率与频率派概率,以及在统计中对于真实参数的假设。
直接与事件发生的频率相联系,被称为 频率派概率(frequentist probability);而后者,涉及到确定性水平,被称为 贝叶斯概率(Bayesian probability)。
3.概率密度的万能近似器
高斯混合模型(Gaussian Mixture Model)是概率密度的 万能近似器(universal approximator),在这种意义下,任何平滑的概率密度都可以用具有足够多组件的高斯混合模型以任意精度来逼近。
4.简单介绍一下sigmoid,relu,softplus,tanh,RBF及其应用场景
logistic sigmoid 函数通常用来产生 Bernoulli 分布中的参数 φ,因为它的范围是(0, 1),处在 φ 的有效取值范围内.
softplus 函数可以用来产生正态分布的 β 和 σ 参数,因为它的范围是 (0, ∞)。
**函数 g(z) = max{0, z} 定义的 整流线性单元(rectified linear unit)或者称为 ReLU (Jarrett et al., 2009b; Nair and Hinton, 2010a; Glorotet al., 2011a)
5.Jacobian,Hessian矩阵及其在深度学习中的重要性
6.KL散度在信息论中度量的是那个直观量
7.数值计算中的计算上溢与下溢问题,如softmax中的处理方式
8.与矩阵的特征值相关联的条件数(病态条件)指什么,与梯度爆炸与梯度弥散的关系
条件数表征函数相对于输入的微小变化而变化的快慢程度。输入被轻微扰动而迅速改变的函数对于科学计算来说可能是有问题的,因为输入中的舍入误差可能导致输出的巨大变化。
这是最大和最小特征值的模之比 1 。当该数很大时,矩阵求逆对输入的误差特别敏感。这种敏感性是矩阵本身的固有特性,而不是矩阵求逆期间舍入误差的结果。即使我们乘以完全正确的矩阵逆,病态条件的矩阵也会放大预先存在的误差。在实践中,该错误将与求逆过程本身的数值误差进一步复合.
9.在基于梯度的优化问题中,如何判断一个梯度为0的零界点为局部极大值/全局极小值还是鞍点,Hessian矩阵的条件数与梯度下降法的关系