Abstract
本文提出了半随机特征来进行非线性函数近似。半随机特征依赖于可调节单元以及核函数中的随机特征。对于一个有半随机特征的隐藏层,我们证明了当width增加的时候,模型类model classes包含很好的function,尽管是非凸函数,也能找到这样的一个函数来生成未知数据(泛化边界)
对于深度模型,我们证明了通用逼近性,较低的近似误差,局部优化保证以及泛化边界。
根据问题的不同,深度半随机特征的泛化边界是已知的深度ReLU网络的边界的指数倍。
本文提出的泛化误差边界与网络的深度、训练权重W的数目以及输入的维度(input dimensionality)无关。
Introduction
为大型的非线性问题设计一个可以应用basis function,有较低计算和存储复杂度的一个框架,同时能够保持一些随机特征的特性。
本文提出半随机特征来探索在灵活性,可证明行(理论性),以及在非线性函数近似上的有效性之间的均衡。
- 尽管是一个非凸学习问题,有一个隐藏层的半随机特征模型没有差(bad)的局部最小
- 深度半随机特征的泛化边界是已知的深度ReLU网络的泛化边界的指数倍。
- 半随机特征可以被应用在多层结构中,深层(deep)结构比宽层(wide)结构表达能力更强。
- 半随机特征可以得到一类统计稳定函数(statistical stable function classes)
Background
实现非线性函数的几种不同的方式:
-
Hand-designed basis
- 手动构造特征 是内积空间。
- 经验误差最小化的时候,会计算
-
Kernel methods
- ,
- 对于训练集合 ,在一个新的点x处,
- Random features
- 应用到大规模的数据中,可以通过一系列的随机函数近似表示核函数。
- 核函数决定了随机参数的分布以及基函数的类型
- Neural networks.
- 自适应(adaptable)基函数的加权组合。
-
其中, 都是通过数据学习得到。
Semi-Random Features
与非线性表示相比,随机特征是用来近似一个已知的核函数,而不是从给定数据中得到这些特征,也就是说它不是一个表征学习representation learning 。
定义:
: (1+d)维
:随机采样
: 由数据得到
所以叫做半随机。
for and 0 otherwise
:linear semi-random features (LSR)
:squared semi-random features (SSR)
与deopout 不同,dropout 对数据的操作是数据无关的随机选择,而随机特征的随机选择与输入数据x有关,引入linear semi-random implicit-ensemble (LSR-IE) features 来说明。
因为可学习的单元参数w,半随机特征的表达能力比随机特征的表达能力要强。但是由于是随机采样得到,所以这些模型与神经网络相比还是缺少灵活性。
根据要解决的问题不同,在表达能力方面,半随机采样的特性比全随机特征的能力要高指数倍。
在泛化误差边界方面,比深度ReLU模型高指数倍。
One Hidden Layer Model
根据公式(1)得到
矩阵表示:
Universal Approximation Ability
是平方可积函数
Optimization Theory
需要通过最小化经验损失函数找到一个好的
优化问题:
根据理论2可以在多项式时间内找到全局最小值
Generalization Guarantee
Question: how well can a learned model generalize to unseen new observations?
理论3界定了泛化误差:
通过了理论2和理论3,可以得到
Multilayer Model
Benefit of Depth
Optimization Theory
Generalization Guarantee
paper: Deep Semi-Random Features for Nonlinear Function Approximation