论文笔记 - Deep Semi-Random Features for Nonlinear Function Approximation

Abstract

本文提出了半随机特征来进行非线性函数近似。半随机特征依赖于可调节单元以及核函数中的随机特征。对于一个有半随机特征的隐藏层，我们证明了当width增加的时候，模型类model classes包含很好的function，尽管是非凸函数，也能找到这样的一个函数来生成未知数据（泛化边界）
对于深度模型，我们证明了通用逼近性，较低的近似误差，局部优化保证以及泛化边界。
根据问题的不同，深度半随机特征的泛化边界是已知的深度ReLU网络的边界的指数倍。
本文提出的泛化误差边界与网络的深度、训练权重W的数目以及输入的维度（input dimensionality）无关。

Introduction

为大型的非线性问题设计一个可以应用basis function，有较低计算和存储复杂度的一个框架，同时能够保持一些随机特征的特性。
本文提出半随机特征来探索在灵活性，可证明行（理论性），以及在非线性函数近似上的有效性之间的均衡。

尽管是一个非凸学习问题，有一个隐藏层的半随机特征模型没有差（bad）的局部最小
深度半随机特征的泛化边界是已知的深度ReLU网络的泛化边界的指数倍。
半随机特征可以被应用在多层结构中，深层（deep）结构比宽层（wide）结构表达能力更强。
半随机特征可以得到一类统计稳定函数（statistical stable function classes）

Background

实现非线性函数的几种不同的方式：

Hand-designed basis
- 手动构造特征 $ϕ_{e x p e r t} : X \to H$ $H$ 是内积空间。
- 经验误差最小化的时候，会计算 $< ϕ_{e x p e r t} x, ϕ_{e x p e r t} x^{^{'}} >_{H}$
Kernel methods
- $k_{e x p e r t} (x^{^{'}}; x) =< ϕ_{e x p e r t} x, ϕ_{e x p e r t} x^{^{'}} >_{H}$ ,
- 对于训练集合 ${x_{i}}_{i = 1}^{m}$ ，在一个新的点x处， $\hat{f (x)} = \sum_{i = 1}^{m} α_{i} k_{e x p e r t} (x_{i}, x)$
Random features
- 应用到大规模的数据中，可以通过一系列的随机函数近似表示核函数。
- $k_{e x p e r t} (x^{^{'}}; x) = \frac{1}{C} \sum_{j = 1}^{C} ϕ_{r a n d o m} (x; r_{j}), ϕ_{r a n d o m} (x^{^{'}}; r_{j})$
- 核函数决定了随机参数 $r_{j}$ 的分布以及基函数 $ϕ_{r a n d o m}$ 的类型
Neural networks.
- 自适应（adaptable）基函数的加权组合。
- $f (x) = \sum_{k = 1}^{n} w_{k}^{(2)} ϕ (x; w_{k}^{(1)})$
  其中， $w_{k}^{(2)}, w_{k}^{(1)}$ 都是通过数据学习得到。

Semi-Random Features

与非线性表示相比，随机特征是用来近似一个已知的核函数，而不是从给定数据中得到这些特征，也就是说它不是一个表征学习representation learning 。
定义：

$ϕ_{s} (x; r, w) = σ_{s} (x^{T} r) (x^{T} w) - - - - - - - - (1)$
$x = (1, x^{T})^{T}$ ：（1+d）维
$r = (r_{0}, r^{T})^{T}$ ：随机采样
$w = (w_{0}, w^{T})^{T}$ ：由数据得到
所以叫做半随机。
$σ_{s} (z) = (z)^{s} H (z)$
$H (z) = 1$ for $z > 0$ and 0 otherwise

$s = 0$ ：linear semi-random features (LSR)
$s = 1$ ：squared semi-random features (SSR)

与deopout 不同，dropout 对数据的操作是数据无关的随机选择，而随机特征的随机选择与输入数据x有关，引入linear semi-random implicit-ensemble (LSR-IE) features 来说明。

因为可学习的单元参数w，半随机特征的表达能力比随机特征的表达能力要强。但是由于 $σ_{s} (x^{T} r)$ 是随机采样得到，所以这些模型与神经网络相比还是缺少灵活性。
根据要解决的问题不同，在表达能力方面，半随机采样的特性比全随机特征的能力要高指数倍。
在泛化误差边界方面，比深度ReLU模型高指数倍。

One Hidden Layer Model

根据公式（1）得到
${\hat{f}}_{n}^{s} (x; w) = \sum_{k = 1}^{n} ϕ_{s} (x; r_{k}, w_{k}^{(1)}) w_{k}^{(2)} - - - - - - - - (2)$
矩阵表示：
论文笔记 - Deep Semi-Random Features for Nonlinear Function Approximation

Universal Approximation Ability

论文笔记 - Deep Semi-Random Features for Nonlinear Function Approximation
$L^{2} (Ω)$ 是平方可积函数

Optimization Theory

需要通过最小化经验损失函数找到一个好的 $\hat{f} \in F_{n}^{s}$
优化问题：
论文笔记 - Deep Semi-Random Features for Nonlinear Function Approximation

根据理论2可以在多项式时间内找到全局最小值
论文笔记 - Deep Semi-Random Features for Nonlinear Function Approximation

Generalization Guarantee

Question： how well can a learned model generalize to unseen new observations?
理论3界定了泛化误差：
论文笔记 - Deep Semi-Random Features for Nonlinear Function Approximation

通过了理论2和理论3，可以得到
论文笔记 - Deep Semi-Random Features for Nonlinear Function Approximation

论文笔记 - Deep Semi-Random Features for Nonlinear Function Approximation

Abstract

Introduction

Background

Semi-Random Features

One Hidden Layer Model

Universal Approximation Ability

Optimization Theory

Generalization Guarantee

Multilayer Model

Benefit of Depth

Optimization Theory

Generalization Guarantee