深度学习-特征传递

函数的计算

一元函数

$f(x) = ax + b$

求值：一次性计算
求解：需要两组数值

多元函数

$f(x,y) = ax + by + c$

感知机的特性，每次都是线性划分，即使多输入的情况，也决定了它是多元一次函数。

为了分离输入和特征值，我们可以这样描述多元函数。
$F(x_1,...,x_n) = [x_1,...,x_n] \times \left[ \begin{matrix} w_1 \\ ... \\ w_n \end{matrix} \right] + c$
通过矩阵的方式，可以泛化的对多元一次函数进行良好表示
$F(X) = X \times W +C$

多组函数

为什么要采用矩阵呢，你要知道，矩阵最大的用处就是提升运算的，然后才有的深入研究。
$\left[\begin{matrix}x_{11}&x_{12}\\x_{21}&x_{22}\\ \end{matrix}\right] \times \left[\begin{matrix}w_{11}&w_{12}\\ w_{21}&w_{22}\\ \end{matrix}\right]= \left[\begin{matrix} x_{11} \times w_{11} + x_{12} \times w_{21} & x_{12} \times w_{12} + x_{12} \times w_{22} \\ x_{21} \times w_{11} + x_{22} \times w_{21} & x_{21} \times w_{12} + x_{22} \times w_{22} \\ \end{matrix}\right] \Rightarrow \left[\begin{matrix} a&b\\ c&d\end{matrix}\right]$
它计算了什么呢？

特征组

首先看W，不难看出来，这里其实是两组函数
$\left[ \begin{matrix} w_{11}&w_{12}\\ w_{21}&w_{22} \end{matrix} \right]= \begin{cases} f_1(x, y) = x \times w_{11} + y \times w_{12} \\ f_2(x, y) = x \times w_{21} + y \times w_{22} \\ \end{cases}$
换言之，对于特征组来说，也就相当于权重组，它是以列来进行区分的。

每一列，一个函数映射。

每一行，一组特征权重。

输入组

每一行，一个样本。

每一列，一个特征。

对照理解

每个人有很多的特征
每个特征散布很多人

由于计算的特点，矩阵的先后顺序是很重要的，而且两者行列对应。

按照列理解：

- X：单样本多特征
- W：单映射多权重

按照行理解

- X：单特征多样本
- W：单权重多映射

特征的抽取

基本特征

如何才算及格

$f(scorer) = \begin{cases} 及格&score \geq 60\\ 不及格&score\lt60 \end{cases}$

假设我们只能衡量百分制，那我们需要衡量其他分制的情况的时候呢
$f(x) = x \div radix \times100$
我们也就把原来的分值映射到了百分，从而就能够进行判断了。

单属性的判断，就是线性的换算，映射到能够判断的标准，对比出结论。

多种特征

标准关系： $(身高 -80) \times 70\% = 标准体重$

健康对比： $\left|\frac{标准体重 - 实际体重}{标准体重}\right| \leq 10\%$

健康指数
$f_{heath}(high,weight) = \left| 1 - \frac{weight \times 10^4}{70 \times high - 5600} \right|$
评判依据
$h_{test}(high, weight) = \begin{cases} 健康&f_{heath} \leq 10\\ 不健康&f_{heath} \gt 10 \end{cases}$
说了半天，其实都只是这么一个效果：把基本的特征，映射到我们的标准，从而进行评判

很多时候，评判一个东西，的确是要从多方面进行衡量的，也正是对应了我们的多输入。

深度组合

如果说多元函数，是横向拓宽了我们的计算，显而易见的标志对应的是多输入。

好比门电路，双输入或多输入的与门，输入数量变多了，但是总的计算方法不变。

而结果再计算，进行深度的计算组合，加上层级的调度，就能够让基本的线性变得更圆滑。

思考一下，XOR不就是这样来的么。

找另一半，你有神马标准呢？

健康（身高，体重）
学识（教育，思维）
呵护（物质，精神）
…

可以看到，我们的重重标准，是建立在基本的特征上面。

而基本的特征，又需要从更基本特征进行提取。

如此反复，直到不可再分，我么你才能建立一个标准，准确的进行衡量。

深度学习-特征传递
通过最基本的特征X，换算到对应的属性H，最后评判得出我们的结论。

使用矩阵进行表示的话，每一层就可以用一个字母进行表示，更专注于研究层级之间的关系了。

计算的网络

网络节点

每一步计算，就是一条线，两端的就是节点。

我们基本的单属性映射，也就是一元一次函数，就是这种类型。

多点计算

一个结果或者特征的提取，很多时候需要多个基本特征进行组合

多层网络

深度学习-特征传递
这就是最常见的情况了。

哪怕就单纯的漂亮，肤质、保养、血型、父母…

很多特征，必须传达到最基本的不可再分，才能够准确的进行衡量。

自己的体会

特征的映射

愚蠢的人，总是习惯把别人拉入自己擅长的领域，然后以擅长的方法打败别人。

好像每个人都愚蠢呢，可能嘴巴不利索的人最愚蠢吧。

我们擅长，那就是坚持的理由。

计算机擅长计算，那就把问题转化为计算问题。

我们只会百分判断，那就全部转换为百分数。

我们只要帅哥美女，那就只去衡量漂亮与否，把基本特征给转化到我们熟悉的领域。

映射，就是把基础的特征，提取成我们所需要的，能够继续转换和评判的标准，让我们能够进行处理。

映射的特点

特征提取

特征的提取，依赖于次级的基本属性。

可能单纯的依赖于其中一种，也可能依赖于多种。

这就是前面多元一次函数的具体含义，它就是一种特征转换。

特征传递

要有三层楼阁，得有二层，得有一层，得有地基。

一个特征需要次一级的属性，不过越是抽象的特征，层级就越高。

从最终的判断特征到最基础属性，也就越深；每一级的特征传递，也就更复杂。

相邻层之间，仍然是线性关系；间隔层之间，逐渐脱离线性约束。

衡量的体系

基础属性覆盖完整
特征抽取没有偏差

满足这两点，我们就能建立起这么一个标准，去衡量，去评判，去预测，去分类。

不遗漏基础，注定输入增多。

不丢失关联，注定中间特征增多。

不错过细节，注定层级加深。

重点的转移

建立的体系，就好比这么一个关系
$y = f(x)$
知道了输入，就必定有一个输出。

只要参数足够精确合理，就能够得出正确的结果。

即使图像不够完整，我们在未显现的区域，也能够绘制。

然后关键的问题来了，我们如何得到这些参数，如何制造这个模型。

正如最小二乘法，通过数据，抓到了一次函数的模型建立方法。

我们的模型的"最小二乘法"呢，我们如何能够建立起来我们的堡垒呢。

不用气馁，虽然方法有待学习，但是不得不说前途一片大好。

不用针对固定形式求解：因为基于线性组合传递，我们没有固定的表达式限制，不在意高次限制

问题求解的准确和普适：适用于处理任何的输入/输出问题，不关心内在处理

也就是说，解决了模型的建立问题，我们将有待解决一切能够转化为数值计算的输入/输出问题。

只要结果是收敛的，我们就不存在任何的困难。

不过，还是正视一下目前的困境

多少层

多少特征

参数几何