Why is Least Squares?为啥是最小二乘法？

梯度下降算法出现了最小二乘法，这是一种非常普遍的拟合函数的近似算法。但是，3次，4次都不是，为什么正好是平方形式呢？
大概在高中时？老师谈到该方法，直接在散点图上划出一条直线，并作垂足，取最小距离，因为直线一侧定义为正，一侧为负，所以取平方值，综合所有点距离之和，最后所得即为最小二乘形式。

首先叙述Ng的方法，该方法是将离散的数据赋予概率的意义，然后估计参数。当然这并非“完全正确的”。实际上，将理论应用时从来不可能做到完全正确。

Why is Least Squares?为啥是最小二乘法？

该证明：
(1)假设了误差(矢量)符合正态分布特性，导出了以给定thera为参数情况下，已知特征X，Y服从的分布。
(2)假设误差(矢量)服从独立同分布，导出参数似然性。
利用极大似然估计，直接对参数进行估计。

这个证明很简洁，但是谜之假设了正态分布，为啥酱紫假设？Ng说，因为这样是有道理的，因为实际情况反馈的是，这样的假设是符合实际情况的，也因为正态分布的性质实在太诱人了。综合上，所以这样假设。-.-…老师说的有道理。。。

数值分析课上，老师曾经利用最小2-范数来解释最小二乘法。如下：
介绍最小二乘法之前首先引入最佳平方逼近在最佳平方逼近前先引入两个引理

Lemma 1：
Why is Least Squares?为啥是最小二乘法？

Lemma 2：
Why is Least Squares?为啥是最小二乘法？

下面介绍最佳平方逼近

Why is Least Squares?为啥是最小二乘法？

以下开始LS导出。首先构造残向量，各点预测值与实际值的差称残差。
Why is Least Squares?为啥是最小二乘法？

哈尔条件：https://baike.baidu.com/item/哈尔条件/18935946?fr=aladdin

利用残向量的2-范数最小化，构造关于原始函数的最佳平方逼近，所得的形式恰好是我们常见的最小二乘法形式。相对于Ng的突然出现的正态假设似乎更加令我能够接受，但是推导比较复杂。

以上2种方法均是建立在连续基础上的，当然，离散问题也可使用，本来的，最小二乘法就是一种近似，一定范围内的误差是可以接受的。