距离解释https://blog.csdn.net/weixin_42056745/article/details/80583707
先L2欧氏距离
归一化和规范化使用情况
1、在分类、聚类算法中,需要使用距离来度量相似性的时候、或者使用PCA技术进行降维的时候,标准化(Z-score standardization)表现更好,可消除各个维度上的差异
2、在不涉及距离度量、协方差计算、数据不符合正太分布的时候,可以使用归一化方法。比如图像处理中,将RGB图像转换为灰度图像后将其值限定在[0 255]的范围
一、欧式、L2规范化欧氏距离、softmax归一化和=0
规范化:
针对数据库
规范化把关系满足的规范要求分为几级,满足要求最低的是第一范式(1NF),再来是第二范式、第三范式、BC范式和4NF、5NF等等,范数的等级越高,满足的约束集条件越严格。
针对数据;规范化:按比例缩放
数据的规范化包括归一化、标准化、正则化,其实都是误称(统称(也有人把标准化作为统称))
数据规范化是数据挖掘中的数据变换的一种方式,数据变换将数据变换或统一成适合于数据挖掘的形式,将被挖掘对象的属性数据按比例缩放,使其落入一个小的特定区间内,如[-1, 1]或[0, 1]
对属性值进行规范化常用于涉及神经网络和距离度量的分类算法和聚类算法当中。比如使用神经网络后向传播算法进行分类挖掘时,对训练元组中度量每个属性的输入值进行规范化有利于加快学习阶段的速度。对于基于距离度量相异度的方法,数据归一化能够让所有的属性具有相同的权值。
数据规范化的常用方法有三种:最小最大值规范化,z-score标准化和按小数定标规范化
标准化 z-sorce 0均值化/方差,可正负,但是绝对值不大也不一定=1,视数据的分布最大最小值影响
数据标准化是将数据按比例缩放,使其落入到一个小的区间内,标准化后的数据可正可负,但是一般绝对值不会太大,一般是z-score标准化方法:减去期望后除以标准差。
特点:
对不同特征维度的伸缩变换的目的是使其不同度量之间的特征具有可比性,同时不改变原始数据的分布。
好处:
- 不改变原始数据的分布,保持各个特征维度对目标函数的影响权重
- 对目标函数的影响体现在几何分布上
- 在已有样本足够多的情况下比较稳定,适合现代嘈杂大数据场景
归一化(改变原始分布不同维度伸缩)vs标准化(伸缩不改变数据分布)
归一化: 在不同维度数据进行不同的伸缩变化
如下:机器学习中梯度下降加快收敛