维数固定时的维数诅咒答案

【问题标题】：Curse of dimensionality when dimensions are fixed维数固定时的维数诅咒
【发布时间】：2020-04-20 19:07:07
【问题描述】：

我认为数据科学界对“高维诅咒”的确切含义存在很大误解。请考虑两个例子：

1）我想比较1000维和1001维空间中A点和B点的距离。 这是一个高维诅咒的例子，因为在 1001 维空间中距离很可能会更高。

2）我想比较1000维空间中A点到B点的距离，以及1000维空间中A点到C点的距离。 这不是高维度的诅咒，因为即使维度很高，它们也保持不变。

第二个说法正确吗？如果在二维空间中点 A-B 之间的距离比是 A-C 的两倍，我希望在相同点的 1000 维空间中看到两倍的距离比。 这意味着只有在尝试比较不同维数之间的距离时才会发生高维灾难。

【问题讨论】：

【解决方案1】：

我想我已经通过一个小测试回答了这个问题。因此，我将离开这里，以防它对某人有用：

我做了一个实验，我创建了一个包含 3 个观测值（A=1、B=2、C=4）的虚拟数据集，计算了点之间的欧几里德距离，并改变了一些特征来查看随着特征的增加，点之间的距离开始区分。

在 2 个特征之后：

       0       1       2    ratio
0   0.00    1.41    4.24    3.00
1   0.00    1.41    2.83    2.00
2   0.00    2.83    4.24    1.50

100 个特征后：

       0        1       2   ratio
0   0.00    10.00   30.00   3.00
1   0.00    10.00   20.00   2.00
2   0.00    20.00   30.00   1.50

1000 个特征后：

       0        1       2   ratio
0   0.00    31.62   94.87   3.00
1   0.00    31.62   63.25   2.00
2   0.00    63.25   94.87   1.50

10000 个特征后：

       0         1       2  ratio
0   0.00    100.00  300.00  3.00
1   0.00    100.00  200.00  2.00
2   0.00    200.00  300.00  1.50

这是什么意思？当维度固定时，不会发生高维度诅咒。可以看出，随着维数的增加，第一最近点（1）和第二最近点（2）之间的比距离保持不变。

从正确的角度来看，是的，您到达点的时间确实更长，但这是有道理的，因为您的总数据空间会随着每个添加的功能而增加。但是，点之间的行程比率保持不变，这很重要。

老实说，我不认为著名的“高维诅咒”存在这样的问题，除非您需要比较维度变体 n 中的相同点。

【讨论】：