【问题标题】:Curse of dimensionality when dimensions are fixed维数固定时的维数诅咒
【发布时间】:2020-04-20 19:07:07
【问题描述】:
我认为数据科学界对“高维诅咒”的确切含义存在很大误解。请考虑两个例子:
1)我想比较1000维和1001维空间中A点和B点的距离。 这是一个高维诅咒的例子,因为在 1001 维空间中距离很可能会更高。
2)我想比较1000维空间中A点到B点的距离,以及1000维空间中A点到C点的距离。 这不是高维度的诅咒,因为即使维度很高,它们也保持不变。
第二个说法正确吗?如果在二维空间中点 A-B 之间的距离比是 A-C 的两倍,我希望在相同点的 1000 维空间中看到两倍的距离比。 这意味着只有在尝试比较不同维数之间的距离时才会发生高维灾难。
【问题讨论】:
标签:
dimensions
dimensionality-reduction
【解决方案1】:
我想我已经通过一个小测试回答了这个问题。因此,我将离开这里,以防它对某人有用:
我做了一个实验,我创建了一个包含 3 个观测值(A=1、B=2、C=4)的虚拟数据集,计算了点之间的欧几里德距离,并改变了一些特征来查看随着特征的增加,点之间的距离开始区分。
在 2 个特征之后:
0 1 2 ratio
0 0.00 1.41 4.24 3.00
1 0.00 1.41 2.83 2.00
2 0.00 2.83 4.24 1.50
100 个特征后:
0 1 2 ratio
0 0.00 10.00 30.00 3.00
1 0.00 10.00 20.00 2.00
2 0.00 20.00 30.00 1.50
1000 个特征后:
0 1 2 ratio
0 0.00 31.62 94.87 3.00
1 0.00 31.62 63.25 2.00
2 0.00 63.25 94.87 1.50
10000 个特征后:
0 1 2 ratio
0 0.00 100.00 300.00 3.00
1 0.00 100.00 200.00 2.00
2 0.00 200.00 300.00 1.50
这是什么意思?当维度固定时,不会发生高维度诅咒。可以看出,随着维数的增加,第一最近点(1)和第二最近点(2)之间的比距离保持不变。
从正确的角度来看,是的,您到达点的时间确实更长,但这是有道理的,因为您的总数据空间会随着每个添加的功能而增加。但是,点之间的行程比率保持不变,这很重要。
老实说,我不认为著名的“高维诅咒”存在这样的问题,除非您需要比较维度变体 n 中的相同点。