【问题标题】:Curse of dimensionality when dimensions are fixed维数固定时的维数诅咒
【发布时间】:2020-04-20 19:07:07
【问题描述】:

我认为数据科学界对“高维诅咒”的确切含义存在很大误解。请考虑两个例子:

1)我想比较1000维和1001维空间中A点和B点的距离。 这是一个高维诅咒的例子,因为在 1001 维空间中距离很可能会更高。

2)我想比较1000维空间中A点到B点的距离,以及1000维空间中A点到C点的距离。 这不是高维度的诅咒,因为即使维度很高,它们也保持不变。

第二个说法正确吗?如果在二维空间中点 A-B 之间的距离比是 A-C 的两倍,我希望在相同点的 1000 维空间中看到两倍的距离比。 这意味着只有在尝试比较不同维数之间的距离时才会发生高维灾难。

【问题讨论】:

    标签: dimensions dimensionality-reduction


    【解决方案1】:

    我想我已经通过一个小测试回答了这个问题。因此,我将离开这里,以防它对某人有用:

    我做了一个实验,我创建了一个包含 3 个观测值(A=1、B=2、C=4)的虚拟数据集,计算了点之间的欧几里德距离,并改变了一些特征来查看随着特征的增加,点之间的距离开始区分。

    在 2 个特征之后:

           0       1       2    ratio
    0   0.00    1.41    4.24    3.00
    1   0.00    1.41    2.83    2.00
    2   0.00    2.83    4.24    1.50
    

    100 个特征后:

           0        1       2   ratio
    0   0.00    10.00   30.00   3.00
    1   0.00    10.00   20.00   2.00
    2   0.00    20.00   30.00   1.50
    

    1000 个特征后:

           0        1       2   ratio
    0   0.00    31.62   94.87   3.00
    1   0.00    31.62   63.25   2.00
    2   0.00    63.25   94.87   1.50
    

    10000 个特征后:

           0         1       2  ratio
    0   0.00    100.00  300.00  3.00
    1   0.00    100.00  200.00  2.00
    2   0.00    200.00  300.00  1.50
    

    这是什么意思?当维度固定时,不会发生高维度诅咒。可以看出,随着维数的增加,第一最近点(1)和第二最近点(2)之间的比距离保持不变。

    从正确的角度来看,是的,您到达点的时间确实更长,但这是有道理的,因为您的总数据空间会随着每个添加的功能而增加。但是,点之间的行程比率保持不变,这很重要。

    老实说,我不认为著名的“高维诅咒”存在这样的问题,除非您需要比较维度变体 n 中的相同点。

    【讨论】:

      猜你喜欢
      • 2016-09-26
      • 2020-02-17
      • 2014-03-03
      • 1970-01-01
      • 2011-03-27
      • 2010-11-21
      • 2012-04-08
      • 2014-04-23
      • 1970-01-01
      相关资源
      最近更新 更多