【问题标题】:Distance measure metric effect on K nearest neighbor curse of dimensionality?距离测量度量对 K 最近邻维数诅咒的影响?
【发布时间】:2014-03-03 03:55:36
【问题描述】:

我知道 Knn 在处理高维数据时有一个问题知道“维度灾难”,其理由是它在计算距离时包含所有特征,即欧几里德距离,其中非重要特征充当噪声并偏向结果有几件事我不明白

1) 余弦距离度量将如何受到维度灾难的影响,即我们将余弦距离定义为 cosDistance = 1- cosSimilarity,其中 cosSimilarity 有利于高维数据,那么余弦距离如何受到维度灾难的影响?

2) 我们可以为 weka 中的特征分配任何权重,或者我可以将特征选择本地应用到 KNN 吗? Local to knn 意味着我编写自己的 K-NN 类,在分类中我首先将训练实例转换为低维,然后计算测试实例邻居?

【问题讨论】:

    标签: machine-learning weka knn text-classification


    【解决方案1】:

    余弦与欧几里得距离没有根本区别。

    事实上,证明在欧几里得长度为 1 的归一化数据上,余弦和欧几里得距离 相同是微不足道的。换句话说,余弦是在 L2 归一化向量上计算欧几里得距离...

    因此,余弦对于维度灾难的鲁棒性并不比欧几里得距离强。但是,余弦很受欢迎,例如具有高表观维度的文本数据 - 通常是数千个维度 - 但 内在 维度必须低得多。另外,它主要用于排名;实际距离值被忽略。

    【讨论】:

      猜你喜欢
      • 2019-05-26
      • 2015-01-25
      • 2014-07-10
      • 2023-03-05
      • 2011-03-10
      • 2015-04-26
      • 2014-08-28
      • 2019-06-05
      • 2021-07-05
      相关资源
      最近更新 更多