【发布时间】:2015-11-16 02:11:28
【问题描述】:
我实际上正在处理高维数据(约 50.000-100.000 个特征),必须对其执行最近邻搜索。我知道随着维度的增长,KD-Trees 的性能很差,而且我也读过,一般来说,所有空间分区数据结构都倾向于对高维数据执行穷举搜索。
此外,还有两个重要的事实需要考虑(按相关性排序):
- 精度:必须找到最近的邻居(不是近似值)。
- 速度:搜索必须尽可能快。 (创建数据结构的时间并不重要)。
所以,我需要一些建议:
- 执行 k-NN 的数据结构。
- 如果使用 aNN(近似最近邻)方法会更好,是否将其设置得尽可能准确?
【问题讨论】:
标签: algorithm data-structures nearest-neighbor tradeoff approximate-nn-searching