最适合的搜索算法？答案

【问题标题】：most suited search algorithm?最适合的搜索算法？
【发布时间】：2017-02-16 07:21:24
【问题描述】：

我现在面临一个问题，我不确定什么是正确的解决方案。我会试着解释一下，希望有人能给我一些好的解决方案：

我有两个大数据数组。我正在浏览的一个数据样本介于 50^3 和 150^3 之间（通常在 50 和 100 之间，最坏的情况是 150）。对于每个样本，我想查询另一个大小大致相同的结构（总组合数量如此之多，我无法全部探索）。

无法准确预测查询，但通常情况下，它类似于：结构具有字段 A B C D E F G （编辑：总共有 10 到 20 个 int 字段）。查询类似于： 10 100 且 D > 200。是的，它真的很接近 SQL。

我想把它放在一个数据库中，但实际上它是一个独立的数据库，我可以在 RAM 中工作以使其更快（速度是一个基本标准）。

我想尝试使用 GPGPU，但这似乎是一个糟糕的主意，尽管搜索可以并行，但这似乎不是一个好主意，搜索不可预测数量的结果并不是一个好的应用程序（如果有人可以告诉我我的理解是否正确，这将帮助我确认我应该原谅这个解决方案）。编辑：由于查询性质，结果的数量是不可预测的，但它非常低，因为目的是找到少量非常适合的组合

既然我可以使用数据库，为什么不制作 RAM B-Tree？它似乎接近解决方案，但它是吗？如果是，我应该如何建立我的索引？我真的可以做多维索引吗，因为多维搜索总是存在的？可能 UB-Tree 或 R-tree 可以完成这项工作（但在我的第二个数据样本中，我可能有一些重复，所以它不会使 R-TREE 不适用吗？）。问题是，我不确定我现在是否正确理解所有这些，所以如果你们中的一个人知道树（和 gpgpu，甚至我没想到的解决方案），也许你可以让我知道我应该探索哪个解决方案、学习和实施？

【问题讨论】：

标签： search indexing tree gpgpu

【解决方案1】：

GPGPU 不是一个合适的选择，因为您受到其容量的限制，并且由于您没有告诉我们这些样本的数据大小，我假设 Titan x 层卡不够用。如果你真的可以疯狂，TESLA 或 FirePro，那么它实际上是值得的，因为你提到速度真的很重要。但我推测这些东西超出了你的预算，并且考虑到你必须学习 CUDA 或 OpenCL 才能制作一些通常会很痛苦的东西，所以我的看法是“不”。
您提到您有不可预测的结果数量，这是一件坏事。您应该开发一个公式，该公式将“稍微”计算所需的空间量，否则让您的程序在某事上工作相当长的一段时间，结果却出现容量错误/崩溃，这将是令人失望的。另一方面，如果 RAM 容量不足，您可以在需要时使用“数据库样式”从存储中获取数据（由于调度实现等，这实现起来非常麻烦）。
如果您有时间进行定制，这里有一个有用的链接。请记住，您会经常跌倒，但是当您成功时，您会学到一些东西：
```
https://www.quora.com/What-are-some-fast-similarity-search-algorithms-and-data-structures-for-high-dimensional-vectors
```
在我看来，在不影响速度的情况下，内存数据库是最简单同时也是最可靠的事情。实施哪一个取决于您。我觉得 MemSQL 不错。

【讨论】：

感谢您的回答！我想我有一些精确度：样本非常低：每个样本大约 8 个整数，可以增长到 16。我现在这样做的方式在最佳情况下已经令人满意，并且适合 RAM。我必须改进所有“非最佳情况”，我在这里：D 不可预测的结果数量实际上不够准确：结果的数量是不可预测的（因为我的查询如何工作），但目的软件是为了找到少量好的组合，所以东西已经适合 RAM
关于内存数据库，它或多或少是我所关注的。但是一旦我查看了内存数据库，我的问题是：根据我的具体需要，是否有一个特定的树结构非常适合我的需要，并且我可以使用。换句话说，是否有可能进入较低级别会为我提供更合适的工具来更快地执行我的查询？
老实说，我不了解 MemSQL，但大多数数据库都允许您将处理事情的过程调整到令人满意的程度。您可以在他们各自的文档中找到几乎所有您需要的东西，这对每个数据库来说都很多，这是一件好事。如果没有，您可以随时直接询问每个数据库团队/公司。他们有自己的论坛，正是针对这种事情的。祝你好运。