HDF5 和空间索引答案

【问题标题】：Hdf5 and spatial indexesHDF5 和空间索引
【发布时间】：2017-04-15 02:20:14
【问题描述】：

我有一个大数据集，有 1100 万行，我将数据加载到 pandas 中。然后我想建立一个空间索引，比如 rtree 或四叉树，但是当我将它推入内存时，它会消耗大量 RAM 以及已经读取的大文件。

为了帮助减少内存占用，我正在考虑尝试将索引推送到磁盘。您可以将树存储在表格中吗？甚至是数据框并将其存储在 hdf 表中？有更好的策略吗？

谢谢

【问题讨论】：

这个问题有点跑题了。我相当肯定 mysql 可以处理存储和检索树。
我不确定这个问题是什么意思，但是在 pandas 中批量读取数据集呢？
@peaceful 我想问一下我是否有一个非常大的数据集，我只想在内存中建立一个 rtree 索引，有没有策略可以做到这一点，或者现有的包？
Openstreet 有许多用于处理空间数据的工具，请查看 wiki (wiki.openstreetmap.org/wiki/Downloading_data)，它链接到各种工具（Osmosis、osmconvert、osmfilter，...）。

【解决方案1】：

是的，r-trees 可以很容易地存储在磁盘上。（KD-trees 和 quad-trees 更难）

这就是为什么索引是面向块的 - 块大小的选择是为了匹配小时驱动。

我不使用pandas，也不会给图书馆推荐。

【讨论】：

感谢您的评论
基本的 R-Trees 不是那么好，R*Tree (RStarTree)、X-Tree 或 STR-Tree (sort-tile-recursive loading R-Tree) 怎么样？
它们都是 r-tree，只是一些变体，但它们都是为磁盘使用而设计的。