【问题标题】:Hdf5 and spatial indexesHDF5 和空间索引
【发布时间】:2017-04-15 02:20:14
【问题描述】:

我有一个大数据集,有 1100 万行,我将数据加载到 pandas 中。然后我想建立一个空间索引,比如 rtree 或四叉树,但是当我将它推入内存时,它会消耗大量 RAM 以及已经读取的大文件。

为了帮助减少内存占用,我正在考虑尝试将索引推送到磁盘。 您可以将树存储在表格中吗?甚至是数据框并将其存储在 hdf 表中?有更好的策略吗?

谢谢

【问题讨论】:

  • 这个问题有点跑题了。我相当肯定 mysql 可以处理存储和检索树。
  • 我不确定这个问题是什么意思,但是在 pandas 中批量读取数据集呢?
  • @peaceful 我想问一下我是否有一个非常大的数据集,我只想在内存中建立一个 rtree 索引,有没有策略可以做到这一点,或者现有的包?
  • Openstreet 有许多用于处理空间数据的工具,请查看 wiki (wiki.openstreetmap.org/wiki/Downloading_data),它链接到各种工具(Osmosis、osmconvert、osmfilter,...)。

标签: python pandas quadtree r-tree


【解决方案1】:

是的,r-trees 可以很容易地存储在磁盘上。 (KD-trees 和 quad-trees 更难)

这就是为什么索引是面向块的 - 块大小的选择是为了匹配小时驱动。

我不使用pandas,也不会给图书馆推荐。

【讨论】:

  • 感谢您的评论
  • 基本的 R-Trees 不是那么好,R*Tree (RStarTree)、X-Tree 或 STR-Tree (sort-tile-recursive loading R-Tree) 怎么样?
  • 它们都是 r-tree,只是一些变体,但它们都是为磁盘使用而设计的。
猜你喜欢
  • 1970-01-01
  • 2012-11-03
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2019-07-18
  • 2012-04-25
相关资源
最近更新 更多