【发布时间】:2017-04-15 02:20:14
【问题描述】:
我有一个大数据集,有 1100 万行,我将数据加载到 pandas 中。然后我想建立一个空间索引,比如 rtree 或四叉树,但是当我将它推入内存时,它会消耗大量 RAM 以及已经读取的大文件。
为了帮助减少内存占用,我正在考虑尝试将索引推送到磁盘。 您可以将树存储在表格中吗?甚至是数据框并将其存储在 hdf 表中?有更好的策略吗?
谢谢
【问题讨论】:
-
这个问题有点跑题了。我相当肯定 mysql 可以处理存储和检索树。
-
我不确定这个问题是什么意思,但是在 pandas 中批量读取数据集呢?
-
@peaceful 我想问一下我是否有一个非常大的数据集,我只想在内存中建立一个 rtree 索引,有没有策略可以做到这一点,或者现有的包?
-
Openstreet 有许多用于处理空间数据的工具,请查看 wiki (wiki.openstreetmap.org/wiki/Downloading_data),它链接到各种工具(Osmosis、osmconvert、osmfilter,...)。
标签: python pandas quadtree r-tree