【发布时间】:2012-09-28 16:19:41
【问题描述】:
我即将开始处理大小约为 500 GB 的数据。我希望能够在任何给定时间使用 Python 访问数据的小部分。我正在考虑将 PyTables 或 MongoDB 与 PyMongo(或 Hadoop - 感谢Drahkar)一起使用。我应该考虑其他文件结构/数据库吗?
我将要做的一些操作是计算从一个点到另一个点的距离。根据布尔测试等的索引提取数据。网站的结果可能会在线发布,但目前仅打算在桌面上用于分析。
干杯
【问题讨论】:
-
如果您投反对票,则应该要求发表评论。为什么这被否决了两次?如果问题很糟糕,我是第一个拒绝投票的人,但这个问题似乎并不合理......
-
您也不妨考虑HDF5。
-
unutbu - 这是个好主意。 PyTables 就是基于此。我是名为 ATpy (atpy.github.com) 的天文学数据读/写包的联合开发人员,我们使用 HDF5,但访问数据子集需要在代码中进行大量重写。最终这可能是最好的解决方案,但在做出承诺之前,我正在等待听取其他人的建议。
-
我很惊讶这个问题已经结束了。在过去几天做了一些研发之后,我想在这里提供一份总结报告。是否只有在重新打开问题后才有可能?