使用 Python 存储和访问大数据 [关闭]答案

【问题标题】：Storing and accessing large data with Python [closed]使用 Python 存储和访问大数据 [关闭]
【发布时间】：2012-09-28 16:19:41
【问题描述】：

我即将开始处理大小约为 500 GB 的数据。我希望能够在任何给定时间使用 Python 访问数据的小部分。我正在考虑将 PyTables 或 MongoDB 与 PyMongo（或 Hadoop - 感谢Drahkar）一起使用。我应该考虑其他文件结构/数据库吗？

我将要做的一些操作是计算从一个点到另一个点的距离。根据布尔测试等的索引提取数据。网站的结果可能会在线发布，但目前仅打算在桌面上用于分析。

干杯

【问题讨论】：

如果您投反对票，则应该要求发表评论。为什么这被否决了两次？如果问题很糟糕，我是第一个拒绝投票的人，但这个问题似乎并不合理......
您也不妨考虑HDF5。
unutbu - 这是个好主意。 PyTables 就是基于此。我是名为 ATpy (atpy.github.com) 的天文学数据读/写包的联合开发人员，我们使用 HDF5，但访问数据子集需要在代码中进行大量重写。最终这可能是最好的解决方案，但在做出承诺之前，我正在等待听取其他人的建议。
我很惊讶这个问题已经结束了。在过去几天做了一些研发之后，我想在这里提供一份总结报告。是否只有在重新打开问题后才有可能？

标签： python bigdata

【解决方案1】：

如果您正在认真研究大数据流程的数据处理，我强烈建议您研究 Hadoop。一个提供商是 Cloudera (http://www.cloudera.com/)。它是一个非常强大的平台，其中包含许多用于数据处理的工具。包括 Python 在内的许多语言都有用于访问数据的模块，而且一旦您为它构建了各种 mapreduce、Hive 和 hbase 作业，hadoop 集群就可以为您完成大量的处理工作。

【讨论】：

感谢您的建议。我也看过 Hadoop。让我编辑我的问题以包含它。我很好奇共识会是什么。对 Hadoop 的 Python 支持是否与 MongoDB 相当或更好？
有人建议将 Riak 用于 Python：github.com/basho/riak-python-client。越来越接近关闭这一点。如果我发现了什么，会在此处发布，以防有人有类似问题。
hadoop 与 mongodb、couchdb、couchbase 等相比的目的非常重要。 mongodb、couchdb、couchbase都是nosql解决方案，hadoop是一个存储和分析集群。因此，您需要什么在很大程度上取决于您需要将其具体用于什么。