【问题标题】:Storing and accessing large data with Python [closed]使用 Python 存储和访问大数据 [关闭]
【发布时间】:2012-09-28 16:19:41
【问题描述】:

我即将开始处理大小约为 500 GB 的数据。我希望能够在任何给定时间使用 Python 访问数据的小部分。我正在考虑将 PyTables 或 MongoDB 与 PyMongo(或 Hadoop - 感谢Drahkar)一起使用。我应该考虑其他文件结构/数据库吗?

我将要做的一些操作是计算从一个点到另一个点的距离。根据布尔测试等的索引提取数据。网站的结果可能会在线发布,但目前仅打算在桌面上用于分析。

干杯

【问题讨论】:

  • 如果您投反对票,则应该要求发表评论。为什么这被否决了两次?如果问题很糟糕,我是第一个拒绝投票的人,但这个问题似乎并不合理......
  • 您也不妨考虑HDF5
  • unutbu - 这是个好主意。 PyTables 就是基于此。我是名为 ATpy (atpy.github.com) 的天文学数据读/写包的联合开发人员,我们使用 HDF5,但访问数据子集需要在代码中进行大量重写。最终这可能是最好的解决方案,但在做出承诺之前,我正在等待听取其他人的建议。
  • 我很惊讶这个问题已经结束了。在过去几天做了一些研发之后,我想在这里提供一份总结报告。是否只有在重新打开问题后才有可能?

标签: python bigdata


【解决方案1】:

如果您正在认真研究大数据流程的数据处理,我强烈建议您研究 Hadoop。一个提供商是 Cloudera (http://www.cloudera.com/)。它是一个非常强大的平台,其中包含许多用于数据处理的工具。包括 Python 在内的许多语言都有用于访问数据的模块,而且一旦您为它构建了各种 mapreduce、Hive 和 hbase 作业,hadoop 集群就可以为您完成大量的处理工作。

【讨论】:

  • 感谢您的建议。我也看过 Hadoop。让我编辑我的问题以包含它。我很好奇共识会是什么。对 Hadoop 的 Python 支持是否与 MongoDB 相当或更好?
  • 有人建议将 Riak 用于 Python:github.com/basho/riak-python-client。越来越接近关闭这一点。如果我发现了什么,会在此处发布,以防有​​人有类似问题。
  • hadoop 与 mongodb、couchdb、couchbase 等相比的目的非常重要。 mongodb、couchdb、couchbase都是nosql解决方案,hadoop是一个存储和分析集群。因此,您需要什么在很大程度上取决于您需要将其具体用于什么。
猜你喜欢
  • 1970-01-01
  • 2010-12-16
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2010-09-05
  • 2012-03-01
  • 1970-01-01
相关资源
最近更新 更多