在 python 中处理大型数据池答案

【问题标题】：Handle large data pools in python在 python 中处理大型数据池
【发布时间】：2011-07-28 14:18:10
【问题描述】：

我正在从事一个旨在研究人们行为的学术项目。

项目将分为三个部分：

数据由一个人列表组成，所有人都有一个 ID #，并具有几个特征：身高、体重、年龄……

我需要轻松地从这些数据中进行分组（例如：所有具有给定年龄或高度范围的数据）并且数据有几个 TB 大（但可以减少为 2-3 gb 的较小子集）。

我在项目背后的理论知识方面有很强的背景，但我不是计算机科学家。我知道java、C和Matlab，现在正在学习python。

我想使用 python，因为它看起来很简单，并且大大减少了 Java 的冗长。问题是我想知道如何处理数据池。

我不是数据库专家，但我想我在这里需要一个。你认为我应该使用什么工具？

请记住，目标是在数据集上实现非常高级的数学函数，因此我们希望降低源代码的复杂性。速度不是问题。

【问题讨论】：

您可能想更详细地描述您的数据和对其进行的预期操作。现在看来，您不需要使用关系模型。谢谢
@eat：我主要做统计操作：画图（用google图表），进行统计操作（PCA，关键测试，..）和研究相关性。例如：身高和年龄之间是否存在相关性？取所有身高值和年龄值并进行测试。或者：总高度值是多少？它如何随着年龄/性别/...而变化？
好的，我认为 pytables 和 scipy/numpy 是正确的工具。谢谢

【解决方案1】：

听说需要的主要功能可以从：
pytables
和
scipy/numpy

【讨论】：

【解决方案2】：

使用像 MongoDB 这样的 NoSQL 数据库，在这种情况下处理数据比学习 SQL 要容易得多。

【讨论】：

【解决方案3】：

由于您不是专家，我建议您使用 mysql 数据库作为存储数据的后端，它易于学习，并且您将能够使用 SQL 查询数据并使用 python 写入数据，请参阅此MySQL Guide Python-Mysql

【讨论】：