【问题标题】:Handle large data pools in python在 python 中处理大型数据池
【发布时间】:2011-07-28 14:18:10
【问题描述】:

我正在从事一个旨在研究人们行为的学术项目。

项目将分为三个部分:

  1. 从一些远程源读取数据并使用它构建本地数据池的程序。
  2. 验证此数据池并保持其一致性的程序
  3. 允许人们读取/操作数据的网络界面。

数据由一个人列表组成,所有人都有一个 ID #,并具有几个特征:身高、体重、年龄……

我需要轻松地从这些数据中进行分组(例如:所有具有给定年龄或高度范围的数据)并且数据有几个 TB 大(但可以减少为 2-3 gb 的较小子集)。

我在项目背后的理论知识方面有很强的背景,但我不是计算机科学家。我知道java、C和Matlab,现在正在学习python。

我想使用 python,因为它看起来很简单,并且大大减少了 Java 的冗长。问题是我想知道如何处理数据池。

我不是数据库专家,但我想我在这里需要一个。你认为我应该使用什么工具?

请记住,目标是在数据集上实现非常高级的数学函数,因此我们希望降低源代码的复杂性。速度不是问题。

【问题讨论】:

  • 您可能想更详细地描述您的数据和对其进行的预期操作。现在看来,您不需要使用关系模型。谢谢
  • @eat:我主要做统计操作:画图(用google图表),进行统计操作(PCA,关键测试,..)和研究相关性。例如:身高和年龄之间是否存在相关性?取所有身高值和年龄值并进行测试。或者:总高度值是多少?它如何随着年龄/性别/...而变化?
  • 好的,我认为 pytablesscipy/numpy 是正确的工具。谢谢

标签: python large-data database


【解决方案1】:

听说需要的主要功能可以从:
pytables

scipy/numpy

【讨论】:

    【解决方案2】:

    使用像 MongoDB 这样的 NoSQL 数据库,在这种情况下处理数据比学习 SQL 要容易得多。

    【讨论】:

      【解决方案3】:

      由于您不是专家,我建议您使用 mysql 数据库作为存储数据的后端,它易于学习,并且您将能够使用 SQL 查询数据并使用 python 写入数据,请参阅此MySQL GuidePython-Mysql

      【讨论】:

        猜你喜欢
        • 2020-04-26
        • 2019-01-18
        • 2021-06-23
        • 2022-11-12
        • 2017-09-24
        • 2019-12-27
        • 1970-01-01
        相关资源
        最近更新 更多