【问题标题】:best way to work with large dataset in python在 python 中处理大型数据集的最佳方法
【发布时间】:2016-09-28 01:33:03
【问题描述】:

我正在处理一个大型金融数据集(目前为 15gb,但以后将达到 200gb)。使用它的最佳方式是什么。特别是,我想做一些统计测试并使用毫秒数据生成一些图表。到目前为止,我已经使用 sqlite3 来轻松解决问题,但它似乎无法处理文件的大小。我正在使用 PyCharm(不确定是否有帮助)

【问题讨论】:

  • 15Gb 集的 Pandas,否则 s3 存储桶或 hdfs 集群和 PySpark 可能是最好的

标签: python pycharm large-data bigdata


【解决方案1】:

如果你想管理大量数据,sqlite 不是一个好的选择(实际上我不会将 sqlite 用于原型设计或运行测试之外的其他事情)。

您可以尝试使用亚马逊 RDS 来存储数据库 http://aws.amazon.com/es/rds/,并在亚马逊提供的数据库引擎之一中进行选择。

至于使用 Python,我认为您应该让 DB 引擎处理请求并使用 python 生成图形。

【讨论】:

  • 什么是数据库引擎?你能提供一些名字/例子吗?
  • 例如PostgreSQL、MySQL、Oracle、Microsoft SQL Server等
猜你喜欢
  • 2020-11-04
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2013-11-11
  • 1970-01-01
  • 2021-07-14
  • 1970-01-01
相关资源
最近更新 更多