在 python 中处理大型数据集的最佳方法

【问题标题】：best way to work with large dataset in python在 python 中处理大型数据集的最佳方法
【发布时间】：2016-09-28 01:33:03
【问题描述】：

我正在处理一个大型金融数据集（目前为 15gb，但以后将达到 200gb）。使用它的最佳方式是什么。特别是，我想做一些统计测试并使用毫秒数据生成一些图表。到目前为止，我已经使用 sqlite3 来轻松解决问题，但它似乎无法处理文件的大小。我正在使用 PyCharm（不确定是否有帮助）

【问题讨论】：

【解决方案1】：

如果你想管理大量数据，sqlite 不是一个好的选择（实际上我不会将 sqlite 用于原型设计或运行测试之外的其他事情）。

您可以尝试使用亚马逊 RDS 来存储数据库 http://aws.amazon.com/es/rds/，并在亚马逊提供的数据库引擎之一中进行选择。

至于使用 Python，我认为您应该让 DB 引擎处理请求并使用 python 生成图形。

【讨论】：