【发布时间】:2016-09-28 01:33:03
【问题描述】:
我正在处理一个大型金融数据集(目前为 15gb,但以后将达到 200gb)。使用它的最佳方式是什么。特别是,我想做一些统计测试并使用毫秒数据生成一些图表。到目前为止,我已经使用 sqlite3 来轻松解决问题,但它似乎无法处理文件的大小。我正在使用 PyCharm(不确定是否有帮助)
【问题讨论】:
-
15Gb 集的 Pandas,否则 s3 存储桶或 hdfs 集群和 PySpark 可能是最好的
标签: python pycharm large-data bigdata