【发布时间】:2010-08-05 22:13:16
【问题描述】:
我正在将 csv 文件读入 python 中的列表列表。现在大约100mb。几年后,该文件将达到 2-5gigs。我正在对数据进行大量日志计算。 100mb 的文件需要大约 1 分钟的时间来完成。在脚本对数据进行了大量摆弄之后,它会创建指向谷歌图表的 URL,然后在本地下载图表。
我可以继续在 2gig 文件上使用 python 还是应该将数据移动到数据库中?
【问题讨论】:
-
您的数据是否发生了变化?换句话说,旧的原始行会随着时间而改变吗?
-
不,旧行不会随时间改变
-
您需要计算/下载所有行的图表,还是只需要日志中的新条目?图表也会随时间变化吗?
-
您的计算是密集计算(大量浮点数据/模拟/模型评分)还是简单的求和/计数/趋势/分组?
-
我对数据集中的每一行取对数,然后做一些简单的事情,比如乘法