【发布时间】:2009-08-05 20:37:18
【问题描述】:
我正在开始一个新的科学项目,其中包含大量数据(数百万个条目),我想以一种易于访问的格式存储。我遇到了许多不同的潜在选择,但我不确定如何从中挑选。我的数据可能只是存储为字典,或者可能是字典字典。一些潜在的考虑因素:
- 速度。每次启动新脚本时,我都无法从磁盘上加载所有数据,我希望尽可能快速地访问随机条目。
- 易于使用。这是蟒蛇。存储应该感觉像 python。
- 稳定性/成熟度。我想要目前支持的东西,虽然效果很好但仍在开发中的东西会很好。
- 易于安装。我的系统管理员应该能够在我们的集群上运行它。
我不太关心存储的大小,但如果一个选项在这方面真的很糟糕,这可能是一个考虑因素。另外,如果重要的话,我很可能会创建一次数据库,然后只读取它。
我已经开始研究的一些潜在选项(请参阅this 帖子):
有什么建议可以更好地满足我的目的吗?有更好的想法吗?其中一些有后端;关于哪种文件系统后端最好的建议?
【问题讨论】:
-
感谢您的回答。在查看了已经提到的各种选项后,我正在更彻底地研究 sqlalchemy 选项。
-
对于将来看到这个的任何人,我决定使用东京内阁键值存储的 pytc 绑定,因为这提供了对原始数据的最快访问。对于处理过的数据,我可能会使用 SQLAlchemy,但它在速度上无法触及 pytc 和 pymongo 之类的键值存储。
-
shove 规则它们,它有几乎所有的后端,在我的快速测试中,我用 leveldb 得到了更好的结果
标签: python orm persistence