【发布时间】:2010-04-09 07:58:44
【问题描述】:
所以有一个很酷的新东西,这些 NoSQL 数据库。所以这是我的数据: 气象数据行的行:值,代表某个站点的某些测量值(由 WMO 编号,而不是坐标标识),在某个时间。
不是每个站点都测量每个参数,也不是每个参数都被测量。
我目前在 MySQL 中存储这些数据(价值 30 年的每小时值,产生约 10 亿个值)。持续的增长和可预见的更多数据的增加让我有点头疼。
阅读有关似乎很容易扩展的基于文档的 NoSQL 系统,我想知道 NoSQL 是否也是气象数据的可行数据存储概念。你有这方面的经验吗?
更新:忘记了典型查询:大多数查询需要时间轴上的数据:即给我 066310 站从 01.01.2010 00:00 到 01.03.2010 00:00 的温度。
或者:给我一个特定站的所有参数的最新值。
【问题讨论】:
-
究竟是什么让你头疼?管理数据库?表现?汇总数据?还有什么?如果它与性能相关,您是否分析了查询的查询计划 - 也许您需要更好的索引,或者调整您的数据库设置(PostgreSQL 在这方面做得很好)。您的数据集有多大 - 磁盘方面。 1GB?更多的?少一点?
-
如果不了解有关您的表结构和查询细节的所有血腥细节,很难说,但您可能会在经典数据库中获得很多(读取)速度,例如通过在日期字段上对您的表进行聚类(并为您的查询提供适当的索引)...
-
@Mike:当前数据库的磁盘容量约为 30gb,但未来的扩展将增加到 100-300gb。对查询进行分析并相应地对表进行索引。让我们头疼的是事物的一般大小。备份、复制恢复、具有繁重索引活动的批量插入都需要越来越长的时间。 @ChristopheD:集群肯定是我们正在研究的东西。
标签: nosql