NoSQL (BigTable...) 和 TimeSeries 数据答案

【问题标题】：NoSQL (BigTable...) and TimeSeries DataNoSQL (BigTable...) 和 TimeSeries 数据
【发布时间】：2013-03-19 01:33:26
【问题描述】：

我在一个收集/存储大量时间序列数据的组织工作（time=value,time=value...）。今天，我们使用历史学家来收集和处理这些数据。使用 historian 的主要优点是压缩数据并在数据存储方面更有效。然而，随着大数据、NoSQL 等技术的出现，压缩数据（因为存储 $$）的努力似乎正在消退，趋势是存储“大量”数据。

有没有人尝试过用大数据解决方案？我知道 OpenTSDB，有没有人在非 IT 角色？
NoSQL 数据库 (Cassandra...) 是否适合时间序列数据？如果是这样，实现可能是什么样的？

【问题讨论】：

标签： time-series bigtable

【解决方案1】：

仅仅是收集或存储的重要性，还是分析速度或易于分析的重要性？

对于大多数合理的数据大小，标准 SQL 就足够了。

除此之外，特别是对于分析，您最好需要一个内存和面向列的数据库。在最高端，这意味着 kx.com 的 kdb，被所有主要银行使用（$$ 昂贵）。但是，您具体询问开源，我会根据您的数据大小和访问要求考虑内存中的 monetdb 或 mysql。

Cassandra 是 nosql 群中更合适的选择之一，人们已经尝试过使用它： http://www.datastax.com/dev/blog/advanced-time-series-with-cassandra http://synfin.net/sock_stream/technology/advanced-time-series-metric-data-with-cassandra

我发现我花了很多时间在最小的数据级别上进行修改以使事情正常工作并创建大量冗长的代码。然后它将我的数据分布在多台服务器上，并尝试通过使用多台机器来弥补低效的存储。当我评估它时，它的时间支持和操纵时间的功能很差，我只能轻松地拉出范围。由于这些原因，我离开了 cassandra。

【讨论】：

你从 Cassandra 搬到哪里/做什么？我想很高兴知道。新解决方案是否能够满足您的需求，而无需“在最小的数据级别进行破解”？