【发布时间】:2017-09-10 13:34:26
【问题描述】:
目前我正在使用 cassandra 为我的功能用例存储数据(向用户显示时间序列和整合数据)。 Cassandra 非常擅长,如果您正确设计数据模型(查询驱动)
基本上,Storm 从 RabbitMQ 摄取数据并保存到 Cassandra
Lambda 架构只是大数据架构师和技术独立的设计模式,层可以组合:
Cassandra 是一个可以用作服务层和批处理层的数据库:我也将它用于我的 Spark 分析目的(因为数据在 cassandra 中已经很好地格式化,如时间序列)
据我所知,要考虑的一件大事是在进行任何处理之前存储您的原始数据。您需要执行此操作以恢复任何基于人为的问题(算法问题、PROD 中的 DROP TABLE 等可能发生的事情......)或以备将来使用或主要用于批量聚合
在这里我面临一个选择:
目前我将其存储在 cassandra 中,但出于不同原因,我正在考虑将原始数据存储在 HDFS 中:原始数据已“死”,使用 cassandra 令牌,使用 cassandra 集群中的资源(主要是磁盘空间)。
有人可以帮我做这个选择吗?
【问题讨论】: