【发布时间】:2015-07-02 20:41:20
【问题描述】:
在我的应用程序中,所有实时数据都存储在 cassandra 表中,我计划使用 apache spark 对其进行分析并将其放入不同的表中,这样可以更快地获取数据,我想知道我需要应用哪种设计方法。
在一个时间范围内分析relatime表,然后放入每小时,然后再分析使其成为每天,然后每周等......,然后很容易实现日期范围内的数据。我的逻辑是好的还是使用 cassandra 和 spark 的任何其他方法?
【问题讨论】:
-
在不知道您的要求的情况下,很难提出任何解决方案。有许多不同的替代方案可以完成相同的工作。
-
@maasg 我的目的是从客户端应用程序收集数据,并将其存储在 cassandra 中而无需修改。我将其称为实时数据,我们可以预期每秒有 100 条记录。需要在仪表板中显示,需要过滤,需要显示不同的日期范围,需要更改状态,需要静音存档等,如果您能提出所有替代方案会很有帮助,我会检查它。跨度>
-
他们在这里做了类似的事情:github.com/killrweather/killrweather 如果您有更具体的问题会更好。设计建议大多是意见,实际上与 SO 无关。
-
感谢您的参考。对我很有帮助,请把它或喜欢的项目作为答案,我可以接受。
标签: cassandra apache-spark cassandra-2.0 spark-streaming