【问题标题】:Cassandra for predective analysisCassandra 用于预测分析
【发布时间】:2018-03-24 21:11:55
【问题描述】:

我们每隔一分钟定期收集系统统计信息并以 blob (Json) 形式转储到 Cassandra 中。此表只有一个分区,条目不会超过 100K

此表似乎适合转储数据并根据时间戳读取数据。到目前为止,我们都很好。

我们计划对系统统计数据进行预测分析,例如每分钟我们将当前统计数据与系统统计历史的历史数据与我们自己的逻辑进行比较(坦率地说我们还没有完成逻辑)

所以如果我们使用查询

选择statisticsjson, timestamp from stattable where partitionid = 'stat' and timestamp > X

返回我们需要的所有 Json。

现在如何分析 Json 数据的历史并警告用户系统当前状态处于危险状态,这是对这些旧 Json 数据进行分析的最佳工具?

【问题讨论】:

    标签: cassandra analytics cassandra-3.0


    【解决方案1】:

    分析存储在 Cassandra 中的数据的常用方法是使用 apache Spark 和 spark-cassandra 连接器。这通常意味着在每个 Cassandra 节点上配置一个 Cassandra 服务和一个 Spark-worker。这将允许您运行在 Cassandra 中无法执行的任何类型的分析(无连接、有限聚合等......)。使用 spark,您将能够读取 json 对象,并执行您需要的任何转换,所有这些都是并行的。

    根据您的业务需求,您可以编写一个简单的应用程序来从 Cassandra 中检索数据(假设它的大小有限),并针对这个有限的数据集执行分析。

    【讨论】:

    • 谢谢 Christophe 你能指出任何最好的例子或实现吗?如果该示例是预测分析,那就太好了
    • 我认为您应该开始查看 spark-cassandra-connector 文档以了解如何将数据加载到 Spark 中。加载后,您应该查看 spark ML 库,看看哪些对您有用。
    猜你喜欢
    • 2016-08-04
    • 1970-01-01
    • 2021-09-19
    • 2015-09-23
    • 2017-11-24
    • 2018-01-31
    • 1970-01-01
    • 2013-12-14
    • 1970-01-01
    相关资源
    最近更新 更多