【问题标题】:how can I keep my spark RDD updated?如何让我的 spark RDD 保持更新?
【发布时间】:2014-07-23 23:25:57
【问题描述】:

我正在使用带有 cassandra 的 apache Spark。我能够创建 RDD 并获得结果。我正在使用 Calliope 进行此操作。

我尝试找到很多关于如何在不手动刷新的情况下保持我的 RDD 更新的信息。我找到了几个可以使用 calliope cassandra steraming 在 Cassandra 中保存数据的示例,但我没有找到任何东西可以每隔几秒获取一次数据并保持我的 RDD 更新。如果有人知道,请告诉我。

【问题讨论】:

  • 您想让您的 RDD 与 Cassandra 中存储的数据保持“同步”吗?那是你的目标吗?如果是这种情况,我认为您可能需要重新考虑您的方法。

标签: cassandra apache-spark


【解决方案1】:

您不希望使用 Spark 频繁地重新查询数据,因为它别无选择,只能每次都重新加载整个表(它无法知道更新了什么)。如果您想处理持续更新,您应该将更新发送到队列中,然后使用 Spark 流处理它们。

【讨论】:

    猜你喜欢
    • 2016-04-21
    • 2023-03-17
    • 1970-01-01
    • 2022-07-05
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多