【问题标题】:how to bulk fetch data from Scylladb?如何从 Scylladb 批量获取数据?
【发布时间】:2021-10-09 02:49:22
【问题描述】:

在我们的用例中,我们必须从 scylladb 获取数据并放入 Elasticsearch。 如果我们一个一个地记录,那肯定需要太多时间。

我发现 scylladb 没有 binlog,对吧?

那么,你有更好的建议吗?

【问题讨论】:

    标签: elasticsearch scylla


    【解决方案1】:

    您可能希望查看在 Scylla 中使用变更数据捕获,然后使用 CDC 表来提供将填充 Elasticsearch 的 Kafka 主题。

    ScyllaDB 的 Kafka CDC 连接器基于 Debezium 构建。您可以在此处阅读更多相关信息。

    https://debezium.io/blog/2021/09/22/deep-dive-into-a-debezium-community-connector-scylla-cdc-source-connector/

    【讨论】:

    • 使用 CDC 可以从 scylladb 获取每个修改。但是如何将数据完全同步到 ES。? ES的记录是空的,我们应该把scylladb的所有数据都放到ES中。
    【解决方案2】:

    如果您想在使用 CDC 实时添加内容的基础上阅读所有内容,您可以编写一个示例 scala spark 应用程序,它只会加载需要从 Scylla 到 Elastic 进行全文搜索的所有内容(示例应用程序在互联网上或有查看有关 Scylla 迁移器的系列博客,其中解释了如何正确利用数据帧。

    Fwiw,Scylla 支持运算符 LIKE,以防简单搜索会为您削减它(假设您的分区不是很大),而不是 Elastic 使用的 lucene 查询语言和倒排索引。

    链接:

    https://docs.scylladb.com/getting-started/dml/#like-operator

    https://www.scylladb.com/2018/07/31/spark-scylla/

    https://www.scylladb.com/2019/03/12/deep-dive-into-the-scylla-spark-migrator/

    https://github.com/scylladb/scylla-code-samples/tree/master/spark3-scylla4-demo

    https://www.elastic.co/guide/en/elasticsearch/hadoop/master/spark.html

    不确定这会有多大用处:

    https://www.youtube.com/watch?v=9pfEVQ9te5E

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 2017-06-17
      • 2018-09-29
      • 1970-01-01
      • 1970-01-01
      • 2018-12-23
      • 1970-01-01
      • 2019-01-04
      相关资源
      最近更新 更多