【发布时间】:2021-10-09 02:49:22
【问题描述】:
在我们的用例中,我们必须从 scylladb 获取数据并放入 Elasticsearch。 如果我们一个一个地记录,那肯定需要太多时间。
我发现 scylladb 没有 binlog,对吧?
那么,你有更好的建议吗?
【问题讨论】:
标签: elasticsearch scylla
在我们的用例中,我们必须从 scylladb 获取数据并放入 Elasticsearch。 如果我们一个一个地记录,那肯定需要太多时间。
我发现 scylladb 没有 binlog,对吧?
那么,你有更好的建议吗?
【问题讨论】:
标签: elasticsearch scylla
您可能希望查看在 Scylla 中使用变更数据捕获,然后使用 CDC 表来提供将填充 Elasticsearch 的 Kafka 主题。
ScyllaDB 的 Kafka CDC 连接器基于 Debezium 构建。您可以在此处阅读更多相关信息。
【讨论】:
如果您想在使用 CDC 实时添加内容的基础上阅读所有内容,您可以编写一个示例 scala spark 应用程序,它只会加载需要从 Scylla 到 Elastic 进行全文搜索的所有内容(示例应用程序在互联网上或有查看有关 Scylla 迁移器的系列博客,其中解释了如何正确利用数据帧。
Fwiw,Scylla 支持运算符 LIKE,以防简单搜索会为您削减它(假设您的分区不是很大),而不是 Elastic 使用的 lucene 查询语言和倒排索引。
链接:
https://docs.scylladb.com/getting-started/dml/#like-operator
https://www.scylladb.com/2018/07/31/spark-scylla/
https://www.scylladb.com/2019/03/12/deep-dive-into-the-scylla-spark-migrator/
https://github.com/scylladb/scylla-code-samples/tree/master/spark3-scylla4-demo
https://www.elastic.co/guide/en/elasticsearch/hadoop/master/spark.html
不确定这会有多大用处:
【讨论】: