如何从 Scylladb 批量获取数据？答案

【问题标题】：how to bulk fetch data from Scylladb?如何从 Scylladb 批量获取数据？
【发布时间】：2021-10-09 02:49:22
【问题描述】：

在我们的用例中，我们必须从 scylladb 获取数据并放入 Elasticsearch。如果我们一个一个地记录，那肯定需要太多时间。

我发现 scylladb 没有 binlog，对吧？

那么，你有更好的建议吗？

【问题讨论】：

【解决方案1】：

您可能希望查看在 Scylla 中使用变更数据捕获，然后使用 CDC 表来提供将填充 Elasticsearch 的 Kafka 主题。

ScyllaDB 的 Kafka CDC 连接器基于 Debezium 构建。您可以在此处阅读更多相关信息。

【讨论】：

【解决方案2】：

如果您想在使用 CDC 实时添加内容的基础上阅读所有内容，您可以编写一个示例 scala spark 应用程序，它只会加载需要从 Scylla 到 Elastic 进行全文搜索的所有内容（示例应用程序在互联网上或有查看有关 Scylla 迁移器的系列博客，其中解释了如何正确利用数据帧。

Fwiw，Scylla 支持运算符 LIKE，以防简单搜索会为您削减它（假设您的分区不是很大），而不是 Elastic 使用的 lucene 查询语言和倒排索引。

链接：

不确定这会有多大用处：

【讨论】：