Kafka 日志聚合与处理答案

【问题标题】：Kafka log aggregation and processingKafka 日志聚合与处理
【发布时间】：2021-08-05 04:13:52
【问题描述】：

您好，我正在尝试将 Kafka 用作日志聚合器和过滤层，以便它们输入到 Splunk 中，例如。

Kafka 的输入端将是 Kafka S3 连接器和其他从 S3 和 Amazon Kinesis 数据流获取日志的连接器。请参阅此图片以供参考：

但是我想知道的是在 Kafka 数据管道内部进行处理或过滤是否有必要执行 Spark 作业？或者这可以通过一个简单的 Kafka 流应用程序来完成，如果我们必须为几个不同的日志进行这种设计，那么实现这一点将是一个有效的解决方案。我正在寻找一种解决方案，我们可以在不同的日志流之间进行复制，而无需每次都进行重大更改。

谢谢

【问题讨论】：

标签： apache-spark apache-kafka apache-kafka-streams

【解决方案1】：

Spark（或 Flink）基本上可以替代 Kafka Streams 和 Kafka Connect 来转换主题和写入 S3。

如果您想直接写入 Splunk，那么有一个为此明确编写的 Kafka 连接器，您可以使用任何 Kafka 客户端在将其写入下游之前消费+生成处理过的数据

【讨论】：

谢谢，Kafka 连接器只是一个转发器，不会根据规则过滤或处理事件，对吗？
可以，但您可以选择过滤数据docs.confluent.io/platform/current/connect/transforms/…