【发布时间】:2017-12-04 21:53:28
【问题描述】:
我正在尝试创建以下工作流
- nginx 日志被 kafka 连接器提取并上传到主题
- 然后 hdfs 同步连接器将这些日志放入 hdfs
- 在 hdfs 数据上使用 Hive 进行分析(例如,按 IP 地址分组的访问次数等)
虽然我可以按照 hive 元存储所需的格式排列 nginx 日志(仅限空格或逗号分隔的必填字段),但我想知道这是否可以在不触及 nginx 日志格式的情况下完成
- 使用类似于org.apache.kafka.connect.json.JsonConverter的转换器
- 使用单个消息转换
这两种方法都需要自定义实现,而且很少有文档说明如何做同样的事情。
哪一种方法是实现这一目标的正确方法?是否有任何示例可用于在使用 kafka connect 将其写入主题时解析 nginx 日志输出/任何源数据。我正在使用独立的文件连接器。
【问题讨论】:
标签: nginx apache-kafka apache-kafka-connect