【发布时间】:2017-10-08 06:57:55
【问题描述】:
我看到 Kafka Connect 可以以 Avro 或 JSON 格式写入 S3。但是没有 Parquet 支持。这有多难添加?
【问题讨论】:
-
Parquet 支持现在作为 Kafka Connect S3 接收器 5.4 版本的一部分提供
标签: apache-kafka parquet apache-kafka-connect
我看到 Kafka Connect 可以以 Avro 或 JSON 格式写入 S3。但是没有 Parquet 支持。这有多难添加?
【问题讨论】:
标签: apache-kafka parquet apache-kafka-connect
Qubole 连接器支持写出 parquet - https://github.com/qubole/streamx
【讨论】:
试试secor:
https://github.com/pinterest/secor
可与 AWS S3、谷歌云、Azure 的 blob 存储等配合使用。
请注意,您选择的解决方案必须具有以下关键功能: 保证每条消息只写一次,负载分配、容错、监控、数据分区等。
Secor 拥有一切,如上所述,可以轻松地与其他“s3”风格的服务一起使用..
【讨论】:
从 Confluent 5.4.0 开始,官方支持 Parquet 输出到 S3。
【讨论】: