【发布时间】:2015-05-01 12:12:46
【问题描述】:
我有以下几点: 来源 - kafka 主题(反式) 通道 - 内存 接收器 - Hdfs (avro_event)
kafka 主题 trans 中的数据是使用 c# producer 编写的,有数千条 avro 记录。当我运行我的水槽消费者时,它开始将数据下沉到 hdfs。问题是数据的格式是:模式 数据 图式 数据
代替:
架构 数据 数据
我猜这是因为 Flume 期望使用 {header} {body} 的记录类型,而来自 kafka 的数据将只是 {body} 我知道有一种方法可以将写入主题的 avro 数据包装在 avroFlumeEvent 中,但是它似乎不再是真正的 avro 记录,也许火花消费者或风暴会更喜欢真正的 avro 中的数据.有没有办法处理这个主题,所以每次flume将数据滚动到hdfs时,数据都是在没有多个模式的情况下写入的?
【问题讨论】:
标签: hadoop hadoop-streaming apache-kafka flume avro