【发布时间】:2015-07-13 17:20:02
【问题描述】:
我们摄取的数据可以使用 Flume 进行排序吗?
我设计了一个简单的多通道水槽代理,它将数据摄取到 HDFS 中的两个目录中。但我不知道的是,flume 是否支持这两个通道之间的排序。
到目前为止,我假设要摆脱这个问题的是,我的源将是一个假脱机目录。每当我输入行(每行包含一个唯一的关键字)时,该行都必须转到某个频道。
有什么想法吗?
【问题讨论】:
我们摄取的数据可以使用 Flume 进行排序吗?
我设计了一个简单的多通道水槽代理,它将数据摄取到 HDFS 中的两个目录中。但我不知道的是,flume 是否支持这两个通道之间的排序。
到目前为止,我假设要摆脱这个问题的是,我的源将是一个假脱机目录。每当我输入行(每行包含一个唯一的关键字)时,该行都必须转到某个频道。
有什么想法吗?
【问题讨论】:
排序:没有。但我不认为这就是你的意思。
考虑使用拦截器和fan-out flow 来实现您想要的。
【讨论】: