【发布时间】:2017-05-03 23:13:07
【问题描述】:
试图弄清楚是否可以使用 apache NiFi 或 Streamsets 实现连接。这样我就可以定期从 HBase 读取数据,加入其他表并将少量字段写入 Hive 表。
或者有没有其他支持这种操作的工作流管理工具?
【问题讨论】:
标签: hadoop hive hbase apache-nifi streamsets
试图弄清楚是否可以使用 apache NiFi 或 Streamsets 实现连接。这样我就可以定期从 HBase 读取数据,加入其他表并将少量字段写入 Hive 表。
或者有没有其他支持这种操作的工作流管理工具?
【问题讨论】:
标签: hadoop hive hbase apache-nifi streamsets
我不熟悉 Streamsets,但我会尽力帮助 NiFi。你的平面文件是静态的吗?如果是这样,您是否希望直接替换值?您应该能够为此使用ReplaceTextWithMapping 处理器。如果不是直接替换,您可以使用平面文件中的值预先填充 DistributedMapCache,然后使用 FetchDistributedMapCache 对 HBase 记录进行查找。
如果所有其他方法都失败了,那么如果您对 Groovy、Javascript 或 Jython 等脚本语言感到满意,您可以使用 ExecuteScript 或 InvokeScriptedProcessor 编写“加入”部分。
在支持 CSV 文件、属性文件和内存查找的查找/扩充处理器上有一个 open Jira case(取得了一些良好的进展)。
【讨论】: