【发布时间】:2013-01-17 06:33:07
【问题描述】:
最近我想将日志文件加载到hive表中,我想要一个可以从某个目录读取数据并自动将它们加载到hive中的工具。这个目录可能包含很多子目录,例如某个目录是'/log',子目录是'/log/20130115','/log/20130116','/log/201301017'。是否有一些ETL工具可以实现这样的功能:一旦新数据存储在某个目录中,该工具可以自动检测该数据并将其加载到hive表中。有没有这样的工具,是不是得自己写脚本?
【问题讨论】: