【发布时间】:2015-11-13 22:48:31
【问题描述】:
我想将非半结构化数据(MS word/PDF/JSON)从远程计算机传输到 hadoop(可以是批量的,可以是接近实时的,但不是流式的)。
我必须确保将数据从远程位置快速移动到我的本地计算机(在低带宽上工作)到 HDFS 或本地计算机。 例如,Internet 下载管理器具有这种惊人的技术,可以与 FTP 建立多个连接,并利用低带宽和更多连接。
Hadoop生态系统是否有可能提供这样一个工具来将数据摄取到hadoop中。或者有什么自制的技术?
哪种工具/技术可以更好。
【问题讨论】: