【发布时间】:2014-02-14 10:08:47
【问题描述】:
是否可以将hadoop dfs -getmerge 命令的输出存储到另一台机器上?
原因是我的本地机器没有足够的空间。作业输出为 100GB,我的本地存储为 60GB。
另一个可能的原因可能是我想在另一个程序中本地处理输出,在另一台机器上,我不想传输两次(HDFS-> 本地 FS-> 远程机器)。我只想要(HDFS -> 远程机器)。
我正在寻找类似于 scp 工作方式的东西,例如:
hadoop dfs -getmerge /user/hduser/Job-output user@someIP:/home/user/
或者,我还想将 HDFS 数据从远程主机获取到我的本地计算机。
在这种情况下可以使用 unix 管道吗?
对于不熟悉hadoop的人,我只是想找一种方法,用远程机器上的目录替换这个命令中的本地dir参数(/user/hduser/Job-output)。
【问题讨论】:
标签: hadoop storage pipe hdfs remote-access