【发布时间】:2019-01-09 21:33:49
【问题描述】:
我正在尝试从 SFTP 服务器加载包含 225 GB(文件数 ~1,75,000)的海量数据并将数据复制到 HDFS。
为了实现上述场景,我们使用了 2 个处理器。
- GetSFTP(从 SFTP 服务器获取文件)
已配置的处理器 -> 递归搜索 = true ;使用自然排序 = true ;远程轮询批量大小 = 5000;并发任务 = 3
2.PutHDFS(将数据推送到HDFS)
已配置处理器 -> 并发任务 = 3;冲突解决策略 = 替换; Hadoop 配置资源;目录
但是一段时间后,数据复制会停止,并且它的大小在 HDFS 中没有更新。 当我在 GetSFTP 配置设置中将 Remote Poll Batch Size 设置为 5000 -> 推送到 HDFS 的总数据为 6.4 GB,设置为 20000 -> 推送到 HDFS 的总数据为 25 GB
但我似乎无法弄清楚我做错了什么。
【问题讨论】:
标签: hadoop apache-nifi hortonworks-sandbox