【发布时间】:2019-10-17 23:17:20
【问题描述】:
我需要将文件(zip、csv、xml 等)从 Windows 共享位置带到 HDFS。哪个是最好的方法?我想到了 kafka - flume - hdfs。请提出有效的方法。
我尝试将文件发送给 Kafka 消费者。
生产者.send( 新的 ProducerRecord(topicName,key,value),
期待一种有效的方法
【问题讨论】:
标签: hadoop apache-kafka flume
我需要将文件(zip、csv、xml 等)从 Windows 共享位置带到 HDFS。哪个是最好的方法?我想到了 kafka - flume - hdfs。请提出有效的方法。
我尝试将文件发送给 Kafka 消费者。
生产者.send( 新的 ProducerRecord(topicName,key,value),
期待一种有效的方法
【问题讨论】:
标签: hadoop apache-kafka flume
Kafka 并非设计用于发送文件,默认情况下仅发送最大 1MB 的单个消息。
你可以在Hadoop中安装NFS网关,那么你应该可以直接从windows共享复制到HDFS,不需要任何流技术,只需要windows机器上的一个预定脚本,或者外部运行
或者您可以在某个 Hadoop 节点上挂载 windows 共享,如果您需要持续的文件交付,可以安排 Cron 作业 - https://superuser.com/a/1439984/475508
我见过的其他解决方案使用 Nifi / Streamsets 等可用于读取/移动文件的工具
https://community.hortonworks.com/articles/26089/windows-share-nifi-hdfs-a-practical-guide.html
【讨论】: