【问题标题】:Files transfer to HDFS [closed]文件传输到 HDFS [关闭]
【发布时间】:2019-10-17 23:17:20
【问题描述】:

我需要将文件(zip、csv、xml 等)从 Windows 共享位置带到 HDFS。哪个是最好的方法?我想到了 kafka - flume - hdfs。请提出有效的方法。

我尝试将文件发送给 Kafka 消费者。

生产者.send( 新的 ProducerRecord(topicName,key,value),

期待一种有效的方法

【问题讨论】:

    标签: hadoop apache-kafka flume


    【解决方案1】:

    Kafka 并非设计用于发送文件,默认情况下仅发送最大 1MB 的单个消息。

    你可以在Hadoop中安装NFS网关,那么你应该可以直接从windows共享复制到HDFS,不需要任何流技术,只需要windows机器上的一个预定脚本,或者外部运行

    或者您可以在某个 Hadoop 节点上挂载 windows 共享,如果您需要持续的文件交付,可以安排 Cron 作业 - https://superuser.com/a/1439984/475508

    我见过的其他解决方案使用 Nifi / Streamsets 等可用于读取/移动文件的工具
    https://community.hortonworks.com/articles/26089/windows-share-nifi-hdfs-a-practical-guide.html

    【讨论】:

    • 感谢您的信息。实际上我正在拆分文件并作为字节数组发送到kafka。然后在消费者端,我将这些字节数组转换为字符串,然后写入文件。这样,我将文件从 Windows 共享传输到 kafka 消费者。现在我的任务是将这些文件传输到 HDFS。抱歉,如果我之前的问题有点令人困惑。请提出建议。
    • 只要你只有一个主题分区并且没有同时将多个文件发送到同一个主题,这可能有效,但否则你不能保证你的文件拆分回来顺序相同
    猜你喜欢
    • 2017-06-28
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2015-02-18
    • 2017-07-04
    • 1970-01-01
    • 2022-10-15
    • 1970-01-01
    相关资源
    最近更新 更多