【问题标题】:Apache Spark Streaming from folder (not HDFS)来自文件夹(不是 HDFS)的 Apache Spark Streaming
【发布时间】:2017-03-04 23:48:09
【问题描述】:

我想知道是否有任何可靠的方法可以从物理位置创建火花流?我使用的是“textFileStream”,但似乎主要用于文件在 HDFS 中。如果您看到函数的定义,它会显示“创建一个监控 Hadoop 兼容文件系统的输入流”

【问题讨论】:

    标签: hadoop apache-spark spark-streaming


    【解决方案1】:

    您是否暗示 HDFS 不是物理位置?有实际存在的datanode目录...

    您应该能够使用带有file:// URI 的 textFile,但您需要确保集群中的所有节点都可以从该位置读取。

    来自Hadoop兼容文件系统的定义。

    使用哪个文件系统的选择来自于引用它的URI方案——前缀hdfs:在任何文件路径上意味着它引用一个HDFS文件系统; file:到本地文件系统,s3:到 Amazon S3,ftp:FTP,swift:OpenStackSwift,...等等。

    还有其他文件系统通过相关的 Java JAR 文件、本地二进制文件和向 Hadoop 添加新架构所需的配置参数提供与 Hadoop 的显式集成

    【讨论】:

    • 对不起,我的意思是 UNIX/WINDOWS 文件系统的物理位置。我试图用本地内核在 Windows 中复制它,但似乎有一些问题,它只能在您更改文件然后移动时才能读取spark 作业运行时的文件。
    • 是的,Spark 流媒体文档说“必须通过原子地将文件移动或重命名到数据目录中来在 dataDirectory 中创建文件”。意思是,不读取现有文件。无法附加到文件
    • @Satyabrat 这回答了你的问题吗?
    猜你喜欢
    • 2016-06-23
    • 2018-12-15
    • 2015-12-18
    • 2018-11-15
    • 2017-07-10
    • 1970-01-01
    • 2016-11-03
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多