来自文件夹（不是 HDFS）的 Apache Spark Streaming答案

【问题标题】：Apache Spark Streaming from folder (not HDFS)来自文件夹（不是 HDFS）的 Apache Spark Streaming
【发布时间】：2017-03-04 23:48:09
【问题描述】：

我想知道是否有任何可靠的方法可以从物理位置创建火花流？我使用的是“textFileStream”，但似乎主要用于文件在 HDFS 中。如果您看到函数的定义，它会显示“创建一个监控 Hadoop 兼容文件系统的输入流”

【问题讨论】：

标签： hadoop apache-spark spark-streaming

【解决方案1】：

您是否暗示 HDFS 不是物理位置？有实际存在的datanode目录...

您应该能够使用带有file:// URI 的 textFile，但您需要确保集群中的所有节点都可以从该位置读取。

来自Hadoop兼容文件系统的定义。

使用哪个文件系统的选择来自于引用它的URI方案——前缀hdfs：在任何文件路径上意味着它引用一个HDFS文件系统； file：到本地文件系统，s3：到 Amazon S3，ftp：FTP，swift：OpenStackSwift，...等等。

还有其他文件系统通过相关的 Java JAR 文件、本地二进制文件和向 Hadoop 添加新架构所需的配置参数提供与 Hadoop 的显式集成

【讨论】：

对不起，我的意思是 UNIX/WINDOWS 文件系统的物理位置。我试图用本地内核在 Windows 中复制它，但似乎有一些问题，它只能在您更改文件然后移动时才能读取spark 作业运行时的文件。
是的，Spark 流媒体文档说“必须通过原子地将文件移动或重命名到数据目录中来在 dataDirectory 中创建文件”。意思是，不读取现有文件。无法附加到文件
@Satyabrat 这回答了你的问题吗？