【发布时间】:2017-03-04 23:48:09
【问题描述】:
我想知道是否有任何可靠的方法可以从物理位置创建火花流?我使用的是“textFileStream”,但似乎主要用于文件在 HDFS 中。如果您看到函数的定义,它会显示“创建一个监控 Hadoop 兼容文件系统的输入流”
【问题讨论】:
标签: hadoop apache-spark spark-streaming
我想知道是否有任何可靠的方法可以从物理位置创建火花流?我使用的是“textFileStream”,但似乎主要用于文件在 HDFS 中。如果您看到函数的定义,它会显示“创建一个监控 Hadoop 兼容文件系统的输入流”
【问题讨论】:
标签: hadoop apache-spark spark-streaming
您是否暗示 HDFS 不是物理位置?有实际存在的datanode目录...
您应该能够使用带有file:// URI 的 textFile,但您需要确保集群中的所有节点都可以从该位置读取。
来自Hadoop兼容文件系统的定义。
使用哪个文件系统的选择来自于引用它的URI方案——前缀hdfs:在任何文件路径上意味着它引用一个HDFS文件系统; file:到本地文件系统,s3:到 Amazon S3,ftp:FTP,swift:OpenStackSwift,...等等。
还有其他文件系统通过相关的 Java JAR 文件、本地二进制文件和向 Hadoop 添加新架构所需的配置参数提供与 Hadoop 的显式集成
【讨论】: