Spark 流式传输和模拟 hdfs

【问题标题】：Spark streaming and mocking hdfsSpark 流式传输和模拟 hdfs
【发布时间】：2019-01-20 18:35:57
【问题描述】：

需要对 Spark 流代码实施测试。此特定代码使用 this library 在单独的 jvm 中运行上述应用程序的输入是 hdfs。我已经像 example (java version) 一样启动了 MiniDFSCluster 但我认为它不会起作用，因为它们位于两个不同的 JVM 中。

如果我要成功测试 spark 流代码，模拟 hdfs 输入的最佳方法是什么。

我一般解释了上述情况。真正的要求是实现一个成功的cucumber 测试。

【问题讨论】：

【解决方案1】：

您可以在本地模式下运行 Spark 并指定诸如“file:///foo/bar”之类的路径，而不是尝试模拟 hdfs - 然后将使用本地文件系统而不是 hdfs。

【讨论】：