【问题标题】:Spark streaming and mocking hdfsSpark 流式传输和模拟 hdfs
【发布时间】:2019-01-20 18:35:57
【问题描述】:

需要对 Spark 流代码实施测试。此特定代码使用 this library 在单独的 jvm 中运行 上述应用程序的输入是 hdfs。我已经像 example (java version) 一样启动了 MiniDFSCluster 但我认为它不会起作用,因为它们位于两个不同的 JVM 中。

如果我要成功测试 spark 流代码,模拟 hdfs 输入的最佳方法是什么。

我一般解释了上述情况。真正的要求是实现一个成功的cucumber 测试。

【问题讨论】:

    标签: java apache-spark hadoop cucumber hdfs


    【解决方案1】:

    您可以在本地模式下运行 Spark 并指定诸如“file:///foo/bar”之类的路径,而不是尝试模拟 hdfs - 然后将使用本地文件系统而不是 hdfs。

    【讨论】:

    • 我已经尝试过一些命令,如 org.apache.hadoop.fs.FileSystem delete() 不起作用:(
    • 值得坚持,因为它应该可以工作 - 至少它对我有用,包括删除。
    • 根据我的笔记,使用带有 URI 的 FileSystem.newInstance 可以删除工作。
    • 没有删除 URI :(
    • 文件系统 fs = FileSystem.newInstance(uri, config); ... fs.delete(path, true);
    猜你喜欢
    • 2015-06-16
    • 2018-12-15
    • 2018-05-27
    • 2015-12-12
    • 2019-03-23
    • 2020-07-17
    • 2016-04-27
    • 2016-08-25
    • 2016-09-21
    相关资源
    最近更新 更多