【问题标题】:How does Spark perform I/O?Spark 如何执行 I/O?
【发布时间】:2018-10-30 17:26:04
【问题描述】:

据我了解,Spark 使用并行 IO 读取文件。该结论来自其他堆栈溢出响应。

我的问题是使用独立方法还是集体方法来触发读取数据?换句话说,是每个工作人员读取一组数据,还是工作人员相互通信并协作以高效读取数据?

【问题讨论】:

    标签: apache-spark io parallel-io


    【解决方案1】:

    每个Apache Spark workers都有Executors,Workers可以部署为分布式或独立模式。
    每个 Worker 处理它自己处理的数据。 有关更多详细信息,请参阅此answer 或此link

    【讨论】:

    • 要安装 Spark Standalone 模式,您只需在集群的每个节点上放置一个编译版本的 Spark。我想知道您是否没有混淆?
    • @thebluephantom 它不谈论安装
    【解决方案2】:

    worker通过driver进行通信,每个worker处理自己的数据

    【讨论】:

      猜你喜欢
      • 2012-03-01
      • 2015-07-24
      • 1970-01-01
      • 2012-03-01
      • 2011-07-30
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多