【发布时间】:2018-10-30 17:26:04
【问题描述】:
据我了解,Spark 使用并行 IO 读取文件。该结论来自其他堆栈溢出响应。
我的问题是使用独立方法还是集体方法来触发读取数据?换句话说,是每个工作人员读取一组数据,还是工作人员相互通信并协作以高效读取数据?
【问题讨论】:
标签: apache-spark io parallel-io
据我了解,Spark 使用并行 IO 读取文件。该结论来自其他堆栈溢出响应。
我的问题是使用独立方法还是集体方法来触发读取数据?换句话说,是每个工作人员读取一组数据,还是工作人员相互通信并协作以高效读取数据?
【问题讨论】:
标签: apache-spark io parallel-io
worker通过driver进行通信,每个worker处理自己的数据
【讨论】: