【发布时间】:2015-03-29 11:01:47
【问题描述】:
在 spark-summit 2014 中,Aaron 发表了 A Deeper Understanding of Spark Internals 的演讲,在他的幻灯片中,第 17 页显示一个阶段已分为 4 个任务,如下所示:
这里我想知道关于一个阶段如何划分为任务的三件事?
在上面的这个例子中,任务的编号似乎是根据文件编号创建的,对吗?
如果我在第 1 点是正确的,那么如果目录名称下只有 3 个文件,它会创建 3 个任务吗?
如果我在第 2 点是正确的,如果只有一个但非常大的文件怎么办?它只是将这个阶段分成1个任务吗?如果数据来自流式数据源怎么办?
非常感谢,我对如何将阶段划分为任务感到困惑。
【问题讨论】:
标签: apache-spark bigdata