【发布时间】:2015-12-09 20:57:42
【问题描述】:
我正在尝试找出 Spark 中所有不确定性的来源。我知道不确定性可能来自用户提供的函数,例如在 f 涉及随机的 map(f) 中。相反,我正在寻找可能导致不确定性的操作,无论是在较低级别的转换/动作方面,例如改组。
【问题讨论】:
标签: apache-spark non-deterministic
我正在尝试找出 Spark 中所有不确定性的来源。我知道不确定性可能来自用户提供的函数,例如在 f 涉及随机的 map(f) 中。相反,我正在寻找可能导致不确定性的操作,无论是在较低级别的转换/动作方面,例如改组。
【问题讨论】:
标签: apache-spark non-deterministic
在我的头顶:
需要改组(或一般的网络流量)的操作可能会以不确定的顺序输出值。它包括像groupBy* 或join 这样的明显案例。一个不太明显的例子是排序后的关系顺序
依赖于不断变化的数据源或可变全局状态的操作
在转换内部执行的副作用,包括 accumulator 更新
【讨论】: