【问题标题】:Sources of non-determinism of Apache SparkApache Spark 的非确定性来源
【发布时间】:2015-12-09 20:57:42
【问题描述】:

我正在尝试找出 Spark 中所有不确定性的来源。我知道不确定性可能来自用户提供的函数,例如在 f 涉及随机的 map(f) 中。相反,我正在寻找可能导致不确定性的操作,无论是在较低级别的转换/动作方面,例如改组。

【问题讨论】:

    标签: apache-spark non-deterministic


    【解决方案1】:

    在我的头顶:

    • 需要改组(或一般的网络流量)的操作可能会以不确定的顺序输出值。它包括像groupBy*join 这样的明显案例。一个不太明显的例子是排序后的关系顺序

    • 依赖于不断变化的数据源或可变全局状态的操作

    • 在转换内部执行的副作用,包括 accumulator 更新

    【讨论】:

    • 你能举一个转换中副作用的例子吗?
    • 与外部系统通信,写入文件,更新“全局”执行器状态。
    • 不要忘记任何获取时间戳或环境变量的操作,因为它们因节点而异
    猜你喜欢
    • 2011-04-06
    • 1970-01-01
    • 2020-09-27
    • 1970-01-01
    • 2014-03-31
    • 1970-01-01
    • 2016-09-29
    • 2016-05-14
    • 2018-10-26
    相关资源
    最近更新 更多