Apache Spark 的非确定性来源

【问题标题】：Sources of non-determinism of Apache SparkApache Spark 的非确定性来源
【发布时间】：2015-12-09 20:57:42
【问题描述】：

我正在尝试找出 Spark 中所有不确定性的来源。我知道不确定性可能来自用户提供的函数，例如在 f 涉及随机的 map(f) 中。相反，我正在寻找可能导致不确定性的操作，无论是在较低级别的转换/动作方面，例如改组。

【问题讨论】：

标签： apache-spark non-deterministic

【解决方案1】：

在我的头顶：

需要改组（或一般的网络流量）的操作可能会以不确定的顺序输出值。它包括像groupBy* 或join 这样的明显案例。一个不太明显的例子是排序后的关系顺序
依赖于不断变化的数据源或可变全局状态的操作
在转换内部执行的副作用，包括 accumulator 更新

【讨论】：

你能举一个转换中副作用的例子吗？
与外部系统通信，写入文件，更新“全局”执行器状态。
不要忘记任何获取时间戳或环境变量的操作，因为它们因节点而异

猜你喜欢

2011-04-06
1970-01-01
2020-09-27
1970-01-01
2014-03-31
1970-01-01
2016-09-29
2016-05-14
2018-10-26

相关资源

下载 2023-02-25
下载 2022-12-23
下载 2023-01-14
下载 2021-07-01

最近更新更多

热门标签

Java Python linux javascript Mysql C# Docker 算法前端 SpringBoot Redis Vue spring 设计模式 .net core .net kubernetes c++ 数据库数据结构大数据 js 机器学习微服务 Android Go 程序员面试 JVM ASP.net core 云原生人工智能后端 PHP git CSS golang k8s Nginx Django mybatis 深度学习多线程 React 架构 devops 爬虫云计算 Spring Boot LeetCode