【发布时间】:2020-05-20 18:00:21
【问题描述】:
我正在阅读Spark: the definitive guide,但有些东西让我感到困惑。函数coalesce 在完全不同的上下文中被多次定义。我想知道这是否是同一个功能,我只是没有看到链接,或者这是否只是一个不幸的命名问题。
在第 80 页的“重新分区和合并”一章下,它说:
Coalesce[...] 不会导致完全洗牌,而是会尝试合并分区。
据我了解,此函数将合并分区,直到它具有coalesce 函数的参数所指示的所需分区数。
在第 103 页的“合并”一章下,它说:
Spark 包含一个函数,允许您使用
coalesce函数从一组列中选择第一个非空值。
据我了解,此函数将采用一组列,并从第一列中获取所有非空值。然后对于空值,它会查看第二列,并在那里获取所有非空值,依此类推。
我的问题
- 我对这些函数的理解正确吗?
- 这些函数有什么关系?有没有我看不到的链接?
- 如果不是,为什么他们会有相同的名字? (这让我很困惑。)
【问题讨论】:
标签: python apache-spark pyspark