spark 算子之 reduceByKey与groupByKey的区别

补充：reduceByKey与groupByKey的区别？

[优化代码的最基本思路]

（1）当采用reduceByKeyt时，Spark可以在每个分区移动数据之前将待输出数据与一个共用的key结合。

借助下图可以理解在reduceByKey里究竟发生了什么。

注意在数据对被搬移前同一机器上同样的key是怎样被组合的(reduceByKey中的lamdba函数)。

然后lamdba函数在每个区上被再次调用来将所有值reduce成一个最终结果。

整个过程如下：

spark 算子之 reduceByKey与groupByKey的区别

（2）当采用groupByKey时，由于它不接收函数，spark只能先将所有的键值对(key-value pair)都移动，

这样的后果是集群节点之间的开销很大，导致传输延时。

整个过程如下：

spark 算子之 reduceByKey与groupByKey的区别

因此，在对大数据进行复杂计算时，reduceByKey优于groupByKey。
另外，如果仅仅是group处理，那么以下函数应该优先于 groupByKey ：
　　（1）combineByKey 组合数据，但是组合之后的数据类型与输入时值的类型不一样。
　　（2）foldByKey合并每一个 key 的所有值，在级联函数和“零值”中使用。

补充：reduceByKey与groupByKey的区别？

[优化代码的最基本思路]

（1）当采用reduceByKeyt时，Spark可以在每个分区移动数据之前将待输出数据与一个共用的key结合。

借助下图可以理解在reduceByKey里究竟发生了什么。

注意在数据对被搬移前同一机器上同样的key是怎样被组合的(reduceByKey中的lamdba函数)。

然后lamdba函数在每个区上被再次调用来将所有值reduce成一个最终结果。

整个过程如下：

（2）当采用groupByKey时，由于它不接收函数，spark只能先将所有的键值对(key-value pair)都移动，

这样的后果是集群节点之间的开销很大，导致传输延时。

整个过程如下：

因此，在对大数据进行复杂计算时，reduceByKey优于groupByKey。
另外，如果仅仅是group处理，那么以下函数应该优先于 groupByKey ：
　　（1）combineByKey 组合数据，但是组合之后的数据类型与输入时值的类型不一样。
　　（2）foldByKey合并每一个 key 的所有值，在级联函数和“零值”中使用。

相关文章：

2022-12-23
2021-06-25
2021-07-13
2021-09-22
2021-11-19
2021-11-13
2018-10-06
2021-09-28

猜你喜欢

2021-09-12
2021-04-02
2021-09-10
2021-10-28
2022-03-08
2022-12-23

相关资源

下载 2021-06-30
下载 2023-03-23
下载 2023-01-30

相似解决方案

热门标签

Java Python linux javascript Mysql C# Docker 算法前端 SpringBoot Redis Vue spring 设计模式 .net core .net kubernetes c++ 数据库数据结构大数据 js 机器学习微服务 Android Go 程序员面试 JVM ASP.net core 云原生人工智能后端 PHP git CSS golang k8s Nginx Django mybatis 深度学习多线程 React 架构 devops 爬虫云计算 Spring Boot LeetCode