PySpark 分组并逐行应用 UDF 操作

【问题标题】：PySpark Group and apply UDF row by row operationPySpark 分组并逐行应用 UDF 操作
【发布时间】：2019-08-26 22:11:31
【问题描述】：

我有一个包含“标签”和“日期”的数据集。我需要按“标签”对数据进行分组（这很容易），然后在每个组中计算它们的日期小于该特定行中的日期的行数。我基本上需要在分组数据后遍历行。我不知道如何编写一个在 PySpark 中处理该问题的 UDF。感谢您的帮助。

【问题讨论】：

最好给出样本数据集和预期结果。
你能分享示例输入和输出吗？从你的问题很难得出逻辑
最好提供一个例子。但是你不应该为此需要循环或 UDF。在 pysparks 中使用循环会破坏 pyspark 的逻辑，因为您不能在循环中分发作业。

标签： python pyspark

【解决方案1】：

你需要一个聚合？

df.groupBy("tag").agg({"date":"min"})

那怎么样？

【讨论】：

猜你喜欢

1970-01-01
1970-01-01
2018-08-17
2018-05-13
2016-08-03
2019-06-23
2021-12-13
2020-01-29
1970-01-01

相关资源

下载 2023-01-27
下载 2022-11-30
下载 2021-07-01

最近更新更多

热门标签

Java Python linux javascript Mysql C# Docker 算法前端 SpringBoot Redis Vue spring 设计模式 .net core .net kubernetes c++ 数据库数据结构大数据 js 机器学习微服务 Android Go 程序员面试 JVM ASP.net core 云原生人工智能后端 PHP git CSS golang k8s Nginx Django mybatis 深度学习多线程 React 架构 devops 爬虫云计算 Spring Boot LeetCode