如何在 Apache Spark 中实现递归算法？答案

【问题标题】：How to implement recursive algorithms in Apache Spark?如何在 Apache Spark 中实现递归算法？
【发布时间】：2021-09-07 06:10:17
【问题描述】：

我有一个问题，我想在 Spark 中实现递归算法，并查看是否有任何建议可以在 Spark 中构建它，或者探索其他可能更适合的数据分析框架。

例如。该作业需要递归地列出目录结构/树并处理节点，结合map/reduce模式将路径或文件组映射到派生数据，递归分组/合并这些派生数据。

我正在尝试以一种可以利用并行化整体算法的方式来做到这一点。构建在单个节点（例如 spark master）上运行的解决方案很简单，但假设目录结构非常大，有 O（十亿）个叶节点。

对于在 Spark 或其他框架/数据处理技术中构建递归/迭代类型的数据管道有什么建议吗？

【问题讨论】：

【解决方案1】：

对于 Flink，我会考虑将 Stateful Functions API 用于此类用例。

【讨论】：