【发布时间】:2017-04-28 12:33:59
【问题描述】:
我正在尝试在具有无限带宽互连的以 HPC 为重点的集群中使用 Spark。此集群不支持IPoIB。我在here 看到了俄亥俄州立大学的 Spakr-RDMA 项目。我找不到其他人在做这件事,或者 apache spark 将来是否会支持 IB。问题是有没有其他解决方案可以在只有 IB 作为网络的 HPC 环境中获得更多更新版本的 spark?
【问题讨论】:
-
Spark 使用 IPoIB 缺少什么?
-
抱歉,我更新了问题。我的意思是集群不支持 ipoib。如果有 IPoIB,我根本不会有任何问题。
-
我明白了。无论如何,我不知道其他将 Spark 与 RDMA 结合使用的尝试。
-
由于 Spark 与共享内存系统对立(在其实现中),我认为将它与共享内存系统一起使用没有什么意义。另一方面,也有供应商将 Spark 推向大型机。如果您可以说服供应商,Spark 的 API 是他们 HPC 平台的卖点,那么这可能就是您的选择。我仍然认为您必须从根本上重新实现许多基础知识,同时跟上 Spark 极快的 API 开发速度——这是一个重大挑战,可能也是为什么支持这一点的尝试最终停止的原因。
标签: apache-spark hpc infiniband