【发布时间】:2016-07-22 04:48:31
【问题描述】:
我使用 MPICH2。当我使用 mpiexec 启动进程时,一个进程的失败将使所有其他进程崩溃。如何避免这种情况?
【问题讨论】:
-
不要回避!这是 99.9% 的情况下所期望的行为。为什么要不然?
-
我们要实现故障恢复:一个进程崩溃我们只需要重启这个。
-
嗯,你不能,因为 MPI 不支持它。几十年来,容错一直是 MPI 社区的一个研究主题,并预计会出现在 MPI 3.0 中,但它没有。也许对于 MPI 4.0...
-
你的问题有点笼统,这里有最近努力的概述:stackoverflow.com/a/23919726/491687