【发布时间】:2011-03-22 00:20:05
【问题描述】:
我正在尝试在 32 节点集群上运行 NAS-UPC 基准测试。
在问题规模较小的情况下它工作得很好。当我毕业到更大的问题规模(CLASS D)时,我得到了这个错误(对于 MG 基准)
*** Caught a fatal signal: SIGBUS(7) on node 2/32
p4_error: latest msg from perror: Bad file descriptor
*** Caught a signal: SIGPIPE(13) on node 0/32
p4_error: latest msg from perror: Bad file descriptor
p4_error: latest msg from perror: Bad file descriptor
*** FATAL ERROR: recursion failure in AMMPI_SPMDExit
*** Caught a signal: SIGPIPE(13) on node 27/32
*** Caught a signal: SIGPIPE(13) on node 20/32
*** Caught a signal: SIGPIPE(13) on node 21/32
p4_error: latest msg from perror: Bad file descriptor
*** FATAL ERROR: recursion failure in AMMPI_SPMDExit
*** FATAL ERROR: recursion failure in AMMPI_SPMDExit
*** FATAL ERROR: recursion failure in AMMPI_SPMDExit
*** Caught a signal: SIGPIPE(13) on node 16/32
*** FATAL ERROR: recursion failure in AMMPI_SPMDExit
任何人都可以解释为什么会发生这种情况,如果有人以前看到过这个错误并修复它?
编辑:发现这是一个与内存相关的问题。但我无法在编译时为应用程序分配适量的内存
【问题讨论】: