消息传递系统中的屏障是如何实现的？答案

【问题标题】：How is barrier implemented in message passing systems?消息传递系统中的屏障是如何实现的？
【发布时间】：2014-03-04 18:52:45
【问题描述】：

我的理解是，一个主进程向所有其他进程发送消息。作为回报，所有其他进程都会向主进程发送消息。这足以成为工作障碍吗？如果没有，那还需要什么？

【问题讨论】：

“这足以构成工作障碍吗？” ——有用吗？你有没有尝试过？您面临哪些问题？ “如果不是，那还需要什么？” -- 你告诉我们。
对于收到的每个完成消息（客户端发送，然后阻塞），主节点运行类似：if(++atomic_variable >= n) release();

标签： c++ c mpi message-passing barrier

【解决方案1】：

让我们看看OpenMPI's implementation of barrier。虽然其他实现可能略有不同，但一般的通信模式应该是相同的。

首先要注意的是，MPI 的屏障没有设置成本：到达MPI_Barrier 调用的进程将阻塞，直到该组的所有其他成员也调用了MPI_Barrier。请注意，MPI 不需要他们到达相同的调用，只要调用MPI_Barrier。因此，由于组中的节点总数对于每个进程都是已知的，因此不需要为初始化调用分配额外的状态。

现在，让我们看一些代码：

/*
 * Copyright (c) 2004-2005 The Trustees of Indiana University and Indiana
 *                         University Research and Technology
 *                         Corporation.  All rights reserved.
 * Copyright (c) 2004-2005 The University of Tennessee and The University
 *                         of Tennessee Research Foundation.  All rights
 *                         reserved.
 * Copyright (c) 2004-2005 High Performance Computing Center Stuttgart, 
 *                         University of Stuttgart.  All rights reserved.
 * Copyright (c) 2004-2005 The Regents of the University of California.
 *                         All rights reserved.
 * Copyright (c) 2012      Oak Ridge National Labs.  All rights reserved.
 * [...]
 */

[...]

/*
 *  barrier_intra_lin
 *
 *  Function:   - barrier using O(N) algorithm
 *  Accepts:    - same as MPI_Barrier()
 *  Returns:    - MPI_SUCCESS or error code
 */
int
mca_coll_basic_barrier_intra_lin(struct ompi_communicator_t *comm,
                                 mca_coll_base_module_t *module)
{
    int i;
    int err;
    int size = ompi_comm_size(comm);
    int rank = ompi_comm_rank(comm);

首先所有节点（除了等级为 0 的根节点）向根节点发送到达屏障的通知：

    /* All non-root send & receive zero-length message. */

    if (rank > 0) {
        err =
            MCA_PML_CALL(send
                         (NULL, 0, MPI_BYTE, 0, MCA_COLL_BASE_TAG_BARRIER,
                          MCA_PML_BASE_SEND_STANDARD, comm));
        if (MPI_SUCCESS != err) {
            return err;
        }

之后他们阻止等待来自根的通知：

        err =
            MCA_PML_CALL(recv
                         (NULL, 0, MPI_BYTE, 0, MCA_COLL_BASE_TAG_BARRIER,
                          comm, MPI_STATUS_IGNORE));
        if (MPI_SUCCESS != err) {
            return err;
        }
    }

根节点实现通信的另一端。首先它阻塞直到它收到n-1 通知（来自组中每个节点的通知，除了他自己，因为他已经在屏障调用中）：

else {
        for (i = 1; i < size; ++i) {
            err = MCA_PML_CALL(recv(NULL, 0, MPI_BYTE, MPI_ANY_SOURCE,
                                    MCA_COLL_BASE_TAG_BARRIER,
                                    comm, MPI_STATUS_IGNORE));
            if (MPI_SUCCESS != err) {
                return err;
            }
        }

一旦所有通知到达，它就会发出每个节点正在等待的消息，表示每个人都已到达屏障，之后它会自行离开屏障调用：

        for (i = 1; i < size; ++i) {
            err =
                MCA_PML_CALL(send
                             (NULL, 0, MPI_BYTE, i,
                              MCA_COLL_BASE_TAG_BARRIER,
                              MCA_PML_BASE_SEND_STANDARD, comm));
            if (MPI_SUCCESS != err) {
                return err;
            }
        }
    }

    /* All done */

    return MPI_SUCCESS;
}

所以通信模式首先是从所有节点到根的n:1，然后从根返回到所有节点的1:n。为了避免根节点的请求超载，OpenMPI 允许使用基于树的通信模式，但基本思想是相同的：所有节点在进入屏障时通知根节点，而根节点聚合结果并在到达时通知每个人准备好继续。

【讨论】：

【解决方案2】：

不，这还不够。一旦主进程向所有其他进程发送消息通知它们已到达屏障，并且所有其他进程都响应说它们也已到达屏障，则只有主进程知道所有进程都已到达屏障。在这种情况下，需要从 master 向其他进程发送另一条消息。

我没有声明 MPI 屏障在任何库中的实际实现，特别是我并不是建议在实践中使用概述的消息序列，只是在理论上存在缺陷。

【讨论】：

看到master先接收再发送。我在第一次阅读时也忽略了条件（排名> 0）。