【问题标题】:MPI deadlock with collective functions具有集体功能的 MPI 死锁
【发布时间】:2023-03-29 02:45:01
【问题描述】:

我正在用 MPI 库用 C++ 编写程序。发生死锁只有一个节点有效!我没有使用发送或接收集合操作,而只使用了两个集合函数(MPI_AllreduceMPI_Bcast)。 如果有节点等待其他节点发送或接收,我实际上不明白是什么导致了这个死锁。

void ParaStochSimulator::first_reacsimulator() {
    SimulateSingleRun();
}

double ParaStochSimulator::deterMinTau() {
    //calcualte minimum tau for this process
    l_nLocalMinTau = calc_tau(); //min tau for each node
    MPI_Allreduce(&l_nLocalMinTau, &l_nGlobalMinTau, 1, MPI_DOUBLE, MPI_MIN, MPI_COMM_WORLD);    
    //min tau for all nodes
    //check if I have the min value
    if (l_nLocalMinTau <= l_nGlobalMinTau && m_nCurrentTime < m_nOutputEndPoint) {
        FireTransition(m_nMinTransPos);
        CalculateAllHazardValues(); 
    }
    return l_nGlobalMinTau;
}

void ParaStochSimulator::SimulateSingleRun() {
    //prepare a run
    PrepareRun();
    while ((m_nCurrentTime < m_nOutputEndPoint) && IsSimulationRunning()) {
        deterMinTau();
        if (mnprocess_id == 0) { //master
            SimulateSingleStep();
            std::cout << "current time:*****" << m_nCurrentTime << std::endl;
            broad_casting(m_nMinTransPos);
            MPI_Bcast(&l_anMarking, l_nMinplacesPos.size(), MPI_DOUBLE, 0, MPI_COMM_WORLD);
            //std::cout << "size of mani place :" << l_nMinplacesPos.size() << std::endl;
        }
    }
    MPI_Bcast(&l_anMarking, l_nMinplacesPos.size(), MPI_DOUBLE, 0, MPI_COMM_WORLD);
    PostProcessRun();
}

【问题讨论】:

    标签: c++ mpi


    【解决方案1】:

    当您的“主”进程正在执行 A MPI_Bcast 时,所有其他进程仍在运行您的循环,然后进入deterMinTau,然后执行 MPI_Allreduce。

    这是一个死锁,因为您的主节点正在等待所有节点执行 Brodcast,而所有其他节点都在等待主节点执行 Reduce。

    我相信您正在寻找的是:

    void ParaStochSimulator::SimulateSingleRun() {
        //prepare a run
        PrepareRun();
        while ((m_nCurrentTime < m_nOutputEndPoint) && IsSimulationRunning()) {
            //All the nodes reduce tau at the same time
            deterMinTau();
            if (mnprocess_id == 0) { //master
                SimulateSingleStep();
                std::cout << "current time:*****" << m_nCurrentTime << std::endl;
                broad_casting(m_nMinTransPos);
                //Removed bordcast for master here
            }
            //All the nodes broadcast at every loop iteration
            MPI_Bcast(&l_anMarking, l_nMinplacesPos.size(), MPI_DOUBLE, 0, MPI_COMM_WORLD);
        }
        PostProcessRun();
    }
    

    【讨论】:

    • 感谢您的帮助,但不幸的是我从主人那里删除了广播,仍然存在死锁-_-
    猜你喜欢
    • 2013-12-25
    • 1970-01-01
    • 1970-01-01
    • 2019-05-29
    • 2017-03-04
    • 2016-10-03
    • 2014-04-04
    • 2016-06-15
    • 2015-11-10
    相关资源
    最近更新 更多