【问题标题】:using openACC directive inside interoperation region with CUDA在与 CUDA 的互操作区域内使用 openACC 指令
【发布时间】:2018-03-08 00:35:49
【问题描述】:

是否有任何方法可以进一步并行化以下计算区域中的循环,替换 PGI 18.1 引入的#pragma acc loop 指令

#pragma acc host_data use_device(ptr)
    {
     cufftPlanMany( &plan, rank, ss  , &inembed, istride, idist, &onembed, ostride, odist, CUFFT_Z2Z, F.length[0]);
    // this loop
    for(int i=0;i<length[2];i++)
    {
     cufftExecZ2Z( plan, (cufftDoubleComplex *)(ptr+i*length[0]*length[1]), (cufftDoubleComplex *)(ptr+i*length[0]*length[1]), CUFFT_INVERSE );
    }
     cufftDestroy(plan);
    }

许多 cuda 计划是否已经解决了这个问题?

【问题讨论】:

    标签: gpu openacc cufft


    【解决方案1】:

    我认为,假设 cufft 使用 GPU 的全部计算能力,进一步并行化这甚至可能没有意义,

    【讨论】:

      猜你喜欢
      • 2013-12-31
      • 2016-08-03
      • 1970-01-01
      • 2016-01-25
      • 1970-01-01
      • 1970-01-01
      • 2015-10-22
      • 1970-01-01
      • 2011-09-22
      相关资源
      最近更新 更多