【发布时间】:2018-03-08 00:35:49
【问题描述】:
是否有任何方法可以进一步并行化以下计算区域中的循环,替换 PGI 18.1 引入的#pragma acc loop 指令
#pragma acc host_data use_device(ptr)
{
cufftPlanMany( &plan, rank, ss , &inembed, istride, idist, &onembed, ostride, odist, CUFFT_Z2Z, F.length[0]);
// this loop
for(int i=0;i<length[2];i++)
{
cufftExecZ2Z( plan, (cufftDoubleComplex *)(ptr+i*length[0]*length[1]), (cufftDoubleComplex *)(ptr+i*length[0]*length[1]), CUFFT_INVERSE );
}
cufftDestroy(plan);
}
许多 cuda 计划是否已经解决了这个问题?
【问题讨论】: