【发布时间】:2017-10-23 23:53:20
【问题描述】:
尝试使用nvvp(或nvprof)分析我的代码时,我得到了很多分析开销:
总时间为 98 毫秒,我在第一次内核启动时获得了 85 毫秒的“仪器”。
如何减少这种分析开销或仅放大我感兴趣的部分?
背景
我在未选中“启用性能分析的情况下开始执行”的情况下运行此程序,并且我使用 cudaProfilerStart/cudaProfilerStop 限制了性能分析,如下所示:
/* --- generate data etc --- */
// Call the function once to warm up the FFT plan cache
applyConvolution( T, N, stride, plans, yData, phiW, fData, y_dwt );
gpuErrchk( cudaDeviceSynchronize() );
// Call it once for profiling
cudaProfilerStart();
applyConvolution( T, N, stride, plans, yData, phiW, fData, y_dwt );
gpuErrchk( cudaDeviceSynchronize() );
cudaProfilerStop();
applyConvolution() 是我正在分析的函数。
我在带有 GTX 1080 的 Ubuntu 16.04 上使用 CUDA Toolkit 8.0。
【问题讨论】:
标签: nvvp