【发布时间】:2013-08-28 15:40:32
【问题描述】:
以下问题已在 nvidia 的新驱动程序版本 331.xx 中得到修复,目前作为测试版驱动程序提供。
感谢您的所有 cmets!
我有一个多平台应用程序,它在 OpenGL 纹理上执行许多片段操作和 gpgpu 内容。该应用程序大量使用 GL/CL 互操作,每个纹理都可以绑定到 OpenCL 图像并使用 CL 内核进行操作。
问题是,应用程序在 AMD 卡(Linux 和 Windows)上运行速度很快。在 NVIDIA 卡上,它在 Linux 上运行速度很快,但在 Windows 7 上运行速度很慢。问题似乎是 enqueueAcquireGLObjects 和 enqueueReleaseGLObjects。我创建了一个最小的示例,通过简单地展示了糟糕的性能:
- 创建 2 个 OpenGL 纹理(1600x1200 像素,RGBA 浮点数)
- 创建 2 个 OpenCL 图像,共享 2 个纹理
- 重复(50 次)获取、释放、完成
结果(执行获取、发布、完成的平均时间)
- AMD HD 6980,Linux:
- AMD HD 6980,Win7:
- NVIDIA GTX590,Linux:
- NVIDIA GTX590、Win7:16.0 毫秒
我尝试了几个来自 nvidia 的不同驱动程序,从旧的 295.73 到当前的 beta 驱动程序 326.80,都表现出相同的行为。
我现在的问题是,nvidia 驱动程序严重损坏还是我在这里做错了什么?该代码在 linux 上运行速度很快,因此它不会是 nvidia 对 OpenCL 支持的普遍问题。该代码在 AMD+Win 上运行速度很快,因此我的代码没有针对 Windows 进行优化不会是问题。例如,通过将 cl 图像更改为只读/只写来优化代码是没有意义的,因为性能损失几乎是 30 倍!
您可以在下面找到我的测试用例的相关代码,我也可以提供完整的源代码。
上下文创建的相关代码
{ // initialize GLEW
glewInit();
}
{ // initialize CL Context, sharing GL Contet
std::vector<cl::Platform> platforms;
cl::Platform::get(&platforms);
cl_context_properties cps[] = {
CL_GL_CONTEXT_KHR,(cl_context_properties)wglGetCurrentContext(),
CL_WGL_HDC_KHR,(cl_context_properties)wglGetCurrentDC(),
CL_CONTEXT_PLATFORM, (cl_context_properties)(platforms[0]()),
0};
std::vector<cl::Device> devices;
platforms[0].getDevices((cl_device_type)CL_DEVICE_TYPE_GPU, &devices);
context_ = new cl::Context(devices, cps, NULL, this);
queue_ = new cl::CommandQueue(*context_, devices[0]);
}
创建纹理和共享 CL 图像的相关代码
width_ = 1600;
height_ = 1200;
float *data = new float[ 1600*1200*4 ];
textures_.resize(2);
glGenTextures(2, textures_.data());
for (int i=0;i<2;i++) {
glBindTexture(GL_TEXTURE_2D, textures_[i]);
glTexParameteri(GL_TEXTURE_2D, GL_TEXTURE_MIN_FILTER, GL_LINEAR);
glTexParameteri(GL_TEXTURE_2D, GL_TEXTURE_MAG_FILTER, GL_LINEAR);
glTexParameteri(GL_TEXTURE_2D, GL_TEXTURE_WRAP_S, GL_CLAMP_TO_EDGE);
glTexParameteri(GL_TEXTURE_2D, GL_TEXTURE_WRAP_T, GL_CLAMP_TO_EDGE);
// "data" pointer holds random/uninitialized data, do not care in this example
glTexImage2D(GL_TEXTURE_2D, 0, GL_RGBA32F_ARB, width_,height_, 0, GL_RGBA, GL_FLOAT, data);
}
delete data;
{ // create shared CL Images
#ifdef CL_VERSION_1_2
clImages_.push_back(cl::ImageGL(*context_, CL_MEM_READ_WRITE, GL_TEXTURE_2D, 0, textures_[0]));
clImages_.push_back(cl::ImageGL(*context_, CL_MEM_READ_WRITE, GL_TEXTURE_2D, 0, textures_[1]));
#else
clImages_.push_back(cl::Image2DGL(*context_, CL_MEM_READ_WRITE, GL_TEXTURE_2D, 0, textures_[0]));
clImages_.push_back(cl::Image2DGL(*context_, CL_MEM_READ_WRITE, GL_TEXTURE_2D, 0, textures_[1]));
#endif
}
一个获取、发布、完成周期的相关代码
try {
queue_->enqueueAcquireGLObjects( &clImages_ );
queue_->enqueueReleaseGLObjects( &clImages_ );
queue_->finish();
} catch (cl::Error &e) {
std::cout << e.what() << std::endl;
}
【问题讨论】:
-
我可以把它归结为更多,只是 enqueueAcquireGLObjects,enqueueReleaseGLObjects 在 Win7 上会导致 16ms 的时间。相应地改变了问题
-
可能 GL 设备和 CL 设备不一样,导致复制开销?只是猜测......
-
我假设如果你使用 OpenGl,你会在屏幕上显示一些东西......对于你的测试,你是否还在显示一些东西?
-
为了测试,我根本没有渲染任何东西,GL 上下文创建和纹理分配是对 GL 的唯一调用。 GL 和 CL 设备可能不同,因为 GTX590 是双芯片卡,是的。但我尝试了从 460 到 680 的 GeForce 卡。
-
该问题已在最新的 beta 驱动程序 331.xx 中得到修复!感谢您的所有 cmets!
标签: performance opengl opencl nvidia