【问题标题】:Understanding Theano Example in terms of GPU cores/threads从 GPU 内核/线程的角度理解 Theano 示例
【发布时间】:2016-01-04 05:34:03
【问题描述】:

我刚刚开始使用 Theano 和深度学习。我正在尝试 Theano 教程 (http://deeplearning.net/software/theano/tutorial/using_gpu.html#returning-a-handle-to-device-allocated-data) 中的一个示例。示例代码如下所示:

from theano import function, config, shared, sandbox
import theano.tensor as T
import numpy
import time

vlen = 10 * 30 * 768  # 10 x #cores x # threads per core
iters = 1000

rng = numpy.random.RandomState(22)
x = shared(numpy.asarray(rng.rand(vlen), config.floatX))
f = function([], T.exp(x))
print(f.maker.fgraph.toposort())
t0 = time.time()
for i in xrange(iters):
    r = f()
t1 = time.time()
print("Looping %d times took %f seconds" % (iters, t1 - t0))
print("Result is %s" % (r,))
if numpy.any([isinstance(x.op, T.Elemwise) for x in f.maker.fgraph.toposort()]):
    print('Used the cpu')
else:
    print('Used the gpu')

我正在尝试理解定义“vlen”的表达式,

vlen = 10 * 30 * 768  # 10 x #cores x # threads per core

我在文本中找不到任何地方提到此示例中指定的 GPU 内核数量以及为什么选择 30。我也找不到为什么使用 768 个线程的值。我的 GPU (GeForce 840M) 有 384 个内核。我可以假设如果我用 384 代替 30 的值,我将使用所有 384 个内核吗? 768线程的值也应该保持固定吗?

【问题讨论】:

  • 我很确定评论的目的是建议要创建的问题大小 (vlen) 是/应该大到足以在 GPU 上“有趣”。 CUDA 代码,包括使用 CUDA 的 theano 基础,通常不指定内核数或每个内核的线程数(我在这里只能假设“core”=“SM”,这不是通常的定义,而是唯一有意义的)。毕竟vlen这里最终只是一个数字,一个数组的长度。如果您按原样运行代码,它将使用您所有的 GPU 内核。 (10,30,768) 中没有任何魔法。
  • 这就是为什么我很难定义“vlen”。似乎没有任何理由来表达为什么。这实际上似乎具有误导性。
  • 是的,这很令人沮丧,因为它是教程的一部分。

标签: python machine-learning gpgpu theano theano-cuda


【解决方案1】:

我相信逻辑如下。查看the referenced page,我们看到提到了 GTX 275 GPU。因此,用于该教程的 GPU 可能是 cc1.x 一代的非常旧的 CUDA GPU(CUDA 7.0 和 7.5 不再支持)。在评论中,开发者似乎在使用“核心”这个词来指代 GPU SM(多处理器)。

该系列中有许多 GPU 具有 30 个 SM(cc1.x SM 与 cc 2+ SM 是一种非常不同的动物),包括 GTX 275(240 CUDA 内核 = 30SM * 8cores/SM) cc1.x 一代)。所以30这个数字是从当时正在使用的GPU中的SM数量推导出来的。

此外,如果您查看支持此类 GPU 的 CUDA 版本的 old documentation,您会发现 cc1.0 和 cc1.1 GPU 最多支持每个多处理器 (SM) 768 个线程。所以我相信这就是 768 号码的来源。

最后,一个好的 CUDA 代码会超额订阅 GPU(线程总数超过 GPU 可以瞬间处理的数量)。所以我认为 10 的因素只是为了确保“超额认购”。

一个特定的数字没有什么魔力——它只是一个数组的长度 (vlen)。这个数组的长度,在流经 theano 框架后,将最终决定 CUDA 内核启动的线程数。这段代码并不是真正的基准或其他性能指标。它声明的目的只是为了证明 GPU 正在被使用。

所以我不会过多解读这个数字。这是开发人员的随意选择,遵循了与手头 GPU 相关的一定数量的逻辑。

【讨论】:

  • 感谢您的详尽解释。
猜你喜欢
  • 1970-01-01
  • 2016-10-21
  • 2016-01-12
  • 1970-01-01
  • 2011-08-02
  • 2019-08-01
  • 1970-01-01
  • 2023-04-11
  • 1970-01-01
相关资源
最近更新 更多