【发布时间】:2015-08-07 15:16:41
【问题描述】:
假设我有超过设备内存可用量的巨大矩阵(以某种方式处理,例如相乘)。是否有处理此类问题的标准方法?也许,零拷贝内存的使用隐含地提供了一种在需要时逐块复制的方法?
或者我必须通过分段加载数据来明确处理这个问题?
【问题讨论】:
-
是的,通常是这两种方法之一。如果您只打算以常规方式(例如相邻访问)接触数据一次,那么您可以进行零拷贝工作而不会造成巨大的性能损失。否则,通常的建议是将您的工作分成几部分,并开发一种流水线算法,以便您可以重叠复制和计算操作。特别是矩阵乘法可以很容易地分解成块。