确定块矩阵乘法的最佳块大小答案

【问题标题】：Determining optimal block size for blocked matrix multiplication确定块矩阵乘法的最佳块大小
【发布时间】：2021-04-11 22:34:06
【问题描述】：

我正在尝试在单个处理器上实现阻塞（平铺）矩阵乘法。我已经阅读了有关为什么阻塞可以提高内存性能的文献，但我只是想问一下如何确定最佳块大小。我需要执行 C+A*B，其中 A、B、C 是相同维度的浮点方阵。 3 块应该一次适合缓存是有道理的，那么块大小应该是缓存大小除以 3 吗？或者块大小应该是别的吗？

最后，谁能提出一种可行的实验方法来确定我正在使用的超级计算机上的最佳块大小？我正在使用 GCC C。

【问题讨论】：

出于好奇，您的应用程序域是什么？武器？医疗应用？ COVID大流行模拟？生物信息学？飞机模拟的有限元素？
不知道应用域是什么
我改进了我的评论
@BasileStarynkevitch 数值线性代数
为什么要重新发明轮子？矩阵乘法的实现已经够多了……

标签： c memory-management matrix-multiplication cpu-cache cache-locality

【解决方案1】：

我正在尝试在单个处理器上实现阻塞（平铺）矩阵乘法。

请注意，2021 年大多数处理器是multi-core。您可能对POSIX pthreads 感兴趣。见pthreads(7)。

我需要执行 C+A*B，其中 A、B、C 是相同维度的浮点方阵。 3 个块应该同时放入缓存是有道理的，那么块大小应该是缓存大小除以 3 吗？

我不是专家，但我认为事情没有那么简单。 CPU cache 的大小通常是 2 的幂，并且您有多个缓存级别。

阅读BLAS 并考虑使用它。

最后，谁能提出一种可行的实验方法来确定我正在使用的超级计算机上的最佳块大小？

我假设超级计算机运行 Linux，如果编译为 plugin，您可以使用一些 GCC 在其上编译 C 代码并执行它和 dlopen(3) 它。阅读 Drepper 的论文How to write shared libraries 了解详情。

然后，在阅读time(7) 之后，您可以编写一些 C 程序（受我的 manydl.c 启发）生成各种不同的临时 C 文件，使用不同的块大小定义 C 函数，编译使用system(3)- 一些带有gcc -O3 -Wall -shared -fPIC /tmp/generated1234.c -o /tmp/generated1234.so、dlopen(3) 和"/tmp/generated1234.so"、dlsym(3) 这些C 函数的/tmp/generated1234.c 文件，通过指针调用它们，并测量每个此类插件的CPU 时间。

我需要执行 C+A*B，其中 A、B、C 是相同维度的浮点方阵。

另外，一些超级计算机有OpenCL（或CUDA）实现。您可以学习 OpenCL（或 CUDA）并在 OpenCL（或 CUDA）中编写一些关键的数值内核例程，或者像生成 C 代码一样生成 OpenCL（或 CUDA）代码。

当然你想要一个最近的 GCC，例如GCC 10 2021 年春季。您可能想了解所有可能的 optimization flags，包括 OpenACC 和 OpenMP

我什至猜你可能会使用machine learning 技术来找到最佳块大小......

另请阅读Open-MPI

注意/proc/cpuinfo 记录在proc(5)

您还可以联系您所在国家和其他地方的其他超级计算机用户。 Weather forecasting 组织（在法国，MeteoFrance）或在各个行业（汽车、国防、航空航天等）从事 CAD 的工程师会浮现在脑海中。或CERN（甚至我的雇主CEA）或来自ITER（在欧洲）或LLNL（在美国）的人

【讨论】：

感谢您的详细解答。您如何看待以某种方式测量 L1 缓存大小并将块大小除以 3？
我不知道您是否可以测量 L1 缓存大小（通过解析 /proc/cpuinfo 除外），我不知道它在您的应用程序中的重要性（wrt L2 或 L3 缓存）跨度>