C++ STL (ExecutionPolicy) 算法如何确定使用多少并行线程？答案

【问题标题】：How do the C++ STL (ExecutionPolicy) algorithms determine how many parallel threads to use?C++ STL (ExecutionPolicy) 算法如何确定使用多少并行线程？
【发布时间】：2018-04-12 05:08:52
【问题描述】：

C++17 通过使用可选的 ExecutionPolicy 参数（作为第一个参数）升级了 69 个 STL 算法以支持并行性。例如。

std::sort(std::execution::par, begin(v), end(v));

我怀疑 C++17 标准故意没有说明如何实现多线程算法，让库作者决定什么是最好的（并允许他们更改自己的头脑，稍后）。尽管如此，我还是很想从高层次上了解在并行 STL 算法的实现中正在考虑哪些问题。

我想到的一些问题包括（但不限于！）：

（C++ 应用程序）使用的最大线程数与机器上的 CPU 和/或 GPU 内核数有什么关系？
每种算法使用的线程数有什么不同？（每种算法在每种情况下都会使用相同数量的线程吗？）
是否考虑过其他线程上的其他并行 STL 调用（在同一个应用程序中）？（例如，如果一个线程调用 std::for_each(par,...)，它会根据 std::sort(par, ...) 是否已经在其他线程上运行而使用更多/更少/相同的线程(s)？也许有线程池？）
是否考虑过外部因素导致内核的繁忙程度？（例如，如果 1 个内核非常忙，比如分析 SETI 信号，C++ 应用程序会减少它使用的线程数吗？）
某些算法是否只使用 CPU 内核？还是只有 GPU 内核？
我怀疑实现会因库而异（编译器到编译器？），甚至有关这方面的细节也会很有趣。

我意识到这些并行算法的目的是让程序员不必担心这些细节。但是，任何可以让我对图书馆调用内部发生的事情有一个高层次的心理了解的信息都将不胜感激。

【问题讨论】：

尽管您的问题很有趣，但它可能过于宽泛。回答您的问题的最佳方法是查看 libstdc++ 和 libc++ 的实现。
一个简单的实现使用一个线程池，每个 CPU 核心有一个线程和一个任务队列，按需将任务提供给线程。

标签： c++ multithreading concurrency parallel-processing stl

【解决方案1】：

截至目前，这些问题中的大部分问题都无法用标准来回答。但是，据我了解，您的问题混合了两个概念：

C1。并行算法的约束

C2。算法的执行

C++17 并行 STL 的所有内容都与 C1 有关：它对指令和/或线程可以在并行计算中交错/转换的方式设置了限制。另一方面，C2 是关于标准化的，关键字是executor（稍后会详细介绍）。

对于 C1，有 3 个标准策略（std::execution::seq、par 和 par_unseq）对应于任务和指令并行性的每个组合。例如，在执行整数累加时，可以使用par_unseq，因为顺序并不重要。但是，对于浮点运算，加法不是关联的，更适合 seq 至少得到确定性结果。简而言之：策略对并行计算设置约束，而这些约束可能会被智能编译器利用。

另一方面，一旦您有了并行算法及其约束（并且可能经过一些优化/转换），executor 将找到执行它的方法。有默认的执行器（例如 CPU），或者您可以创建自己的执行器，然后，可以设置有关线程数、工作负载、处理单元等的所有配置。

截至今天，C1 在标准中，但不在 C2 中，因此如果您将 C1 与兼容的编译器一起使用，您将无法指定您想要的执行配置文件和库实现将为您决定（可能通过扩展）。

所以，为了解决您的问题：

（关于您的前 5 个问题）根据定义，C++17 并行 STL 库不定义任何计算，仅定义数据依赖关系，以便允许可能的数据流转换。所有这些问题都将（希望）由executor 回答，您可以查看当前提案here。它看起来像：

executor = get_executor();
sort( std::execution::par.on(executor), vec.begin(), vec.end());

您的一些问题已在该提案中定义。

（第 6 次）有许多库已经实现了类似的概念（C++ executor 确实受到其中一些的启发），AFAIK：hpx、Thrust 或 Boost.Compute。我不知道最后两个是如何实际实现的，但是对于 hpx 它们使用轻量级线程并且您可以配置执行配置文件。此外，上述 C++17 代码的预期（尚未标准化）语法与 hpx 中的（深受启发）基本相同。

参考资料：

C++17 Parallel Algorithms and Beyond by Bryce Adelstein lelbach
The future of ISO C++ Heterogeneous Computing by Michael Wong
Keynote C++ executors to enable heterogeneous computing in tomorrow's C++ today by Michael Wong
Executors for C++ - A Long Story Detlef Vollmann

【讨论】：

【解决方案2】：

Pre-final C++17 draft 没有提及“如何实现多线程算法”，这是真的。实施所有者自行决定如何执行此操作。例如。 Parallel STL 使用 TBB 作为线程后端，OpenMP 作为向量化后端。我想要了解此实现如何与您的机器匹配 - 您需要阅读 implementation-specific 文档

【讨论】：