Haskell 的局部属性是什么？答案

【问题标题】：What are the locality properties of Haskell?Haskell 的局部属性是什么？
【发布时间】：2015-07-02 20:23:24
【问题描述】：

现代 CPU 已经过优化，因此访问和修改内存中的同一位置（时间局部性）以及内存中的连续位置（空间局部性）是非常快速的操作。

现在，由于 Haskell 是一种纯粹不可变的语言，你自然不能覆盖现有的内存块，这可能会使像 foldl 这样的事情比在 C 中连续访问结果变量的 for 循环慢得多。

Haskell 是否在内部采取任何措施来减轻这种性能损失？总的来说，它关于局部性的属性是什么？

【问题讨论】：

当然 Haskell 没有指定这一点 - 所以它取决于实现（很可能是 GHC），我认为它足够 smart 编译像 foldl 这样的东西进入一个循环（如果不是 GHC 本身，甚至后端都可以管理） - 但我真的只是在猜测 - 当然您可以随时自己尝试并查看输出；）跨度>
读取仍然受益于局部性。在合适的 monad 中，可变数组应该具有与命令式语言相同的性能。不可变数据结构当然不允许简单的就地修改。在某些情况下，GHC 可能会对此进行优化（例如，紧密的数字循环不会在每次迭代时分配新的整数）。 OTOH，具有不变性极大地有助于并行化您的代码，而不会导致频繁的缓存失效。

标签： performance haskell memory

【解决方案1】：

一般规则是，对于“普通”Haskell 编程，您几乎无法（如果有的话）控制内存布局和内存位置。

但是，确实存在许多允许此类控制的更高级功能，以及在这些功能之上公开友好抽象的库。 vector 库可能是后者中最受欢迎的。这个库提供了几种固定大小的数组类型，其中两种（Data.Vector.Unboxed 和Data.Vector.Storable）通过将向量及其内容表示为连续的内存数组来为您提供数据局部性。 Data.Vector.Unboxed 甚至包含一个简单的自动“数组结构”转换——一个未装箱的向量对将表示为一对未装箱的向量，每个向量对的组件都有一个。

另一个例子是用于图像处理的JuicyPixels 库，它将内存中的图像表示为连续的位图。这实际上达到了Data.Vector.Storable 的最低点，它利用标准工具 (Foreign.Storable) 将用户定义的 Haskell 数据类型转换为原始字节和从原始字节转换。

但一般模式是这样的：在 Haskell 中，当您对内存局部性感兴趣时，您会确定哪些数据需要从中受益，并将其捆绑到一个自定义数据类型中，该数据类型的实现旨在提供局部性和性能保证.编写这样的数据类型是一项高级任务，但大部分工作已经以可重用的方式完成（例如，JuicyPixels 主要只是重用 vector）。

还要注意：

vector 提供 流融合 优化以在您应用嵌套向量转换时消除中间数组。如果您生成一个从 0 到 1,000,000 的向量，过滤掉偶数，在其上映射 (^2) 函数并对结果的元素求和，则不会分配任何数组——库具有将其重写为累加器循环的智能从 0 到 1,000,000。所以向量的foldl 不一定比for 循环慢——可能根本就没有数组！
vector 也提供可变数组。更一般地说，在 Haskell 中，如果您真的坚持，您可以覆盖现有内存。它只是 (a) 不是语言中的默认范式，因此 (b) 有点笨拙，但如果您只需要在一些性能敏感的地方使用它，它绝对易于处理。

所以大多数时候，“我想要内存位置”的答案是“使用vector”。

【讨论】：

关于你的流融合它仍然需要以某种方式将数据存储在内存中，你不能真正修改不存在的东西
流融合示例中精心挑选的操作一次只需要一个“向量”元素，并且所有数据都将存在于寄存器中，也可能存在于堆栈中。当然，您也可以自己编写一个显式循环；流融合不是魔术。
顺便说一下，GHC自带的数组包中还包括未装箱和可存储的数组。
@ElectricCoffee：我给出的例子中没有。流融合的一个经验法则是：如果您顺序生成一个向量，该向量只有一个消费者，并且该消费者顺序访问其元素，则不会分配任何数组。我给出的示例从头到尾都符合这些条件。

【解决方案2】：

Haskell 是一种非常高级的语言，而您正在问一个关于非常低级细节的问题。

总的来说，Haskell 的性能可能类似于 Java 或 C# 等任何垃圾收集语言。特别是，Haskell 具有可变数组，其性能类似于任何其他数组。（您可能需要未装箱的数组来匹配 C 的性能。）

对于像折叠这样的东西，如果最终结果是像机器整数这样的东西，那么它可能会在整个循环期间结束在处理器寄存器中。所以最终的机器代码与“C 中连续访问的变量”几乎相同。（如果结果是字典什么的，那么可能不是。但这和 C 一样。）

更一般地说，如果本地性对您来说很重要，那么任何垃圾收集语言都可能不是您的朋友。但是，同样，您可以使用未装箱的数组来解决这个问题。

所有这些讨论都很棒，但是如果您真的想知道特定的 Haskell 程序有多快，对其进行基准测试。事实证明，编写良好的 Haskell 程序通常非常快。（就像大多数编译语言一样。）

新增：您可以要求 GHC 以 Core 格式输出部分编译的代码，该格式比 Haskell 低级，但比机器码高。这让你看到编译器决定做什么（特别是，在哪里内联了东西，在哪里删除了抽象，等等）这可以帮助你找出最终代码的样子，无需一直深入到机器代码。

【讨论】：

"任何垃圾收集的语言都可能不是你的朋友" 取决于。反之亦然。在时间上接近分配的对象最终在内存中接近。非常好的地方。
@usr 还取决于第 1 代堆的大小、GC 频率、代提升时间以及其他一些因程序而异的东西，是的。 :-}
GC 倾向于保留局部性。它消除了死孔并将活的物体推得更近。有关 GC 下的局部性示例，请参阅 stackoverflow.com/questions/14023988/…。
@ElectricCoffee GHC 用于编译为 C。我认为代码路径现在仅用于移植；默认情况下，它通过本机后端编译，或者如果您选择它，它会编译为 LLVM。（我可能错了……）
@MathematicalOrchid 可能还想添加一个专门用于阅读核心的句子或段落。这通常可以很好地了解哪些结构被优化到紧密循环，哪些没有。