【问题标题】:What are the locality properties of Haskell?Haskell 的局部属性是什么?
【发布时间】:2015-07-02 20:23:24
【问题描述】:

现代 CPU 已经过优化,因此访问和修改内存中的同一位置(时间局部性)以及内存中的连续位置(空间局部性)是非常快速的操作。

现在,由于 Haskell 是一种纯粹不可变的语言,你自然不能覆盖现有的内存块,这可能会使像 foldl 这样的事情比在 C 中连续访问结果变量的 for 循环慢得多。

Haskell 是否在内部采取任何措施来减轻这种性能损失?总的来说,它关于局部性的属性是什么?

【问题讨论】:

  • 当然 Haskell 没有指定这一点 - 所以它取决于实现(很可能是 GHC),我认为它足够 smart 编译像 foldl 这样的东西进入一个循环(如果不是 GHC 本身,甚至后端都可以管理) - 但我真的只是在猜测 - 当然您可以随时自己尝试并查看输出;)跨度>
  • 读取仍然受益于局部性。在合适的 monad 中,可变数组应该具有与命令式语言相同的性能。不可变数据结构当然不允许简单的就地修改。在某些情况下,GHC 可能会对此进行优化(例如,紧密的数字循环不会在每次迭代时分配新的整数)。 OTOH,具有不变性极大地有助于并行化您的代码,而不会导致频繁的缓存失效。

标签: performance haskell memory


【解决方案1】:

一般规则是,对于“普通”Haskell 编程,您几乎无法(如果有的话)控制内存布局和内存位置。

但是,确实存在许多允许此类控制的更高级功能,以及在这些功能之上公开友好抽象的库。 vector 库可能是后者中最受欢迎的。这个库提供了几种固定大小的数组类型,其中两种(Data.Vector.UnboxedData.Vector.Storable)通过将向量及其内容表示为连续的内存数组来为您提供数据局部性。 Data.Vector.Unboxed 甚至包含一个简单的自动“数组结构”转换——一个未装箱的向量对将表示为一对未装箱的向量,每个向量对的组件都有一个。

另一个例子是用于图像处理的JuicyPixels 库,它将内存中的图像表示为连续的位图。这实际上达到了Data.Vector.Storable 的最低点,它利用标准工具 (Foreign.Storable) 将用户定义的 Haskell 数据类型转换为原始字节和从原始字节转换。

但一般模式是这样的:在 Haskell 中,当您对内存局部性感兴趣时,您会确定哪些数据需要从中受益,并将其捆绑到一个自定义数据类型中,该数据类型的实现旨在提供局部性和性能保证.编写这样的数据类型是一项高级任务,但大部分工作已经以可重用的方式完成(例如,JuicyPixels 主要只是重用 vector)。

还要注意:

  1. vector 提供 流融合 优化以在您应用嵌套向量转换时消除中间数组。如果您生成一个从 0 到 1,000,000 的向量,过滤掉偶数,在其上映射 (^2) 函数并对结果的元素求和,则不会分配任何数组——库具有将其重写为累加器循环的智能从 0 到 1,000,000。所以向量的foldl 不一定比for 循环慢——可能根本就没有数组!
  2. vector 也提供可变数组。更一般地说,在 Haskell 中,如果您真的坚持,您可以覆盖现有内存。它只是 (a) 不是语言中的默认范式,因此 (b) 有点笨拙,但如果您只需要在一些性能敏感的地方使用它,它绝对易于处理。

所以大多数时候,“我想要内存位置”的答案是“使用vector”。

【讨论】:

  • 关于你的流融合它仍然需要以某种方式将数据存储在内存中,你不能真正修改不存在的东西
  • 流融合示例中精心挑选的操作一次只需要一个“向量”元素,并且所有数据都将存在于寄存器中,也可能存在于堆栈中。当然,您也可以自己编写一个显式循环;流融合不是魔术。
  • 顺便说一下,GHC自带的数组包中还包括未装箱和可存储的数组。
  • @ElectricCoffee:我给出的例子中没有。流融合的一个经验法则是:如果您顺序生成一个向量,该向量只有一个消费者,并且该消费者顺序访问其元素,则不会分配任何数组。我给出的示例从头到尾都符合这些条件。
【解决方案2】:

Haskell 是一种非常高级的语言,而您正在问一个关于非常低级细节的问题。

总的来说,Haskell 的性能可能类似于 Java 或 C# 等任何垃圾收集语言。特别是,Haskell 具有可变数组,其性能类似于任何其他数组。 (您可能需要未装箱的数组来匹配 C 的性能。)

对于像折叠这样的东西,如果最终结果是像机器整数这样的东西,那么它可能会在整个循环期间结束在处理器寄存器中。所以最终的机器代码与“C 中连续访问的变量”几乎相同。 (如果结果是字典什么的,那么可能不是。但这和 C 一样。)

更一般地说,如果本地性对您来说很重要,那么任何垃圾收集语言都可能不是您的朋友。但是,同样,您可以使用未装箱的数组来解决这个问题。

所有这些讨论都很棒,但是如果您真的想知道特定的 Haskell 程序有多快,对其进行基准测试。事实证明,编写良好的 Haskell 程序通常非常快。 (就像大多数编译语言一样。)

新增:您可以要求 GHC 以 Core 格式输出部分编译的代码,该格式比 Haskell 低级,但比机器码高。这让你看到编译器决定做什么(特别是,在哪里内联了东西,在哪里删除了抽象,等等)这可以帮助你找出最终代码的样子,无需一直深入到机器代码。

【讨论】:

  • "任何垃圾收集的语言都可能不是你的朋友" 取决于。反之亦然。在时间上接近分配的对象最终在内存中接近。非常好的地方。
  • @usr 还取决于第 1 代堆的大小、GC 频率、代提升时间以及其他一些因程序而异的东西,是的。 :-}
  • GC 倾向于保留局部性。它消除了死孔并将活的物体推得更近。有关 GC 下的局部性示例,请参阅 stackoverflow.com/questions/14023988/…
  • @ElectricCoffee GHC 用于编译为 C。我认为代码路径现在仅用于移植;默认情况下,它通过本机后端编译,或者如果您选择它,它会编译为 LLVM。 (我可能错了……)
  • @MathematicalOrchid 可能还想添加一个专门用于阅读核心的句子或段落。这通常可以很好地了解哪些结构被优化到紧密循环,哪些没有。
猜你喜欢
  • 2015-07-02
  • 1970-01-01
  • 2016-03-21
  • 2016-02-01
  • 1970-01-01
  • 2016-07-02
  • 1970-01-01
  • 2015-04-03
  • 2011-10-07
相关资源
最近更新 更多