【问题标题】:What persistent data structures does Raku/Rakudo include?Raku/Rakudo 包括哪些持久性数据结构?
【发布时间】:2021-04-10 03:12:45
【问题描述】:

Raku 提供的many 类型为immutable,因此在创建后无法修改。直到我最近开始研究这个领域,我的理解是这些类型 不是 persistent data structures - 也就是说,与 Clojure 或 Haskell 中的核心类型不同,我认为 Raku 的不可变类型并没有采用结构共享的优势,以允许廉价的副本。我认为my List $new = (|$old-list, 42); 语句实际上复制了$old-list 中的值,没有持久数据结构的数据共享功能。

我的理解的描述是过去时,但是,由于以下代码:

my Array $a = do {
    $_ = [rand xx 10_000_000];
    say "Initialized an Array in $((now - ENTER now).round: .001) seconds"; $_}
my List $l = do {
    $_ = |(rand xx 10_000_000);
    say "Initialized the List in $((now - ENTER now).round: .001) seconds"; $_}
do { $a.push: rand;  
     say "Pushed the element to the Array in $((now - ENTER now).round: .000001) seconds" }
do { my $nl = (|$l, rand); 
     say "Appended an element to the List in $((now - ENTER now).round: .000001) seconds" }
do { my @na = |$l; 
     say "Copied List \$l into a new Array in $((now - ENTER now).round: .001) seconds" }

在一次运行中产生了这个输出:

Initialized an Array in 5.938 seconds
Initialized the List in 5.639 seconds
Pushed the element to the Array in 0.000109 seconds
Appended an element to the List in 0.000109 seconds
Copied List $l into a new Array in 11.495 seconds

也就是说,使用旧值 + 再创建一个新 List 与推送到可变数组一样快,并且比将 List 复制到新数组中快得多——这正是您期望的性能特征从持久列表中查看(复制到数组仍然很慢,因为它不能在不破坏列表不变性的情况下利用结构共享)。将$l 快速复制到$nl不是,因为List 是懒惰的;也不是。

以上所有内容让我相信 Rakudo 中的列表实际上持久性数据结构,具有所有隐含的性能优势。这给我留下了几个问题:

  • 关于列表是持久性数据结构,我说得对吗?
  • 所有其他不可变类型也是持久数据结构吗?或者有吗?
  • 这是 Raku 的任何一部分,还是只是 Rakudo 做出的实施选择?
  • 这些性能特征是否在任何地方都有记录/保证?

我不得不说,发现证据表明至少有一些 Raku(do) 的类型是持久的,这给我留下了深刻的印象,也让我感到非常困惑。这是其他语言 list as a key selling point 或导致在 GitHub 上创建 libraries with 30k+ stars 的那种功能。我们真的在 Raku 中没有提及它吗?

【问题讨论】:

  • 根据定义,除非绝对防止垃圾收集,否则它不会是“持久”数据结构,对吗?
  • @codesections "将$l 快速复制到$nl 不是因为List 懒惰;也不是。"你依赖.is-lazy吗?根据its doc,加上我添加的强调is-lazy“当且仅当底层迭代器或缓存列表[或序列]True i>认为自己很懒惰。”,但另请参阅my answer to SO "About Laziness",以及我通过使用a modified version of your code 使行为可见。
  • 我很好奇你是否因为希望得到别的东西而没有接受 jnthn 的回答。如果是这样,我很想知道您的评论,提供您所缺少的内容的简短摘要(或者可能接受 jnthn 的回答并写一个新的 Q)。
  • @jubilatious1:这个属性是如何从持久数据结构的定义中得出的?持久性数据结构的唯一真正要求是,如果我引用了它,并且其他人修改了数据结构,我应该仍然可以访问我的版本。我们通常还要求操作是高效的(即与等效的非持久性数据结构相当)并且所有版本都同样有效,但这些都是理想的属性,在技术上不是定义的一部分。

标签: functional-programming immutability raku rakudo


【解决方案1】:

我记得实现了这些语义,我当然不记得当时考虑过它们会产生持久数据结构 - 尽管将标签附加到结果上似乎是公平的!

我认为您不会在任何地方找到明确说明这种确切行为的地方,但是语言要求的 事物的最自然实现很自然地导致了这种行为。取成分:

  • infix:<,> 运算符是 Raku 中的 List 构造函数
  • List 被创建时,它在惰性和扁平化方面是不明确的(这些源于我们如何使用List,我们通常不知道它的构造点)
  • 当我们编写(|$x, 1) 时,prefix:<|> 运算符构造了一个Slip,它是一种List,应该融入其周围的List。因此infix:<,> 看到的是SlipInt
  • Slip 立即融入结果List 意味着对渴望做出承诺,而仅List 构造不应该这样做。因此,Slip 及其之后的所有内容都被放入 List 的惰性求值(“未具体化”)部分。

最后一个是导致观察到的持久数据结构样式行为的原因。

我希望有可能实现检查Slip 并选择急切地复制已知不懒惰的东西,并且仍然符合规范测试套件。这会改变你的例子的时间复杂度。如果你想对此进行防御,那么:

do { my $nl = (|$l.lazy, rand); 
     say "Appended an element to the List in $((now - ENTER now).round: .000001) seconds" }

即使实施发生变化,也应该足以强制解决问题。

立即想到的其他与持久数据结构或至少尾共享相关的案例:

  • 字符串的 MoarVM 实现,在 strStr 之后,通过创建一个新字符串来实现字符串连接,该字符串引用正在连接的两个字符串,而不是复制两个字符串中的数据(并且确实substr 和重复的类似技巧)。这严格来说是一种优化,而不是语言要求,并且在一些微妙的情况下(一个字符串的最后一个字素和下一个字符串的第一个字素将在结果字符串中形成一个字素),它放弃并采用复制路径。
  • 在核心之外,Concurrent::StackConcurrent::QueueConcurrent::Trie 等模块使用尾部共享作为实现相对高效的无锁数据结构的技术。

【讨论】:

  • 谢谢!不过,我不确定我理解你所说的最后一个项目符号是什么意思。 (|$l).is-lazy 返回False - 所以你是说Slip 的内部存储是惰性的(/non-reified),即使 Slip 本身不是?另外,您是否知道 Maps/其他不可变类型中是否存在相同的结构共享行为?
  • @codesections 关于is-lazy,请参阅我在您的问题中添加的评论。
  • @codesections 在我们用infix:<,> 构造List 时,我们不知道它是否会变得懒惰。在像lazy |$a, |$b 这样的表达式中,|$a, |$bList 被构造然后通过调用.lazy 将其标记为惰性。如果,作为infix:<,> 的一部分,我们要扩展滑落的$a,因为它的is-lazy 碰巧返回False,当我们将其标记为懒惰时为时已晚。 (这里的一般 Raku 设计原则是事物保留信息,直到我们将它们置于强制特定解释的上下文中。)
  • @codesections 我认为目前Map 不会发生类似情况;在List 上导致这种行为的设计力量对于Map 不存在(它们从不懒惰,也不参与扁平化列表列表)。我已经提到了Str 的实现细节。我不确定Rats 目前的内部外观如何,但我认为它们在构建时会正常化,所以一般不要分享它们通常由它们构成的Ints。
猜你喜欢
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2013-04-17
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2011-03-07
  • 2017-09-03
相关资源
最近更新 更多