Mathematica 中的树数据结构答案

【问题标题】：Tree data structure in MathematicaMathematica 中的树数据结构
【发布时间】：2011-08-31 02:57:50
【问题描述】：

我主要将mathematica 用作数学工作台和编写相对较小的临时程序。然而，我正在设计一个我打算在 Mathematica 中编程的系统。我需要将数据存储在树中，然后搜索和遍历树。虽然我知道如何实现树，但我更喜欢标准的、经过测试的代码。我在 Mathematica 用户 wiki 上查看了用于基本数据结构的包类型。我没有找到，尽管 Mathematica 文档中有一个小例子。

现在回答我的问题：

是否有（开源）数据结构包可用？
您在数据结构方面使用了什么方法？逐步开发自己的 util 包？

（不是一个问题，只是一个评论。也许......缺乏（大量可用的）开源包是 Mathematica 没有应有的动力的原因。恐怕是鸡/蛋的问题.)

【问题讨论】：

不是您的问题的答案，但有 old talk by Daniel Lichtblau 讨论 Mathematica 中的数据结构。
有趣！会读的，谢谢。
另外一些遍历代码可以看demonstrations.wolfram.com/…
我非常同意你关于开源的评论。我认为问题之一是没有自动打包系统可以轻松自动地使用其他人的工作（如Java中的jar），并且编写包的标准不够严格。
@Simon @ndrook1 - 你可能也对 MathSource 上的这个包感兴趣：library.wolfram.com/infocenter/MathSource/4378

标签： wolfram-mathematica

【解决方案1】：

我主要将 mathematica 用作数学工作台和编写相对较小的临时程序。

Mathematica 在这方面确实很擅长。

您在数据结构方面使用了什么方法？逐步开发自己的 util 包？

我避免在 Mathematica 中创建自己的数据结构，因为它无法有效地处理它们。具体来说，一般数据结构在 Mathematica 中往往比其他地方慢 10-1,000 倍，这极大地限制了它们的实际用途。例如，Mathematica is 100× slower than F# at computing the range of depths in a red-black tree。

使用列表进行逻辑编程就是一个例子，其中 Mathematica 通常比其他编译语言慢几个数量级。下面的 Mathematica 程序使用链表来解决 n-queens 问题：

safe[{x0_, y0_}][{x1_, y1_}] := 
 x0 != x1 && y0 != y1 && x0 - y0 != x1 - y1 && x0 + y0 != x1 + y1

filter[_, {}] := {}
filter[p_, {h_, t_}] := If[p[h], {h, filter[p, t]}, filter[p, t]]

search[n_, nqs_, qs_, {}, a_] := If[nqs == n, a + 1, a]
search[n_, nqs_, qs_, {q_, ps_}, a_] := 
 search[n, nqs, qs, ps, 
  search[n, nqs + 1, {q, qs}, filter[safe[q], ps], a]]

ps[n_] := 
 Fold[{#2, #1} &, {}, Flatten[Table[{i, j}, {i, n}, {j, n}], 1]]

solve[n_] := search[n, 0, {}, ps[n], 0]

这是等效的 F#：

let safe (x0, y0) (x1, y1) =
  x0<>x1 && y0<>y1 && x0-y0<>x1-y1 && x0+y0<>x1+y1

let rec filter f = function
  | [] -> []
  | x::xs -> if f x then x::filter f xs else filter f xs

let rec search n nqs qs ps a =
  match ps with
  | [] -> if nqs=n then a+1 else a
  | q::ps ->
      search n (nqs+1) (q::qs) (filter (safe q) ps) a
      |> search n nqs qs ps

let ps n =
  [ for i in 1..n do
      for j in 1..n do
        yield i, j ]

let solve n = search n 0 [] (ps n) 0

solve 8

使用 Mathematica 解决 8 皇后问题需要 10.5 秒，使用 F# 需要 0.07 秒。所以在这种情况下，F# 比 Mathematica 快 150 倍。

堆栈溢出问题Mathematica "linked lists" and performance 给出了一个更极端的例子。将该 Mathematica 代码简单地翻译成 F# 后，可以得到一个等效程序，其运行速度比 Mathematica 快 4,000 到 200,000 倍：

let rand = System.Random()
let xs = List.init 10000 (fun _ -> rand.Next 100)
Array.init 100 (fun _ ->
  let t = System.Diagnostics.Stopwatch.StartNew()
  ignore(List.length xs)
  t.Elapsed.TotalSeconds)

具体来说，Mathematica 需要 0.156 秒到 16 秒来执行一次迭代，而 F# 需要 42 微秒到 86 微秒。

如果我真的想留在 Mathematica，那么我会将我正在做的所有事情都塞进 Mathematica 的少数内置数据结构中，例如Dispatch.

【讨论】：

偶尔我会做一个 Project Euler 练习，完成后我会将（性能）结果与许多其他语言和解决方案进行比较。 Mathematica 在该比赛中的排名并没有那么慢。就我的目的而言，Mathematica 就足够了。如果不是，它通常会超出范围，没有其他语言可以处理它。 - 如果您想快速使用 Mathematica，您可以编译为 C 作为中间语言并从那里进行调整。
@niloderoock：我对 Euler 项目不熟悉，但是从这个网页en.wikibooks.org/wiki/… 来看，它解决了 Mathematica 和 F# 中的前 26 个问题，看起来这些问题不需要任何自定义数据结构，这是 Stack Overflow 问题的主题。
关于您的最新更新，您正在比较该页面中的哪些代码？
@Jon Harrop 对于皇后问题，我在 Mathematica 中有一个完全顶级的解决方案，它在 0.15 秒内运行，大小为 8，而且非常短。我同意，尽管 M 中的直接解决方案通常很慢。但是，M 并不是为了赢得语言大战而设计的，我喜欢它提供的东西（工作流程、生产力、尝试想法的方法、交互性等）。当我需要速度时，我将获取您的 F# 代码并通过 .Net Link 将其链接到 M :)
@LeonidShifrin：Stephen Wolfram 对元胞自动机的迷恋促使 WRI 开发了一些很棒的方法来在 Mathematica 中有效地评估它们。这与使用完全不同的数据结构解决问题的想法密切相关。为了研究不可约的复杂性，努力降低计算复杂度可能有些讽刺。 :-)

【解决方案2】：

在 Mathematica 中，您所做的大部分工作都是基于表达式。表达式自然具有树结构。对于深度优先遍历（这可能是最常见的），您可以使用Scan、Map、Cases 等函数。与更传统的语言不同的是，没有简单的方法来保存身份表达式树中的单个节点，因为 Mathematica 中没有指针。此外，当您只需要在几个地方修改表达式时，许多对 Mathematica 惯用表达式的操作会复制整个表达式，因为表达式是不可变的。

使用不可变的 Mathematica 表达式作为树仍然有几个优点。一是，因为它们是不可变的，所以只需查看它们就很容易理解它们存储的内容（状态和行为没有混合）。另一个是有高效和通用的函数，例如Map、MapIndexed 或Scan，可以遍历它们。例如，访问者设计模式是invisible - 它只是Map[f,tree,Infinity]，内置在语言中。此外，还有一些内置函数，如Cases、Replace、ReplaceAll 等，可以编写非常简洁和声明性的代码来解构树，找到具有特定语法或满足某些条件的树片段，等等。由于树不仅限于从列表构建并且从不同的头构建，因此可以有效地使用它来编写非常简洁的树处理代码。最后，根据exploratory and bottom-up programming 的精神，可以非常轻松地构建任何您想要的树结构，从而更轻松地进行实验和原型制作，从而缩短开发周期并最终带来更好的设计。

也就是说，您当然可以实现“有状态”（可变）树数据结构。我怀疑它尚未完成的真正原因通常是与构建、修改和遍历这样的树相关的性能损失，因为它将在每一步都经过完整的符号评估过程（有关更多详细信息，请参阅this 帖子在那）。有关如何在 Mathematica 上下文中使用二叉搜索树以获得相当高效的代码的 2 个示例，请参阅我的帖子 here（通用符号设置）和 here（在编译代码的上下文中）。对于在 Mathematica 中惯用地构造数据结构的一般方法，我推荐 Roman Maeder 的书籍：“Programming in Mathematica”、“Mathematica 程序员 I&II”，尤其是“Computer Science in Mathematica”。在后者中，他详细讨论了如何在 Mathematica 中实现二叉搜索树。编辑正如@Simon 提到的，@Daniel Lichtblau 的谈话也是一个很好的资源，它展示了如何构建数据结构并使其高效。

关于在 Mathematica 中实现包含某些状态的数据结构的一般方法，这是从我在 this Mathgroup 线程中的帖子中提取的一个简单示例 - 它实现了“对”数据结构。

Unprotect[pair, setFirst, getFirst, setSecond, getSecond, new, delete];
ClearAll[pair, setFirst, getFirst, setSecond, getSecond, new, delete];
Module[{first, second},
  first[_] := {};
  second[_] := {};
  pair /: new[pair[]] := pair[Unique[]];
  pair /: pair[tag_].delete[] := (first[tag] =.; second[tag] =.);
  pair /: pair[tag_].setFirst[value_] := first[tag] = value;
  pair /: pair[tag_].getFirst[] := first[tag];
  pair /: pair[tag_].setSecond[value_] := second[tag] = value;
  pair /: pair[tag_].getSecond[] := second[tag];
  Format[pair[x_Symbol]] := "pair[" <> ToString[Hash[x]] <> "]";
];
Protect[pair, setFirst, getFirst, setSecond, getSecond, new, delete];

你可以这样使用它：

pr = new[pair[]];
pr.setFirst[10];
pr.setSecond[20];
{pr.getFirst[], pr.getSecond[]}

{10, 20}

创建新配对对象列表：

pairs = Table[new[pair[]], {10}]

{"pair[430427975]", "pair[430428059]", "pair[430428060]", "pair[430428057]",
"pair[430428058]", "pair[430428063]", "pair[430428064]", "pair[430428061]", 
"pair[430428062]", "pair[430428051]"}

设置字段：

Module[{i},
 For[i = 1, i <= 10, i++,
  pairs[[i]].setFirst[10*i];
  pairs[[i]].setSecond[20*i];]]

检查字段：

#.getFirst[] & /@ pairs

{10, 20, 30, 40, 50, 60, 70, 80, 90, 100}

#.getSecond[] & /@ pairs

{20, 40, 60, 80, 100, 120, 140, 160, 180, 200}

在我提到的帖子中有更详细的讨论。以这种方式创建的“对象”的一个大问题是它们没有自动垃圾收集，这可能是顶级 Mathematica 本身实现的 OOP 扩展没有真正起飞的主要原因之一。

Mathematica 有几个 OOP 扩展，例如 Roman Maeder 的 classes.m 包（源代码在他的“Mathematica Programmer”一书中）、Objectica 商业包和其他几个。但是，除非 Mathematica 本身为构建可变数据结构（如果发生这种情况）提供有效的机制（可能基于某种指针或引用机制），否则这些数据结构的顶级实现可能会对性能造成很大影响在mma。此外，由于 mma 的核心思想之一是不可变性，因此要使可变数据结构与 Mathematica 编程的其他习语很好地契合并不容易。

编辑

这是一个基本的有状态树实现，类似于上面的示例：

Module[{parent, children, value},
  children[_] := {};
  value[_] := Null;
  node /: new[node[]] := node[Unique[]];
  node /: node[tag_].getChildren[] := children[tag];
  node /: node[tag_].addChild[child_node, index_] := 
        children[tag] = Insert[children[tag], child, index];
  node /: node[tag_].removeChild[index_] := 
        children[tag] = Delete[children[tag], index];
  node /: node[tag_].getChild[index_] := children[tag][[index]];
  node /: node[tag_].getValue[] := value[tag];
  node /: node[tag_].setValue[val_] := value[tag] = val;
];

一些使用示例：

In[68]:= root = new[node[]]

Out[68]= node[$7]

In[69]:= root.addChild[new[node[]], 1]

Out[69]= {node[$8]}

In[70]:= root.addChild[new[node[]], 2]

Out[70]= {node[$8], node[$9]}

In[71]:= root.getChild[1].addChild[new[node[]], 1]

Out[71]= {node[$10]}

In[72]:= root.getChild[1].getChild[1].setValue[10]

Out[72]= 10

In[73]:= root.getChild[1].getChild[1].getValue[]

Out[73]= 10

有关使用这种可变树数据结构的一个重要示例，请参阅我的this 帖子。它还将这种方法与重用 Mathematica 原生数据结构和函数的方法进行了对比，并很好地说明了本文开头讨论的要点。

【讨论】：

感谢 Leonid 快速而广泛的回答。我会尽量得到你提到的文献。去年我玩过 Roman Maeder 的 OO 包，但现在已经跑题了。
感谢 Leonid 快速而广泛的回答。我会尽量得到你提到的文献。去年我玩过 Roman Maeder 的 OO 包，但现在这不是主题。无论如何：到目前为止，我有 NewTree NewNode AddAsChild AddAsSibling Traverse 的功能，然后一个节点是一个带有 {Id，Object，Previous，Parent} 的列表。我先浏览文献。
我在编辑中添加了一个有状态树的基本实现，按照我的示例 - 你可能会觉得这很有用。
谢谢，今晚我就试试。会回来报告的。
@ndroock1 感谢您的接受！您可以根据需要尽早接受答案。如果您认为新答案更好，您也可以稍后勾选另一个答案。至于主题，我认为这确实是一个非常重要的主题，也许在某些时候 Mathematica 应该对高效的可变数据结构有更好的支持。我也对这个话题很感兴趣。