将 NFA 转换为正则表达式答案

【问题标题】：Convert a NFA to Regular Expression将 NFA 转换为正则表达式
【发布时间】：2013-11-19 01:11:10
【问题描述】：

我在这个网站上发现了同样的问题，答案是PDF describing how to convert an NFA to a regex。但这不起作用，因为这种方法有一些条件：

存在从初始状态到所有其他状态的转换，并且没有过渡到初始状态。
只有一个接受状态，只有转换进入它（并且没有传出过渡）。
接受状态不同于初始状态。
除了初始状态和接受状态，所有其他状态都连接到所有其他状态通过过渡状态。特别是，每个状态都有到自身的转换。

在我的示例中，开始状态只是进入下一个状态，而不是所有状态（例如 q0 进入 q1 但不进入 q2、q3），并且有到开始状态的转换。

那么将 NFA 转换为正则表达式的最简单方法是什么？我没有给出 NFA 示例，因为我没有一个特定的示例，这只是一个一般性问题，因为我遇到了这种 DFA，其中开始状态与所有状态不相关，并且是过渡到开始状态。

我想要一个通用算法来转换这种 NFA。

【问题讨论】：

这个转换算法在乌尔曼自动机一书中有描述

标签： regex nfa

【解决方案1】：

答案是假设这些条件，因为任何 NFA 都可以修改以满足这些要求。

对于任何类型的 NFA，您都可以添加一个新的初始状态 q₀，它对原始初始状态有一个 epsilon 转换，还可以使用一个称为 ∅ 的附加转换符号（他们称之为空集符号，假设是一个与原始 NFA 中的任何符号都不匹配的符号）从它到任何其他状态，然后使用这个新状态作为新的初始状态。请注意，这不会更改原始 NFA 接受的语言。这将使您的 NFA 满足第一个条件。

对于任何类型的 NFA，您都可以添加一个新的接受状态 q_a，它具有来自原始 NFA 中所有接受状态的 epsilon-transition。然后将此标记为唯一的接受状态。请注意，这不会更改原始 NFA 接受的语言。这将使您的 NFA 满足第二个条件。

通过上述构造，通过设置q₀ != q_a，满足第三个条件。

在您提供的链接中，第四个条件通过一个特殊的转换符号来解释，称为 ∅（空集符号），原始 NFA 中的任何实际字母都无法与之匹配。因此，您可以使用这个新符号添加从每个状态到任何其他状态的转换。请注意，这不会更改原始 NFA 接受的语言。

所以现在 NFA 已经被修改为满足这四个要求，您可以应用那里的算法将 NFA 转换为正则表达式，它将接受与原始 NFA 相同的语言。

编辑以回答更多问题：

要在评论中回答您的问题，请考虑具有两个状态的 NFA，q_A 和 q_B。 q_A 是初始状态，也是唯一的接受状态。我们有一个从 q_A 到符号 0,1 的转换。我们也有从 q_A 到 q_B 的转换，符号为 1。最后我们有从 q_B 到 q_{A 的转换sub> 符号为 0。}

可视化：

0,1 | 1 ->q_A----->q_B ^ | |-------| 0

Step 2. 当我们对 NFA 进行归一化时，只需放入指向 q_A 的新 init 状态 (q_init)，并放入新的接受状态 (q _acc) 来自 q_A.

第 3 步。我们要删除 q_A。所以 q_A 是算法中的 q_rip（在第 3 页）。现在我们需要考虑进入 q_A 的每个状态和退出 q_A 的每个状态。在这种情况下，有两个状态指向 q_A，即 q_init 和 q_B。 q_A 指向两个状态，即 q_B 和 q_acc。通过该算法，我们将转换 q_in->q_rip->q_out 替换为转换 q_in->q_out，具有转换符号 R_dir+R_in(R_rip)*Rout，其中：

R_dir 是从 q_in 到 q_out 的原始转换
R_in 是从 q_in 到 q_rip 的原始转换
R_rip 是 q_rip 处的原始循环
R_out 是从 q_rip 到 q_out 的原始转换

所以在这种情况下，我们将转换 q_init->q_A->q_B 替换为 q_{init sub>->q_B 带有转换符号 (0+1)*1。继续这个过程，我们将总共创建 4 个新的过渡：}

q_init->q_B: (0+1)*1
q_init->q_acc: (0+1)*
q_B->q_B: 0(0+1)*1
q_B->q_acc: 0(0+1)*

那么我们可以去掉q_A。

第 4 步。我们要删除 q_B。同样，我们确定了 q_in 和 q_out。这里只有一个状态来到q_B，就是q_init，离开q_B只有一个状态，就是q_acc。所以我们有：

R_目录 = (0+1)*
R_in = (0+1)*1
R_rip = 0(0+1)*1
R_出 = 0(0+1)*

所以新的转换 q_init->q_acc 将是：

R_dir+R_in(R_rip)*R_out

(0+1)* + (0+1)*1 (0(0+1)*1)* 0(0+1)*

我们可以删除q_B。

第 5 步。由于原始 NFA 中的每个状态都已被删除，因此我们完成了。所以最终的正则表达式如上所示。

请注意，最终的正则表达式可能不是最优的（在大多数情况下也不是最优的），这是算法所期望的。一般而言，为 NFA（甚至 DFA）找到最短的正则表达式非常困难（尽管对于这个示例，很容易看出第一个组件已经涵盖了所有可能的字符串）

为了完整起见，接受相同语言的最短正则表达式为：

(0+1)*

【讨论】：

非常感谢您的回复。在我提供的网站上，2.1 示例：从 GNFA 到 8 个简单图形中的正则表达式，第一步删除状态 A，但是示例中的此状态在状态 A 上没有循环转换，如果我的 A 状态有循环转换怎么办超过？我必须把这个转换到 q0 （新的初始状态）？此外，如果一个状态将数据发送到旧的初始状态呢？
例如，如果原始初始状态 qA，具有 0 和 1 的循环箭头，发送到 qB 1 并从 qB 0 接收，这会是什么样子？循环箭头将是 (0+1)* 和发送和接收 (01)* ？并且都从 NEW 初始状态发送到 qB 并带有一个转换，例如 (0+1)*(01)*?