正则表达式中 + 的含义是什么？答案

【问题标题】：What is the meaning of + in a regex?正则表达式中 + 的含义是什么？
【发布时间】：2011-04-20 11:55:15
【问题描述】：

正则表达式中的加号是什么意思？

【问题讨论】：

你能发个样本吗？
/s+a+m+p+l+e+/
^^ 匹配 sample、samplee 和 sssaaaaaammmppplllllle，但不匹配 smple

【解决方案1】：

+ 实际上可以有两种含义，具体取决于上下文。

与提到的其他答案一样，+ 通常是 repetition 运算符，并导致前面的标记重复一次或多次。 a+在formal language theory中可以表示为aa*，也可以表示为a{1,}（最少匹配1次，最多匹配无限次）。

但是，+ 也可以使其他量词 possessive 如果它遵循重复运算符（即 ?+、*+、++ 或 {<i>m</i>,<i>n</i>}+）。所有格量词是一些正则表达式风格（PCRE、Java 和 JGsoft 引擎）的高级功能，它告诉引擎在匹配完成后不要回溯。

要了解其工作原理，我们需要了解正则表达式引擎的两个概念：贪婪和回溯。贪婪意味着通常正则表达式会尝试使用尽可能多的字符。假设我们的模式是.*（dot 是正则表达式中的一个特殊结构，表示任何字符¹；星号表示匹配零次或多次），并且你的目标是aaaaaaaab。整个字符串都会被消耗掉，因为整个字符串是满足模式的最长匹配。

但是，假设我们将模式更改为.*b。现在，当正则表达式引擎尝试匹配 aaaaaaaab 时，.* 将再次消耗整个字符串。但是，由于引擎将到达字符串的末尾并且模式尚未满足（.* 消耗了所有内容，但之后模式仍必须匹配 b），它将回溯，一次一个字符，并尝试匹配b。第一次回溯会使.*消耗aaaaaaaa，然后b可以消耗b，模式成功。

占有量词也是贪婪的，但如前所述，一旦它们返回匹配项，引擎就不能再回溯到那个点。因此，如果我们将模式更改为.*+b（所有格匹配任何字符零次或多次，后跟b），并尝试匹配aaaaaaaab，.* 将再次消耗整个字符串，但随后因为它是所有格，所以回溯信息被丢弃，并且 b 无法匹配，因此模式失败。

^{¹ 在大多数引擎中，点不会匹配换行符，除非指定了/s（“singleline”或“dotall”）modifier。}

【讨论】：

+1;不过，所有格量词仅适用于 Java、PCRE 或 JGSoft 正则表达式引擎。 Ruby、Perl 和 .NET 使用原子组 (?>.*)。
@Tim 我提到了这一点，但我现在在我的回答中更加明确了。
@Tim：Perl 确实支持占有量词，可能从 5.10 开始
@ninjalj：感谢您提供的信息。那么this comparison 似乎不再是最新的了。
很棒的答案！真的帮助我理解了+很多。谢谢。

【解决方案2】：

在大多数实现中，+ 表示“一个或多个”。

在一些理论著作中，+ 用于表示“或”（大多数实现使用| 符号）。

【讨论】：

【解决方案3】：

1 个或多个先前的表达式。

[0-9]+

匹配：

1234567890

在：

我有 1234567890 美元

【讨论】：

【解决方案4】：

前面的符号出现一次或多次。

例如a+ 表示字母a 一次或多次。因此，a 匹配 a、aa、aaaaaa，但不是空字符串。

如果您知道星号 (*) 的含义，那么您可以将(exp)+ 表示为(exp)(exp)*，其中(exp) 是任何正则表达式。

【讨论】：

【解决方案5】：

很大程度上取决于+ 符号出现的位置以及正则表达式的风格。

在posix-bre 和vim（在非魔法模式下）风格中，+ 匹配文字+ 字符。例如。 sed 's/+//g' file > newfile 删除 file 中的所有 + 字符。如果您想在此处使用+ 作为quantifier，请使用\+（在GNU 工具中支持），或替换为\{1,\} 或将量化模式加倍并从第一部分删除量词并添加* （零次或多次出现量词）在另一个之后（例如sed 's/c++*//' 删除c 后跟一个或多个+ 字符）。

在posix-ere 和其他正则表达式风格中，在character class ([...]) 之外，+ 充当量词，意思是“一个或多个，但尽可能多地出现量化模式*。例如，javascript、s.replace(/\++/g, '-') 将用单个- 替换像++++ 这样的字符串。注意在 NFA 正则表达式风格中+ 有一个 lazy counterpart、+?，它匹配“一个或多个，但尽可能很少，出现的量化模式”。

在字符类中，+ 字符被视为文字字符，在每个正则表达式风格中。 [+] 始终匹配单个 + 文字字符。例如。在c#，Regex.Replace("1+2=3", @"[+]", "-") 将导致1-2=3。注意在一个字符类中使用单个字符不是一个好主意，只对两个或多个字符或字符集使用一个字符类。例如。 [+0-9] 匹配 + 或任何 ASCII 数字字符。在php 中，preg_replace('~[\s+]+~', '-', '1 2+++3') 将导致1-2-3，因为正则表达式匹配一个或多个（由于最后一个+ 是一个量词）空格（\s）或加字符（+ 包含在字符类中)。

+ 符号也可以是某些类似 PCRE 的正则表达式风格（php、ruby、java、boost、icu 等）中 possessive quantifier 的一部分（但没有在python re, .net, javascript). 例如C\+++(?!\d) 在php PCRE 将匹配C 然后一个或多个+ 符号（@9876543737@ - 文字@9876和++ 再出现一次，允许回溯到这个量化模式）后面没有数字。如果加字符后有一个数字，则整个匹配失败。其他示例：a?+（一个或零 a 字符）、a{1,3}+（尽可能多的一到三个a 字符）、a{3}+（=a{3}、三个as）、a*+ 匹配零个或多个a 字符。

【讨论】：